新闻中心

如何实践操作GEO数据库下载数据进行分析(geo数据分析流程)

2023-10-07
浏览次数:
返回列表
https://www.ncbi.nlm.nih.gov/gds搜索关键词“lung cancer ”(或者搜索“lung cancer normal”),限定表达谱数据集 * Expression profiling by array三部曲:题目,分组,注释信息需要下载的文件:探针矩阵series matrix;平台注释信息 Gene Symbol;group文件(将探针矩阵series matrix文件导入excel,选择“ID_REF”行以及“!Sample_description”行,整理数据形成group文件)建立项目文件夹GSE3268,移动三个文件到文件夹GSE3268中建立文件“探针矩阵转换为基因矩阵”,复制 探针矩阵series matrix;平台注释信息 Gene Symbol;以及代码文件“probe2symbol”将 探针矩阵series matrix文件导入到excel,删除多余信息,根据分组信息排列excel中的列,使得前五行为normal,后五行为tumor将平台注释信息 Gene Symbol文件导入excel,查看 Gene Symbol所在的行数11安装perl软件,打开代码文件“probe2symbol”,输入“11”运行,转换为“geneMatrix”文件,将探针表达矩阵转换为基因表达矩阵安转R语言以及R_Studio编辑器用R_Studio运行代码文件“limma_Pvalue”,考虑需要用到的package,文件,分析新的数据时需要改动什么代码需要用到代码是文件“limma_Pvalue”需要用到的文件是基因表达矩阵“geneMatrix”文件,需要将基因表达矩阵“geneMatrix”文件改名为代码中的命名“input.txt”,安装R包,bioconductor,具体代码可见代码文件“limma_Pvalue”的注释运行一个新的R代码文件,需要修改三个地方,设置新的工作路径(复制文件资源管理器中的代码,将单斜杠该为双斜杠)在代码文件“limma_Pvalue”中,是否需要取log,取决于基因表达矩阵中的数字的大小,如果是在10左右大小的,那么就没有必要取Log更改分组信息,class <- c(rep("nor",5),rep("Tumor",5)) 对照组和实验组各有多少个运行修改后的代码文件,得到结果文件,差异分析的结果diff,上调的结果up和下调的结果down,还能得到校正之后的基因的表达矩阵diffExp

11. 用R_Studio运行代码文件“pheatmap”,考虑需要用到的package,文件,分析新的数据时需要改动什么代码

文件,校正之后的基因的表达矩阵diffExp,分组信息group文件安装R包,#install.packages("pheatmap")修改代码文件,设置新的工作路径(复制文件资源管理器中的代码,将单斜杠该为双斜杠)修改是前10个还是前50个, rt=rt[1:10,] #选??前50??????运行代码文件“pheatmap”,得到基因热图

12. 基因的FoldChange定义为疾病样本的表达均值除以正常样本的表达均值。

网站推荐:

GPL https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL96www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL96GSE https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE3268www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE3268

信号通路了富集分析

R来完成表达芯片分析全流程 | 生信菜鸟团www.bio-info-trainee.com/2087.html使用R语言完成表达芯片处理全流程视频上线 | 生信菜鸟团www.bio-info-trainee.com/3146.html

需要代码可关注私信

搜索