新闻中心
RNA-seq数据分析 04:相关数据的下载(rnaseq数据结果解读)
分析流程开始之前,我们先下载好需要的数据
测序数据
如果由测序公司测序,这一步不必多说,这里主要介绍从论文获取测序数据。
SRA数据介绍:
SRA (Sequence Read Archive) ,是一个保存二代测序原始数据以及信息和元数据的数据库。数据通常压缩以后以 .sra 文件格式保存,需转换成 fastq 格式才能进行后续处理。
SRA 数据往往集中在一个 SRP中,其包含以下信息:
研究课题:DRP、ERP、SRP(S表示Sequence美国、E是欧洲、D是日本) 中国 BIGD 数据库使用 CRA 开头样本信息实验信息组学文章一般都会上传原始数据并告知读者如何获取数据,我们以本次课题中选用的文章为例,在文章中找到相关信息:

这里我们获得了GEO号,进入NCBI(https://www.ncbi.nlm.nih.gov/)获取数据:
左侧选择GEO datasets,右侧输入GEO号

在检索结果中,就能找到我们需要的测序数据:

点进我们想要下载的数据,可以找到SRR号及下载链接:

也可以直接找到全系列的测序数据:

这里可以下载到本地再上传到服务器,但是不推荐。
在服务器上使用sra-tools进行下载:
conda install -c bioconda sra-tools # 安装软件包 prefetch SRR7160933 # 下载数据 #下载多个SRR文件,list中应包含全部的SRR序列号 下载:Accession List prefetch --option-file SRR_Acc_List.txt 如果提示文件过大 可以增加 --max-size 999999999999999999这样就能下载好我们需要的测序数据。
(2022.09.08更新)
在sra-tools官网发现了下列信息:Due to updated security at NCBI, versions of the SRA Toolkit 2.9.6 and older will no longer be able to connect to the NCBI data location service. We advise impacted users to update to thelatest version of the SRA Toolkit.
anaconda上的sra-tools版本是2.9.6,目前最新版本是3.0.0,虽然2.9.6版本应该也可以使用,推荐点击上面的链接下载最新版本
测序数据的解压缩
使用SRA-Tools——Fasterq-dump
fastq-dump 可以用于 .sra 数据的解压缩。fasterq-dump 是 fastq-dump 的升级版,区别在于支持多线程,处理速度更快。软件内置于 sra-tools 中,不用单独安装。
获得 .sra 数据,再通过 fastq-dump 或 fasterq-dump 软件解压得到双端测序的 .fastq 文件。这一文件可用于后续去接头和质量控制等处理。
fasterq-dump -e 4 -p #显示进度条 -3(--split-3) #分开两个read --gzip #输出压缩文件 -o <outfile> SRR***.sra #之前下载的sra数据 输出:SRR***_1.fastq SRR***_2.fastq基因组序列与注释信息
根据实验材料物种,下载基因组序列与注释信息。
我们选用的材料为拟南芥,进入TAIR(https://www.arabidopsis.org/)下载:

在Araport11 genome release中下载基因注释文件Araport11_GTF_genes_transposons
在TAIR10 genome release中进入TAIR10 chromosome files,下载全基因组序列TAIR10_chr_all.fas
可以下载到本地再上传或者在服务器上使用wget命令下载。
wget下载示例:
#基因组注释文件,提供剪接位点与Stringtie所需注释信息 wget https://www.arabidopsis.org/download_files/Genes/Araport11_genome_release/Araport11_GFF3_genes_transposons.May2022.gff.gz wget https://www.arabidopsis.org/download_files/Genes/Araport11_genome_release/Araport11_GTF_genes_transposons.May2022.gtf.gz其他物种的基因组序列下载:
可以参考这篇文章:Ensembl和NCBI基因组下载,基因序列下载查看
RNA-seq数据分析其他步骤:RNAseq数据分析 00:专栏内容介绍及导航