10x转录组从SRA数据到表达矩阵

2021-12-28

组学分析

遇到一个客户想用公开发表的10x并结合自己的样本来进行分析，但是提供了EBI下载的fastq数据，研究无果，自己从SRA中下载。

数据下载

从NCBI SRA数据库中选择研究的样本，导出SRR_Acc_List.txt；

使用sratoolkit+aspera进行下载，具体安装可以参见RNAseq那篇帖子。

cat SRR_Acc_List.txt | while read id
do
    prefetch -t ascp ${id}
done

SRA转fastq

由于10x文库的特殊性，不能用split-3，而用split-files

cat SRR_Acc_List.txt  | while read id
do 
  nohup fastq-dump --gzip --split-files -O ../fastq/ ${id}
done

结果产生SRR12973953_1.fastq.gz,SRR12973953_2.fastq.gz,SRR12973953_3.fastq.gz，等会再解释这三个文件的区别。接下来将这三个文件转换为10x格式。

cat  SRR_Acc_List.txt | while read i 
do 
    mv ${i}_1*.gz ${i}_S1_L001_I1_001.fastq.gz
    mv ${i}_2*.gz ${i}_S1_L001_R1_001.fastq.gz
    mv ${i}_3*.gz ${i}_S1_L001_R2_001.fastq.gz
done

同一个样本的reads进行合并：

cat *_S1_L001_I1_001.fastq.gz >>  sample1_S1_L001_I1_001.fastq.gz 
cat *_S1_L001_R1_001.fastq.gz >> sample1_S1_L001_R1_001.fastq.gz
cat *_S1_L001_R2_001.fastq.gz >> sample1_S1_L001_R2_001.fastq.gz

10x文库和数据结构

10x有两种文库试剂盒v2和v3，v3的UMI(12bp) + barcode(16bp) 总共为28bp,index 拆分样本的为8bp

文库组成

所以这三个文件分别代表index、barcode+UMI、序列长度。

(bioinfo) [Sc03@login sample1]$ zcat SRR12973953_S1_L001_I1_001.fastq.gz | head
@SRR12973953.1 A00682:391:HFJ2FDSXY:2:1101:1705:1000 length=8
GCGCAGAA
+SRR12973953.1 A00682:391:HFJ2FDSXY:2:1101:1705:1000 length=8
FFFF,F,F

(bioinfo) [Sc03@login sample1]$ zcat SRR12973953_S1_L001_R1_001.fastq.gz | head
@SRR12973953.1 A00682:391:HFJ2FDSXY:2:1101:1705:1000 length=28
NCCGTGTTCGGCCAACCACGTTCGGGAA
+SRR12973953.1 A00682:391:HFJ2FDSXY:2:1101:1705:1000 length=28
#FFFFFFFFFFFFFFFFFFFFFFFFFFF

(bioinfo) [Sc03@login sample1]$ zcat SRR12973953_S1_L001_R2_001.fastq.gz | head
@SRR12973953.1 A00682:391:HFJ2FDSXY:2:1101:1705:1000 length=150
TGAAGAAGTGACAGATGATTCCAGGTATTGTACAAGCTCATGAATAAATCAGACATTCTATTATCAAAACTATTTTCTCTCAGCATGGACTGAGTAAGTTGAATTTGTTTTACAACTTACACTCTACAGAGAGAGCGAGAGTGAGAGAGA
+SRR12973953.1 A00682:391:HFJ2FDSXY:2:1101:1705:1000 length=150
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,FFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF