前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB,TRD,TRG,它们各自都有V,D(可选),J,C基因。
已经预告了有一个免疫组库的实战,现在终于有时间来带领大家搞定它。
- 来自于文章;https://www.tandfonline.com/doi/full/10.1080/2162402X.2019.1644110
- 数据:https://www.ncbi.nlm.nih.gov/bioproject/PRJEB33490
首先研读文献,并且找到其测序数据文件存放的数据库,并且成功下载到!
完成这个数据下载,需要熟悉GEO和SRA数据库,参考: - 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 使用ebi数据库直接下载fastq测序数据
下载得到的fastq.gz 文件,如下所示:7.8M May 23 09:43 ERR3445007_1.fastq.gz 11M May 23 09:43 ERR3445007_2.fastq.gz 9.8M May 23 09:43 ERR3445008_1.fastq.gz 14M May 23 09:43 ERR3445008_2.fastq.gz 7.0M May 23 09:44 ERR3445009_1.fastq.gz 10M May 23 09:44 ERR3445009_2.fastq.gz 7.2M May 23 09:44 ERR3445010_1.fastq.gz 9.3M May 23 09:44 ERR3445010_2.fastq.gz
我们简单的批量走一下fastqc软件质控:
ls raw/*gz|xargs fastqc -t 6 -o qc/
因为数据量都很小,所以几分钟就ok啦。那我们随机挑选一个样本的fastqc报告看看吧:
首先看summary表格
如下:
可以看到,单独的免疫组库样本测序数据库很小,还不到10万条序列,跟10X的单细胞有的一拼哦,正常人类的转录组都是20~50M的。。。
而且这个测序程度高达300,那就是miseq测序仪啦。reads的每个碱基位置的测序质量分布
reads的长度是300bp,所以横坐标是1到300,纵坐标是碱基质量值,通常是20或者30以上比较好。如下:
可以看到, 随着reads的碱基数量增加,后面的碱基测序质量越来越差,符合测序仪的实际情况。。。。
末端那些质量差的碱基,在我们的测序数据质控阶段,会控制软件和参数去除掉它们的哈。每个碱基位置的GC含量分布
reads的长度是300bp,所以横坐标是1到300,GC含量如果是全基因组测序,那么应该是一条线。但是这个免疫组库测序,下面图虽然说被fastqc软件判定为不合格,但实际上对免疫组库测序来说,是合格的哈。如下:
有非常多的重复序列
这个其实你自己从IMGT数据库下载免疫组库相关fasta序列,探索一下就明白了。因为本来测序的就是BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB,TRD,TRG,它们各自都有V,D(可选),J,C基因。这些不同的V基因其实很类似,J基因也是非常类似,所以都是重复序列就对了。如下:
miseq测序仪的300bp的双端测序质控步骤
参考发表在Front. Immunol., 30 April 2019的综述:The Pipeline Repertoire for Ig-Seq Analysis
- 文章链接:https://www.frontiersin.org/articles/10.3389/fimmu.2019.00899/full
其中双端测序的reads合并也是有一系列软件可以实现。下游分析
数据分析大纲如下:
- 测序数据评估与过滤;
- 不同种类V,D/J基因的数目、频率统计;
- 不同种类V-J组合(气泡图)和V-D-J组合(桑基图)的数目、频率统计;
- V基因、J基因、V-J组合、V-D-J组合的组间差异比较(火山图);
- CDR3氨基酸克隆型的数目、频率、长度统计;
- 基于CDR3氨基酸克隆型频率的样本间相似性评估;
- CDR3氨基酸克隆型的多样性分析,包括Gini、Simpson、Shannon、Rank Abundance;
- CDR3氨基酸克隆型差异表达分析;
- 样本间共有CDR3氨基酸克隆分析;
免疫组库交流群
我们的拉群小助手会协助大家进入一个免疫组库数据分析交流群哈, 跟我们之前的其它群类似:
- 一个甲基化芯片信号值矩阵差异分析的标准代码
- 购买入门级服务器免费送Linux直播培训服务
- lncRNA-seq数据分析之新lncRNA鉴定和注释视频课程众筹
- 构建miRNA-seq数据分析环境
还是老规矩,18.8元进群,一个简单的门槛,隔绝那些营销号!同时,我们也会在群里共享一些免疫组库数据分析相关资料,仅此而已,考虑清楚哦!