最近接了几个不同癌症队列的panel测序数据分析项目,大多是在基因加、南京世和等公司购买的panel和测序服务。 Continue reading
ATAC-seq的经典差异分析
ATAC-seq的数据分析主要是检测信号峰值,就是peaks,不同样品的peaks的差异主要是两个思路,使用韦恩图展现有无peaks的差异,另外就是使用散点图展现高低强弱的peaks差异。 Continue reading
dbGaP数据库的测序数据当然是可以申请成功的
通常情况下,我们的原始测序数据会上传到NCBI的SRA数据库,自然就在EBI备份了。需要熟悉GEO和SRA数据库: Continue reading
doplot可视化多个单细胞亚群的多个标记基因的进阶版
我们以 seurat 官方教程为例:
EpiDISH-根据甲基化信号值推断样品的细胞成分
传统的甲基化信号值通常是芯片,比如illumina公司的27K,450K,850K的甲基化芯片,它们检查的通常是细胞混合物,比如绝大部分肿瘤组织样品其实是混合了上皮细胞,基质细胞和免疫细胞。如果我们感兴趣肿瘤组织的纯度,或者说肿瘤的免疫浸润情况,就可以使用同样的反卷积方法来。这个时候EpiDISH包就可以派上用场: Continue reading
fibroblasts和smooth muscle cells在你的单细胞数据集差异明显吗
我们做肿瘤研究的单细胞数据,一般来说会选择初步很粗狂的定义大的细胞亚群,比如我常用的 第一次分群是通用规则是: Continue reading
ggplot2绘图需要学多少个扩展包
前面我们介绍了绘图小白神包:
Glimma 交互式可视化RNA-seq数据
RNA-seq数据分析绝大部分小伙伴应该都是问题不大了,我在B站也有教学视频,视频观看方式 : Continue reading
SRA数据库不仅仅是可以存放fastq原始数据
最近刷单细胞文章看到了一个很有意思数据存放细节,这个文献的标题是:《Single-cell sequencing links multiregional immune landscapes and tissue-resident T cells in ccRCC to tumor topology and therapy efficacy》,链接是:https://doi.org/10.1016/j.ccell.2021.03.007 Continue reading
TP53突变与否的TNBC病人基因表达相关性改变
任意基因在任意癌症里面与任意基因的表达量相关性是否受到任意基因的突变与否的状态的影响而改变! Continue reading
Z-score并不会影响很多统计学算法的结果
如果所有的RNA-seq项目都这样提供数据
前面我们发布了 [明码标价之普通转录组上游分析](https://mp.weixin.qq.com/s? Continue reading
使用gunzip命令的t参数检测fastq的gz文件完整度
前面我们发布了 明码标价之普通转录组上游分析,终于开始接单了,第一个项目介绍98个转录组测序数据的表达量获取,超级简单,就是耗费计算资源,500G的fastq数据文件,中间步骤加起来,起码耗费2个T的磁盘空间吧。
不过方便的地方就是都是现成的代码,首先参考:使用ebi数据库直接下载fastq测序数据 , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路径文件,批量下载fq文件,走过滤质控流程, 但是发现有3个居然失败了,如下所示:
$ ls -lh ../cleanData/*gz|grep trimmed
-rw-rw-r-- 1 jmzeng jmzeng 3.3G 3月 23 21:15 ../cleanData/SRR11652583_1_trimmed.fq.gz
-rw-rw-r-- 1 jmzeng jmzeng 2.6G 3月 23 21:31 ../cleanData/SRR11652583_2_trimmed.fq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.9G 3月 23 20:51 ../cleanData/SRR11652586_1_trimmed.fq.gz
初步猜测是网络问题,因为 使用ebi数据库直接下载fastq测序数据 , 就是有失败率,所以检查了fq文件完整度,代码如下所示 :
[3] Running gunzip -t SRR11652583_2.fastq.gz &
[4] Running gunzip -t SRR11652583_2.fastq.gz &
[5]- Running gunzip -t SRR11652586_1.fastq.gz &
[6]+ Running gunzip -t SRR11652586_2.fastq.gz &
结果真的发现:
gzip: SRR11652583_2.fastq.gz: invalid compressed data--format violated
gzip: SRR11652586_1.fastq.gz: unexpected end of file
gzip: SRR11652583_2.fastq.gz: invalid compressed data--format violated
所以需要首先删除这些不完整的文件:
rm SRR11652583_*
rm SRR11652586_*
然后重新下载它,但是发现这个时候呢,下载始终是吧,如下所示:
spera提示:
ascp: failed to authenticate, exiting.
Session Stop (Error: failed to authenticate)
其实这个是无解的, 所以只能说放弃 aspera高速下载了,反正就两三个样品,直接wget也行。
使用SingleR对小鼠免疫单细胞自动注释并不可靠
在我们的单细胞交流群看到了这样的提问《singleR注释小鼠免疫细胞用哪个参考集效果比较好》: Continue reading
讨论如何使得go或者kegg数据库富集结果展现的更好
现如今,go或者kegg数据库富集已经是太平常不过的分析了。
绝大部分数据挖掘,不管是通过差异分析还是生存分析,都会拿到基因集,就可以进行这样的分析。 Continue reading
为新手准备的现代化 R 包开发流程
我确实不知道harmony是全球首款性爱机器人
拿多个病人的多个样本进行单细胞转录组测序是非常正常的,比如下面的:
无论生老病死都只关心你一个
于2019年1月发表在《Immunity》杂志的文章,标题是:《Single-Cell RNA Sequencing of Microglia throughout the Mouse Lifespan and in the Injured Brain Reveals Complex Cell-State Changes》 Continue reading
物种保守行能说明它是目标分子吗
有一个ABCD的生命科学领域划水套路很流行,就是A 基因通过 B 信号通路在 C疾病中发挥 D 功能。其它划水方式见: Continue reading
细胞亚群的特异性标记基因也许真的很难
做了上百个单细胞转录组项目,发现绝大部分都是肿瘤研究,在教程 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这个第一次分群规则是 : Continue reading