我们做肿瘤研究的单细胞数据,一般来说会选择初步很粗狂的定义大的细胞亚群,比如我常用的 第一次分群是通用规则是: Continue reading
Monthly Archives: 6月 2021
ggplot2绘图需要学多少个扩展包
前面我们介绍了绘图小白神包:
Glimma 交互式可视化RNA-seq数据
RNA-seq数据分析绝大部分小伙伴应该都是问题不大了,我在B站也有教学视频,视频观看方式 : Continue reading
SRA数据库不仅仅是可以存放fastq原始数据
最近刷单细胞文章看到了一个很有意思数据存放细节,这个文献的标题是:《Single-cell sequencing links multiregional immune landscapes and tissue-resident T cells in ccRCC to tumor topology and therapy efficacy》,链接是:https://doi.org/10.1016/j.ccell.2021.03.007 Continue reading
TP53突变与否的TNBC病人基因表达相关性改变
任意基因在任意癌症里面与任意基因的表达量相关性是否受到任意基因的突变与否的状态的影响而改变! Continue reading
Z-score并不会影响很多统计学算法的结果
如果所有的RNA-seq项目都这样提供数据
前面我们发布了 [明码标价之普通转录组上游分析](https://mp.weixin.qq.com/s? Continue reading
使用gunzip命令的t参数检测fastq的gz文件完整度
前面我们发布了 明码标价之普通转录组上游分析,终于开始接单了,第一个项目介绍98个转录组测序数据的表达量获取,超级简单,就是耗费计算资源,500G的fastq数据文件,中间步骤加起来,起码耗费2个T的磁盘空间吧。
不过方便的地方就是都是现成的代码,首先参考:使用ebi数据库直接下载fastq测序数据 , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路径文件,批量下载fq文件,走过滤质控流程, 但是发现有3个居然失败了,如下所示:
$ ls -lh ../cleanData/*gz|grep trimmed
-rw-rw-r-- 1 jmzeng jmzeng 3.3G 3月 23 21:15 ../cleanData/SRR11652583_1_trimmed.fq.gz
-rw-rw-r-- 1 jmzeng jmzeng 2.6G 3月 23 21:31 ../cleanData/SRR11652583_2_trimmed.fq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.9G 3月 23 20:51 ../cleanData/SRR11652586_1_trimmed.fq.gz
初步猜测是网络问题,因为 使用ebi数据库直接下载fastq测序数据 , 就是有失败率,所以检查了fq文件完整度,代码如下所示 :
[3] Running gunzip -t SRR11652583_2.fastq.gz &
[4] Running gunzip -t SRR11652583_2.fastq.gz &
[5]- Running gunzip -t SRR11652586_1.fastq.gz &
[6]+ Running gunzip -t SRR11652586_2.fastq.gz &
结果真的发现:
gzip: SRR11652583_2.fastq.gz: invalid compressed data--format violated
gzip: SRR11652586_1.fastq.gz: unexpected end of file
gzip: SRR11652583_2.fastq.gz: invalid compressed data--format violated
所以需要首先删除这些不完整的文件:
rm SRR11652583_*
rm SRR11652586_*
然后重新下载它,但是发现这个时候呢,下载始终是吧,如下所示:
spera提示:
ascp: failed to authenticate, exiting.
Session Stop (Error: failed to authenticate)
其实这个是无解的, 所以只能说放弃 aspera高速下载了,反正就两三个样品,直接wget也行。
使用SingleR对小鼠免疫单细胞自动注释并不可靠
在我们的单细胞交流群看到了这样的提问《singleR注释小鼠免疫细胞用哪个参考集效果比较好》: Continue reading
讨论如何使得go或者kegg数据库富集结果展现的更好
现如今,go或者kegg数据库富集已经是太平常不过的分析了。
绝大部分数据挖掘,不管是通过差异分析还是生存分析,都会拿到基因集,就可以进行这样的分析。 Continue reading
为新手准备的现代化 R 包开发流程
我确实不知道harmony是全球首款性爱机器人
拿多个病人的多个样本进行单细胞转录组测序是非常正常的,比如下面的:
无论生老病死都只关心你一个
于2019年1月发表在《Immunity》杂志的文章,标题是:《Single-Cell RNA Sequencing of Microglia throughout the Mouse Lifespan and in the Injured Brain Reveals Complex Cell-State Changes》 Continue reading
物种保守行能说明它是目标分子吗
有一个ABCD的生命科学领域划水套路很流行,就是A 基因通过 B 信号通路在 C疾病中发挥 D 功能。其它划水方式见: Continue reading
细胞亚群的特异性标记基因也许真的很难
做了上百个单细胞转录组项目,发现绝大部分都是肿瘤研究,在教程 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这个第一次分群规则是 : Continue reading
细胞亚群注释神器SingleR把它的参考数据库放在了celldex包
我们分享过单细胞转录组下游的降维聚类分群的很多例子,比如:[人人都能学会的单细胞聚类分群注释] Continue reading
想让你的火山图更漂亮
最近有粉丝在我b站的数据挖掘视频课程发弹幕吐槽我授课时候作为例子的火山图不怎么好看,希望我提高一下自己的神秘,课程是:三年前的数据挖掘课程(TNBC表达矩阵探索) Continue reading
小鼠的13个不同组织器官的超10万个细胞才85个亚群(单细胞ATAC路在何方)
最近在有粉丝求助,他的scATAC-seq数据的分析,使用 scATAC pro 这个软件得到 cluster 里面的细胞类型好少。 Continue reading
新英格兰这样的杂志确实是与时俱进
看到一个临床wgs应用的文献速递,《Genome Sequencing as an Alternative to Cytogenetic Analysis in Myeloid Cancers》,链接是:https://pubmed.ncbi.nlm.nih.gov/33704937/ Continue reading
选择no就好了
最近在更新一个R包的时候,发生了如下所示的报错: