大量的NGS队列都是肿瘤研究领域,比如乳腺癌领域的复旦邵志敏团队TNBC队列,肺癌领域的吴一龙教授团队的队列,以及新加坡国家癌症中心的东亚肺腺癌(EAS LUAD)列队,动辄经费百万起步。 Continue reading
Category Archives: 未分类
selenium爬虫操作网页(实战篇)
前面我们遇到了一个爬虫难题:爬虫最怕遇到JavaScript依赖性的动态网页,选择了在R里面配置selenium爬虫环境,仅仅是安装和配置好了在R里面使用selenium爬虫,打开一个JavaScript控制的动态网页仅仅是爬虫的开始,接下来需要跟这个网页进行各式各样的交互。首先放出一些学习链接: Continue reading
转录组公益课(含单细胞)
之前我默认生信技能树绝大部分粉丝都已经在计算机背景方面是没有问题了:
RNA芯片和测序技术的比较
前面我们介绍了表达量研究领域的,基因芯片和RNA-seq测序技术,并且把详细的学习资料和视频教程免费共享在了B站。 Continue reading
RNA-seq的fastq文件里面为什么有gc含量的双峰
最近接到一个粉丝求助,说自己课题组两年前在某公司测的转录组数据,跟着我们的课程学习完了转录组数据分析流程后,终于可以开干了,一条龙流程走完就傻眼了,我们课程授课涉及到的数据集基本上是完美结果,但他们两年前的数据集表现非常的诡异! Continue reading
ATCC终于出来了organoids资源
做过生物学实验的朋友都应该理解,美国典型培养物保藏中心(American Type Culture Collection,ATCC)的出镜率,算是最权威的细胞系资源库了,大家做肿瘤学相关实验通常会在文章里面写到在ATCC购买了什么细胞系。 Continue reading
ATAC-Seq数据分析实操仅需249
如果你感兴趣ATAC-Seq数据分析,那么这个课程不容错过啦! Continue reading
在R里面配置selenium爬虫环境
普通的爬虫,其实什么编程语言都差不多,因为都是网页的html源代码字符串的解析而已,但是很多网页是具有防止爬虫的功能,就是无法直接获取html源代码字符串,需要通过JavaScript来互动。比如: Continue reading
遇事不慌,控制变量法帮助你
我以前分享过:真正的编程能力是什么?解决问题的能力,就是编程能力,强调了如果你有解决问题的能力,放心大胆的联系我,我会给你提供无穷无尽的学习资源,投资你,帮助你成长。但是也有很多人留言说,解决问题的能力并不是一个很清晰的法则,我就以使用GDC工具来进行TCGA数据下载的例子来说明。 Continue reading
药物处理细胞系前后转录组数据该如何分析
在我们生信技能树好久以前的一个教程,看到了邢老师的留言,如下: Continue reading
学以致用大概就是这个意思
很早以前我在写 生信小技巧第8课,加上 TCGA的28篇教程- 批量下载TCGA所有数据,文末附上了当时看到的一个好玩的算法题目: Continue reading
学徒作业-根据我的甲基化视频教程来完成2015-NPC-methy-GSE52068研究
文章数据分析流程图如下: Continue reading
学徒作业-单基因的tcga数据挖掘分析
TCGA数据库关于食管癌的,分成ESCC和EAC,其中ESCC好发于中国人群,所以作者关心TCGA数据库里面的90个ESCC病人。
根据CCL2基因的表达量,可以把TCGA数据库里面的90个ESCC病人分成高低表达CCL2的两个组,然后可以差异分析,GSEA分析等等 Continue reading
信息熵的4个量化指标的R代码实现
熵(entropy)在统计学中是一个很重要的概念,代表着信息的多少。经济学里面衡量贫富差距的基尼系数,以及环境生物学领域衡量物种多样性的辛普森多样性指数,以及免疫组库领域的D50都有异曲同工之妙。 Continue reading
嫌弃cosmic数据库的30个肿瘤突变signatures?
肿瘤基因测序后,通常会得到一定数量的基因突变位点信息,somatic突变在全基因组上发生的比例约百万分之一,如果是全基因组肿瘤基因测序, 可能会有3万个左右的somatic突变,如果是全外显子测序,是300个左右,如果是捕获基因测序,那么取决于基因是否是热点突变。 Continue reading
为什么同样的人类病人遗传隐私保护政策各个科学研究团队遵守情况不一样
最近接触的单细胞文献比较多,发现不同文章的测序数据公布的地方很不一样,有的不让下载,有的是需要授权审核才能下载,有的是完全公开下载。很有意思,分享一下: Continue reading
是否是免疫细胞很容易区分那是否是肿瘤细胞呢?
单细胞转录组的火爆大家是有目共睹的,主要是在各式各样的物种器官图谱研究以及发育,肿瘤免疫研究。其中在肿瘤免疫一个很重要的分析点就是区分免疫细胞和非免疫细胞,这个还算是比较容易,比如文献《Zilionis et al., 2019, Immunity 》就提到: Continue reading
使用R包SomaticSignatures进行denovo的signature推断
前面我在生信菜鸟团的肿瘤外显子数据分析专辑提到了,很多研究者会嫌弃cosmic数据库的30个肿瘤突变signatures,他们觉得cosmic数据库30个signature的生物学意义并不好,自己会尝试分解出来自己的signature。比如:0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》 这篇文献,研究者就是使用R包SomaticSignatures进行denovo的signature推断,拿到了11个自定义的signature。 Continue reading
使用R包deconstructSigs根据已知的signature进行比例推断
首先,自己推断denovo的signature,可以使用SomaticSignatures 包的identifySignatures函数,这个教程我在生信技能树分享过:使用R包SomaticSignatures进行denovo的signature推断,比如:0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》 这个文献,研究者就是使用R包SomaticSignatures进行denovo的signature推断,拿到了11个自定义的signature。 Continue reading
使用NMF代替层次聚类
前面我们在教程:使用R包deconstructSigs根据已知的signature进行比例推断,顺利的把508个病人,根据11个signature进行了比例推断,得到的比例矩阵以普通的热图,以及pheatmap包自带的层次聚类如下: Continue reading