06

专门分析10x genomic公司的单细胞转录组数据的软件套件

10x Genomics方法巧妙使用了Barcoding(条形码)和Microfluidics(微流体)技术,在单细胞分离、扩增原理上具有明显的优势,能帮助研究人员实现对细胞群体的划分与细胞群体间基因表达差异的检测,是肿瘤细胞异质性、免疫细胞群体检测以及胚胎发育研究的黄金方法。

Continue reading

16

TET2突变是如何引起超甲基化

TET2突变是如何引起超甲基化

癌症病人体内会检测到不正常的甲基化现象。
TET2可以氧化5mC成为5hmC,进而通过其它机制形成5fC5caC
很多血液肿瘤病人的TET2基因突变了,同时会显示出全局的5hmC水平下降。
有趣的是,全局的5hmC水平下降同样发生在很多实体肿瘤病人身上,但是那些病人很少有TET2突变发生。
那么,TET2突变,或者全局的5hmC水平下降,是如何导致启动子区域的CG岛的甲基化水平上升的呢?
有其它文献报道 hypermethylation和oxidative stress (OS)有关系
作者认为 oxidative stress (OS) 在其中起了关键的作用。

Continue reading

26

ESCC-肿瘤空间异质性探究

ESCC-肿瘤空间异质性探究

肿瘤异质性包括空间异质性时间异质性、解剖异质性、结构异质性、基因异质性和功能异质性等等

肿瘤异质性是恶性肿瘤的特征之一,是指肿瘤在生长过程中,经过多次分裂增殖,其子细胞呈现出分子生物学或基因方面的改变,从而使肿瘤的生长速度、侵袭能力、对药物的敏感性、预后等各方面产生差异。肿瘤异质性一直是肿瘤治疗的挑战之一,肿瘤内部不同亚群的细胞对药物敏感性的不同可能会导致治疗的失败。现在主流的探究肿瘤异质性的方法是:

  • 对肿瘤病人的肿瘤组织进行不同时间点取样
  • 对肿瘤病人的肿瘤组织不同部分分别取样

Continue reading

21

肿瘤全外显子测序数据分析流程大放送

这个一个肿瘤外显子项目的文章发表并且公布的公共数据,我这里给出全套分析流程代码。只需要你肯实践,就可以运行成功。

PS:有些后起之秀自己运营公众号或者博客喜欢批评我们这些老人,一味的堆砌代码不给解释,恶意揣测我们是因为不懂代码的原理。我表示很无语,我写了3千多篇教程,如果一篇篇都重复提到基础知识,我真的做不到。比如下面的流程,包括软件的用法,软件安装,注释数据库的下载,我博客都说过好几次了,直播我的基因组系列也详细解读过,我告诉你去哪里学,你却不珍惜,不当回事,呵呵。

Continue reading

03

癌症基因的somatic mutation calling 流程的评价体系

癌症基因的somatic mutation calling 流程的评价体系

文章是:A comprehensive assessment of somatic mutation detection in cancer using whole-genome sequencing

WGS已经逐步走入临床,ICGC目前支持了74个国际项目,刻画了两万五千个癌症患者的基因组特性,希望能因此探究癌症的生物学机制。但对这些数据的分析缺乏严格论证的标准,不同的分析者有着自己独特的分析流程。

Continue reading

03

TCGA CNV全攻略

TCGA CNV全攻略

明白什么是CNV

对正常人来说,基因组应该是二倍体的,所以凡是测到非2倍体的地方都是CNV。但是CNV本身就是人群遗传物质多样性的体现,所以对癌症样本来说,是需要过滤掉正常人体内的germline的CNV,得到somatic的CNV。

Continue reading

02

TCGA计划的4个找somatic mutation的软件使用体验

TCGA计划的4个找somatic mutation的软件使用体验

体细胞突变(somatic mutation)是指患者某些组织或者器官后天性地发生了体细胞变异,虽然它不会遗传给后代个体,却可以通过细胞分裂,遗传给子代细胞。体细胞突变对肿瘤的发生发展有关键性的作用,并且它也是制定肿瘤癌症靶向治疗措施的关键所在。NGS使体细胞变异的检测更加全面,成本更低,在检测多种体细胞变异上具有很大的优势,但在使用过程中还存在着挑战:如样品降解、覆盖度不足、遗传异质性和组织污染(杂质)等问题。 为应对以上挑战,降低错误率,科学家采取了不同的算法和统计模型用于检测体细胞突变。目前最受欢迎的有Varscan、SomaticSniper、 Strelka 和MuTect2

Continue reading

24

一个标准的TCGA大文章应该做哪些数据?

很多人总是问我如何挖掘TCGA的数据,发文章!
可是他却连TCGA的数据是怎么来的都不知道,TCGA发了几十篇CNS大文章(自己测序的)了,每篇文章都有几百个左右的癌症样本的6种数据,这几年凑成了一万多个样本,都放在GDC里面可以任意下载。同时也出来了十几篇TCGA的数据挖掘大文章(主要包括亚型,driver mutation,假基因等新型研究领域)
那么一篇标准的一个标准的TCGA大文章应该自己测哪些数据?
其实稍微仔细浏览几篇文章就明白了,套路也是存在的,https://tcga-data.nci.nih.gov/docs/publications/
我们就以2013年发表在新英格兰杂志上面的Genomic and Epigenomic Landscapes of Adult De Novo Acute Myeloid Leukemia 为例子吧!

Continue reading

十二 28

TCGA表达数据的多项应用之4–求指定基因在指定癌症里面的表达量相关性矩阵,与所有的基因比较。

这个不出图,会给出TCGA里面涉及到的所有基因跟你指定的基因的表达量相关系数和P值,分别你一次性的看清楚你感兴趣的基因跟体内其它基因在该癌症种类的相关性,当然,相关非因果,请谨慎应用! Continue reading

十二 25

TCGA表达数据的多项应用之1–下载数据并且导入mysql

这个TCGA表达数据的多项应用系列帖子是应群里朋友的要求来写的,你们也可以继续提需求,我会接着写下去,其实从TCGA数据库里面下载到了数据之后,后面的所有分析都跟TCGA没有半毛钱关系了,大家要有这个想法,别三两句就问TCGA数据怎么分析,http://www.bio-info-trainee.com/?s=TCGA&submit=Search 本系列最后会形成一个shiny版本的交互式表达数据查询,处理,绘图,统计的网页APP。
我这里偷懒一下了,直接下载GEO里面的TCGA的表达数据,而不是去TCGA的官网里面下载:
它处理了目前(大概是2015年6月)TCGA收集的所有癌症样本的mRNA表达数据,并且统一处理成了count和RPKM两种表达量形式。 GEO地址:http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE62944

Continue reading