比如把自己制作好的bam文件的坐标,跟提取自gtf文件的坐标信息对应起来,使用GenomicRanges
包自带的函数即可。
使用refGenome加上dplyr玩转gtf文件
不是所有人都像我这样喜欢linux的黑白命令行,但是他们仍然是可以处理NGS数据的,比如最常用的gtf格式的基因组注释文件: Continue reading
把bam文件读入R,并且转为grange对象
有成熟的R包可以把bam文件读入R,比如Rsamtools,很简单的代码: Continue reading
下载芯片探针序列并且写成fasta文件
选择在GEO官网的GPL平台下载 : https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL21827 Continue reading
在R里面使用Rsubread完成组学分析全套流程
你是否害怕linux的黑白命令行操作,是否对去可视化畏畏缩缩,那么你会爱上它:Rsubread Continue reading
周末生物信息学培训班准备工作
第一个准备工作是安装必备软件,根据自己的操作系统选择 软件即可,(如果时间来不及,仅仅是R语言以及rstudio, 还有微信电脑版,钉钉也可以先凑合)
第二个准备工作,安装R包,代码在文末,参考(务必看完)视频 https://www.bilibili.com/video/av80872684
尽早完成准备工作,如果学有余力,就看看我们B站视频,主要是linux和R基础, https://space.bilibili.com/338686099 (不要求课前看完这些,课后可以看完它)
Continue reading
要读源代码才能解决的报错-GEOquery下载表达矩阵缺样本名
最近生信技能树的很多朋友反馈一个GEOquery的bug,而且这个错误对初学者来说,是不可能解决的问题,值得分享一下!(2018-11-27 计) Continue reading
GEOquery包的getGEO函数总是无法下载肿么办
在生信技能树我发布的GEO数据库挖掘教程也有不少了:目录: Continue reading
GTEx数据库-TCGA数据挖掘的好帮手
通常我们在挖掘TCGA数据库的时候,会发现该项目纳入的正常组织测序结果是非常少的,也就是说很多病人都不会有他的正常组织的转录组测序结果,比如说乳腺癌吧,1200个左右的转录组数据,其中1100左右都是肿瘤组织的测序数据,只有区区100个左右的正常对照。 Continue reading
多个探针对应同一个基因取最大表达量探针极简代码
这个需求实在是太常见了,很多时候我们下载的表达矩阵,都是基因的探针ID作为行名来标记, Continue reading
ATR基因增强S-G2有丝分裂检测点
保持遗传稳定性的两个关键机制包括DNA损伤修复 (调控基因组稳定性)以及有丝分裂检测点(调控染色体组稳定性)。
ATR蛋白是一个与ATM 相关的调控DNA损伤修复的主要蛋白激酶,在DNA复制过程中ATR的丢失会增加S期的基因组不稳定性并影响随后的有丝分裂。
FOXM1这个转录因子在大部分癌症是高表达的,也有文献表现它的高表达量加速了细胞分裂。 Continue reading
2019年2月份第1周(总第53周)胃癌的类器官研究(附视频)
文章发表于stem.2018.09.016,标题是:A Comprehensive Human Gastric Cancer Organoid Biobank Captures Tumor Subtype Heterogeneity and Enables Therapeutic Screening 本研究主要是完成了一个 a primary gastric cancer organoid (GCO) biobank ,包括34个病人的63个部位,主要是:
- normal, dysplastic, cancer, and lymph node metastases Continue reading
GEO数据挖掘-第六期-RNA-seq数据也照挖不误
前面我们分享的GEO数据库挖掘教程都是针对表达芯片来的,会给粉丝们一种错觉,是不是这个技术只能挖掘这些老旧的表达芯片呢?
当然不是这样,现在就给大家秀一秀RNA-seq数据的挖掘。 Continue reading
12月份第4周(总第48周)乳腺癌的类器官研究
本研究是乳腺癌领域的第一个类器官研究,发表于Cell. 2018 Jan 作者是 N Sachs , 到2018年底已经被引用超过50次啦,文章题目是:A Living Biobank of Breast Cancer Organoids Captures Disease Heterogeneity.
研究者收集了 超过150例乳腺癌患者样品,然后声称其团队成功的制作了超过100个类器官。
From 155 tumors, we established 95 BC organoid lines that readily expanded.
而且NGS数据分析结果表明类器官比较好的保留其配对肿瘤样品的CNV和SNV特征。 Continue reading
12月份第3周(总第47周)多组学探索不同器官的小细胞癌症起源
发表于 Science 05 Oct 2018 , 文章是:Reprogramming normal human epithelial tissues to a common, lethal neuroendocrine cancer lineage 小细胞癌症里面最出名的应该是小细胞肺癌(SCLC)了,恶性度高,预后差,治疗上进展也比较少。小细胞肺癌大约占所有肺癌的15%,每年全国有十几万新发的小细胞肺癌患者,其中绝大多数患者诊断的时候就已经是晚期。所以针对它的研究,就有点类似于乳腺癌里面的TNBC一样。 Continue reading
12月份第2周(总第46周)-探索TNBC新的亚型分类
发表于:Clin Cancer Res. 2015 Apr 文章题目是:Comprehensive Genomic Analysis Identifies Novel Subtypes and Targets of Triple-negative Breast Cancer 主要是考虑到TNBC是异质性较大的一种乳腺癌,而且预后非常差,所以临床用药指导急需对TNBC本身更加细致的分类,研究团队通过贝勒医学院分两次 收集了 198个TNBC病人, (discovery set: n=84; validation set: n=114) 比较稳定的把TNBC分成了4个亚型,而且还分析了7个公共数据集来验证其结论。
第45周-多点取样的WES看肿瘤内部异质性可靠性评价
肿瘤内部异质性问题已经是老生常谈了,在NGS如日中天的这些年,已经有非常多的多位点取样进行WES测序探索肿瘤异质性的(不同癌症研究的列表见文末),但是这个技术的可靠性并没有进行系统的评价,技术噪音,技术误差是可观存在的,所以就有了本研究:bioRxiv preprint first posted online Jan. 24, 2018; doi: http://dx.doi.org/10.1101/253195. 虽然并没有正式发布在SCI期刊,但是也值得解读。
第44周-转录组和表观数据结合的典型例子
发表于Cancer Cell. 2018 Sep 10;文章是:Overcoming Resistance to Dual Innate Immune and MEK Inhibition Downstream of KRAS. 主要探究的是耐药性,用的是细胞系,但是这篇文章我最关心的是研究团队对转录组和表观数据的结合,还有对CCLE和TCGA这样的公共数据库的挖掘利用。
第43周-人工整理的细胞系资料库
新鲜出炉的NAR文章:Cell Model Passports—a hub for clinical, genetic and functional datasets of preclinical cancer models Published: 27 September 2018 ,位于英国的sanger研究所的科研团队详细整理了目前常见的科研细胞系的多种资料,并制作网站共所有科研人员查询浏览:cellmodelpassports.sanger.ac.uk, 可以说是非常贴心了。
VCF格式文件的shell小练习
首先使用bowtie2软件自带的测试数据生成sam/bam文件,还有vcf文件