你只需要去查询gencode数据库,就可以看到LINC01666的的坐标是已知的, ENSG00000279579 chr21 8759077 8761335,长度也就是2kb多一点而已,所以在上面设计探针的话应该是不会太多的。请大家记住这个坐标:chr21:8759077-8761335 Continue reading
log与否会改变rpkm形式表达矩阵top的mad基因列表
我在生信技能树多次写教程分享WGCNA的实战细节,见:
TCGA和METABRIC的TNBC病人数量到底是多少
因为自己博士课题是关于乳腺癌肿瘤异质性的研究,所以对这个癌症的背景知识稍微多一点。顺理成章的我出的大量学徒作业也是关于乳腺癌的,其中乳腺癌里面最恶性的就是TNBC,或者说三阴性乳腺癌啦。看到了不下50篇TNBC相关数据挖掘文章,基本上都是TCGA或者METABRIC数据库啦,但是不同文章对TNBC定义有冲突,而且样本数量都不一致,很是尴尬! Continue reading
TCGA数据库单基因gsea作业之COAD-READ
我前面写过 单基因GSEA分析策略(数据分析免费做活动继续) ,然后马上就碰到了一个求助,复现下面的图表!
发表在Cancer Management and Research的简单数据挖掘杂志:Apolipoprotein C1 (APOC1) promotes tumor progression via MAPK signaling pathways in colorectal cancer,仔细下载文献学习。 Continue reading
WGCNA得到模块之后还可以看里面基因的connectivity
我在生信技能树多次写教程分享WGCNA的实战细节,见:
cytoscape的cytohubba及MCODE插件寻找子网络hub基因
我特别不喜欢写网页工具或者鼠标点点点的软件操作指南,因为感觉就跟QQ软件一样,自己摸索就ok了,所以我的cytoscape十讲就一直处于施工阶段:
- Cytoscape十讲之网络图的认知
- Cytoscape十讲之下载
每次都是写到一半,就弃稿了! Continue reading
- Cytoscape十讲之下载
一个甲基化芯片信号值矩阵差异分析的标准代码
本来呢,我的GitHub已经有一个GEO项目了,上面罗列了我大量的表达矩阵数据分析代码,理论上这个甲基化芯片信号值矩阵差异分析也是属于GEO公共数据库挖掘。 Continue reading
rstudio软件无需联网但是
每次开展R语言线下学习班,都需要重新发几次:Windows电脑使用Rstudio会有多少错误呢,虽然大部分同学都是可以根据我们的教程顺利解决问题,但是不幸的人各有各的不幸。一般来说就是Windows电脑的中文用户名需要修改电脑系统的环境变量,R包下载等等。 Continue reading
PCAWG计划-原发肿瘤的WGS数据整合分析
TCGA的Pan-Cancer早在2013就系统性提出来并且规划好了,见Nat. Genet. 2013 45:1113),因为TCGA计划涉及到数据类型比较多,仅仅是DNA层面就有WGS、WES、SNP6.0芯片的数据,其中一万多个病人里面有WGS数据的有两千多个病人,而PCAWG计划就是整合所有的WGS数据结果。 Continue reading
oligo包可以处理agilent芯片吗
在文献 J Natl Cancer Inst. 2018 Jul ;题目是:Intratumor Heterogeneity of the Estrogen Receptor and the Long-term Risk of Fatal Breast Cancer,看到该研究使用的是agilent表达芯片,老实说我其实不太喜欢这个公司的芯片,从数据分析的角度来说,因为其R包非常少。不过作为生信技能树,我们不得不全面建设不同类型数据分析流程,所以还是硬着头皮啃一下这个数据分析: Continue reading
Nanostring的表达矩阵分析也是大同小异
最近课题组的文献分享会议上有一篇文章里面的生存分析和差异分析吸引了我的注意,所以分开介绍一下,并给出了学徒任务,希望大家可以自行抽空完成。文章发表于July 25, 2019 的JCI杂志,标题是 STING activation reprograms tumor vasculatures and synergizes with VEGFR2 blockade Continue reading
M3Drop用法的修改
两年前我们介绍的用米氏方程解决单细胞转录组dropout现象的文章提出的那个算法,被包装到了R包,是:M3Drop ,文章最开始 2017年发表在biorxiv的是:Modelling dropouts for feature selection in scRNASeq experiments 后来(2019)published in Bioinformatics doi: 10.1093/bioinformatics/bty1044 ,而且整个包的使用方法发生了变化,值得记录和分享一下。 Continue reading
ncRNA芯片的一般分析流程
前面我们系统性的总结了circRNA的相关背景知识:
lncRNA芯片的探针到底该如何注释到基因组信息呢
昨天发布了 GEO数据库中国区镜像横空出世,粉丝们都很happy,因为确实解决了他们的一个拦路虎,以后下载GEO数据再也不用去网吧了。但是部分粉丝提出了更过分
的要求,说自己没有服务器,我以前的教程:(重磅!价值一千元的R代码送给你)芯片探针序列的基因组注释 他们跟随起来很困难,希望我随便把所有的gpl也注释一波提供给大家。 Continue reading
lncRNA的一些基础知识
前面我们系统性的总结了circRNA的相关背景知识:
lncRNA-seq的一般分析流程
前面我们系统性的总结了circRNA的相关背景知识:
limma和edgeR对RNA-seq表达矩阵差异分析的区别
前面我们在生信技能树系统性介绍了大量RNA-seq相关背景知识,以及表达矩阵分析的一般流程
infercnv输入文件的制作
有粉丝反映跟着我们的教程:使用inferCNV分析单细胞转录组中拷贝数变异 ,但是第一步3个输入文件就制作失败,值得单独写教程强调一下这个解决方案。当然了,如果你还卡在第一步安装R包,请看我昨天在生信菜鸟团的教程:有些R包是你的电脑操作系统缺东西,但也有一些不是 。然后就可以查看https://github.com/broadinstitute/inferCNV/wiki 的示例代码: Continue reading
hisat2会对多比对的reads随机输出一条吗?
序列的多比对情况大家都懂,因为NGS时代,序列都很短,也就是50-250bp范围,而且参考基因组本来就是会有很多低复杂度区域,那么我们的reads比对到参考基因组的多个区域,就很好理解了。 Continue reading
GSVA或者GSEA各种算法都是可以自定义基因集的
表达矩阵的标准分析通常是不够的,定位到成百上千个有统计学显著变化的差异表达基因后,同样是可以有成百上千个生物学功能注释(最出名的是GO功能和KEGG通路),普通的超几何分布检验已经不能满足大家多元化的分析了,所以就有了大家耳熟能详的GSEA分析,以及绝大部分人比较陌生的GSVA分析。 Continue reading