最近收到读者求助,说他感兴趣的表达量芯片数据集用到的的芯片是:[HT_HG-U133_Plus_PM] Affymetrix HT HG-U133+ PM Array Plate ,看起来跟我们授课的 hg133plus2比较类似。
但是很明显,看主页信息,一点都不简单 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL13158 Continue reading
最近收到读者求助,说他感兴趣的表达量芯片数据集用到的的芯片是:[HT_HG-U133_Plus_PM] Affymetrix HT HG-U133+ PM Array Plate ,看起来跟我们授课的 hg133plus2比较类似。
但是很明显,看主页信息,一点都不简单 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL13158 Continue reading
看到于2017年发表在Cancer Res 杂志的文章;E3 Ubiquitin Ligase UBR5 Drives the Growth and Metastasis of Triple-Negative Breast Cancer. 做的是肿瘤外显子数据,最后是: An analysis of primary TNBC specimen by whole-exon sequencing revealed strong gene amplifications of UBR5 associated with the disease. Continue reading
生存分析你还是在TCGA吗?
最近有粉丝求助说他研究乳腺癌做了单细胞转录组数据,定位到了一个稀有细胞亚群,先看它感兴趣的亚群细胞特异性基因的临床意义,问我有没有除了TCGA数据库之外的其它数据库资源推荐。恰好我做这方面就顺手检索了一下,发现了 curatedBreastData 包,值得推荐!
一般来说,大家拿到了感兴趣的基因集后,通常是做超几何分布检验看看富集到了什么生物学功能数据库,比如KEGG或者GO数据库,或者走gsea/gsva这样的富集分析,也是注释生物学功能数据库。 大家读我的表达芯片的公共数据库挖掘系列推文应该是够多了:
最近一直在这里细胞通讯分析相关软件工具及原理,看到不同细胞亚群的网络图,就以为是细胞通讯分析。
Continue reading
我有一个 免费视频课程《ChIP-seq数据分析》 ,其视频观看方式:
Continue reading
不知道还有多少人记得上半年的活动:0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》,可能是因为免费所以大家都不珍惜吧,实际上参加这个活动的人数还不到200 ,连一个微信群都装不满!!!
Continue reading
前段时间,我们分享了: 确实很吸引眼球,也引发了广泛的讨论,见:狼来了!聊个天就能做生信分析的人工智能是否要替代一大波生信人员?
但实际情况是,我们的各个交流群仍然是充斥着“显而易见”的初学者问题,人工智能的出现并不能帮我们减轻工作量。而且我搞出来的群有点太多了,每一个ngs组学教学视频都免费在B站,就同步组建好交流群,见: Continue reading
在教程 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这个第一次分群规则是 :
一般来说, 遗传变异位点注释软件我会介绍ANNOVAR和VEP,以及snpEFF,他们三个的引用是最多的。并不是说就他们3个软件可以做遗传变异位点注释啦,比较知名的还有GEMINI以及SeqAnt,也是萝卜青菜各有所爱哈。
Continue reading
粉丝来信求助,他感兴趣的一个数据集的芯片平台是:GE Healthcare/Amersham Biosciences CodeLink Human Whole Genome Bioarray,链接是:GPL2895
一个星期前我指出来了R语言包开发的一个现象:R语言的繁荣背后何尝没有隐患,很多函数名字被多个R包使用,这样就出现了冲突,所以我们需要显示调用具体的某个R包的某个函数。
虽然MeDIP-seq数据分析教程一直挂在我的博客(http://www.bio-info-trainee.com/)的主页,如下:
R语言的繁荣是毋庸置疑的,至少在科研界的地位蒸蒸日上,极大的占领了原来属于各种商业绘图软件的市场。不仅仅是在于其免费的属性,更重要的是随心所欲地自由定制。
但是参与的玩家多了之后,也会出现一些冲突。最近在运行一些三五年前的代码报错了,引发了我的思考。
文章提到其单细胞转录组数据是:We used scRNA-seq to profile 49 samples (45 lung adenocarcinomas, 1 squamous cell carcinoma, and 3 tumor adjacent tissues [TATs]) (Figure 1A), corresponding to 30 individual patients.
我们可以使用下面的代码检查临床属性: Continue reading
前面我们展现了 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,然后呢,第二次分群的上皮细胞可以细分恶性与否,免疫细胞呢,细分可以成为: B细胞,T细胞,巨噬细胞,树突细胞等等。实际上每个免疫细胞亚群仍然可以继续精细的划分,以文章为例:
翻译自:https://constantamateur.github.io/2020-10-24-scBatch2/
更多教程见其博客: https://constantamateur.github.io/2020-04-10-scDE/
常规的转录表达矩阵分析大家都应该是不陌生了,不管是芯片还是测序,最后都是表达矩阵走差异分析的流程。但这样仅仅是定位到基因集,生物学功能通路等等,如果讲一个完整的生物学故事有点单薄。以前我写过教程:基因集的转录因子富集分析,是一个算法层面的解决方案,不过在很多唯实验数据论的生物学家来看仍然是不够solid,其实可以加上一个真实的转录因子数据,我最近就看到了一个把转录组数据加上转录因子数据联合分析的非常好的文献。
我注意到绝大部分肿瘤相关的单细胞转录组研究的落脚点都是在肿瘤免疫微环境个细胞亚群比例,包括 B细胞,T细胞,巨噬细胞,树突细胞等等,而且这些细胞亚群都是可以继续细分。但实际上在没有单细胞转录组数据这个技术之前,也是可以探测肿瘤免疫微环境个细胞亚群比例的,比如流式细胞仪。但是我查了一下,发现这个仪器还蛮贵的,比如一个招标信息《上海交通大学流式细胞分选仪,200万》:
Continue reading