本笔记会被收录于《生信技能树》公众号的《单细胞2024》专辑,而且我们从2024开始的教程都是基于Seurat的V5版本啦,之前已经演示了如何读取不同格式的单细胞转录组数据文件,如下所示: Continue reading
Daily Archives: 2024年2月1日
爬虫的10种思路
最近看到了浙江大学的陈老师课题组主编的生物信息学教材居然还配套了每个章节的PPT教案,而且持续更新了十年,比我做生物信息学还早!!!如下所示: Continue reading
你的时薪是自己弄低的
我们持之以恒地挑选值得复现的精彩的生物信息学数据分析文章的图表作为学徒作业给大家,下面的《学徒作业》专辑里面的练习题可以配合生物信息学入门使用,也可以作为面试考核题哦! Continue reading
能从源头解决数据分析的瑕疵吗
前面我们在推文:数据分析有错误并不可怕,造假才不可饶恕 提到了这个新鲜出炉( 2023年12月5日)的cell期刊的文章单细胞转录组数据分析环节是有一些瑕疵的。
首先是在 单细胞水平这样的细胞比例变化可靠吗 已经提到了两个分组的单细胞亚群比例变化问题,很大程度上受到了离群点的影响。另外就是总体上这个cell期刊的文章的降维聚类分群后的拿到的各个亚群的特异性高表达量的基因列表就不常见,但是如果仅仅是使用作者提供的矩阵文件那么就很难搞清楚问题出在哪里,所以我们还是从单细胞转录组的测序数据开始: Continue reading
能把你服务器跑坏的r代码其实很简单
我们一直都有一个很简单的服务器共享业务,详见:生物信息学江湖的开创性产品-共享服务器。因为是同一个机器给很多人错峰使用,所以过去的五年一直运行的蛮好。
但是有一些代码本身有问题,所以也确实是有一些时候会造成整个服务器奔溃,比如一个小伙伴跑一个简单的动态预测模型代码,详见: Continue reading
内分泌器官胰岛的细分单细胞亚群
我们的《标记基因》专辑目前主要是介绍了肿瘤相关单细胞转录组的第一层次降维聚类分群后的细分亚群:
- immune (CD45+,PTPRC),
- epithelial/cancer (EpCAM+,EPCAM),
- stromal (CD10+,MME,fibo or CD31+,PECAM1,endo)
名校博士使用R语言大战医疗蛀虫
看到了新华社
在2023-12-04 发布的新闻:《三甲医院超收21万余元医疗费,官方通报!》,提到了医院过度收费而且违规使用医保基金的问题,如下所示: Continue reading
两种不同的方法实现harmony的多个单细胞整合
本笔记会被收录于《生信技能树》公众号的《单细胞2024》专辑,而且我们从2024开始的教程都是基于Seurat的V5版本啦,之前已经演示了如何读取不同格式的单细胞转录组数据文件,如下所示: Continue reading
来源于多个物种的单细胞转录组表达量矩阵如何处理
PDX模型(Patient-Derived Xenograft Model)对肿瘤研究的小伙伴来说非常熟悉了,这样的癌症研究模型,它涉及将来自患者的癌细胞或组织移植到小鼠等动物宿主体内培养。这种模型的目的是更好地模拟人体内癌症的特性,以进行更真实、更有效的药物测试和研究。 Continue reading
辣鸡科研搞一次就算了吧
众所周知,绝大部分科研都是制造辣鸡。生活所迫嘛,升职加薪需要这个辣鸡玩意儿,肯定是大家趋之若鹜,也很容易走入灰色地带交易。
很多人说硕博士毕业不得已而为之,一辈子就怎么一次制造辣鸡,反正毕业后就再也不碰科研这个肮脏玩意儿,所以也很难对它们这样的行为追责!
但是,刚才在朋友圈看到了一个骇人听闻的新闻,英国莱斯特大学张煜东作为通讯作者发一口气制造了9个科研辣鸡,大家看看这些文章的在线链接就明白了是什么肮脏玩意儿: Continue reading
各种单细胞表达量矩阵和空间信息的导入
前面我们演示了R语言里面的最流行的Seurat的单细胞流程是如何导入标准10x技术空间单细胞文件, 虽然说也有其它空间单细胞技术可以产出各式各样的数据。详见:10x的空间单细胞文件格式详解,但是我们粗浅的可以认为空间单细胞约等于10x技术。不过Seurat官网确实是给出来了两个分类: Continue reading
可能是作者把部分样品标记错误了分组吗
看到了一个2023年11月发表的文章《Cross-talk between Myeloid and B Cells Shapes the Distinct Microenvironments of Primary and Secondary Liver Cancer》是非常简单的普通转录组结合单细胞转录组的数据分析案例,取样是 hepatocellular carcinoma (HCC) 和 colorectal cancer liver metastasis (CRLM)的两个分组,非常清晰的实验设计。 Continue reading
具体的样品被表达量芯片技术检测到的基因数量如何计算
学徒做了个GSE26305数据集的表达量芯片练习,总体上来说,经过了我们的标准分析训练,是可以完成差异分析和富集分析的,详见我十年前的公众号推文,目录在:
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版+R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
但是具体是到细节,学徒就傻眼了,比如文章里面提到了不同的样品使用这个芯片的时候仅仅是检测到1.33万个基因,如下所示: Continue reading