31

几乎没有差异,并且完全没有交集的组学数据分析结果

最近刷到了一个2023的文章《DNA methylome and transcriptome identified Key genes and pathways involved in Speckled Eggshell formation in aged laying hens》,家禽蛋壳的质量与蛋品生产的盈利能力密切相关。蛋壳斑点是影响鸡蛋外观和顾客偏好的一个重要品质性状。然而,斑点的形成机制仍然知之甚少。有斑点蛋和正常蛋的主要区别包括: Continue reading

31

关键单细胞亚群辅助判定之生存分析

做过单细胞转录组数据分析的小伙伴都知道,多分组多样品的单细胞项目很容易就十几万个单细胞了所以第一层次降维聚类分群就有十个左右亚群,然后每个亚群又可以细分十几个,算起来就是近百的单细胞亚群。

这样的话图表会非常多,但是数据分析的终极目标是发文章,而文章就必须要有故事性有落脚点。接下来我们就系统性梳理一下使用生存分析来辅助判定关键单细胞亚群。这里我们采用的仍然是2022的肺腺癌相关的文章,标题是:《Delineating the dynamic evolution from preneoplasia to invasive lung adenocarcinoma by integrating single-cell RNA sequencing and spatial transcriptomics》,肺癌单细胞数据集也有好几十个了,拿到表达量矩阵后的第一层次降维聚类分群通常是: Continue reading

31

给你一个病毒感染与否的时间序列采样的转录组你能挖掘出什么

大家最常接触的转录组数据分析教学环节都是二分组,处理和对照,疾病和正常,这样的差异分析很容易理解。但是真实的科研往往是更复杂一点,前面我们分享了:时间序列转录组多次差异分析以及时序分析,是不同时间点处理的肿瘤细胞系表达量芯片数据。 Continue reading

31

搞孟德尔随机化热点的小伙伴数据分析能力有点弱啊

看到了《生信菜鸟团》公众号组建了一个孟德尔随机化的交流群,大家热火朝天的推荐各种学习资源和公众号合集。

其中有一个资源是最新的(2023年10月)NC文章《Genome-wide association analysis of plasma lipidome identifies 495 genetic associations》里面的数据在GWAS catalog ,里面的索引号是 GCST90277238-GCST90277416,但是这个公众号的小伙伴却不知道该如何批量下载, 或者说发现规律去写代码,而且手动整理好全部的链接后下载然后把它当做是宝贝来宣传。。。。 Continue reading

31

肿瘤单细胞转录组的第一层次降维聚类分群

前些天在《生信技能树》的微信视频号做了一个肿瘤单细胞转录组的数据分析直播,文章是:《Delineating the dynamic evolution from preneoplasia to invasive lung adenocarcinoma by integrating single-cell RNA sequencing and spatial transcriptomics》详见:换一个分析策略会导致文章的全部论点都得推倒重来吗

主要的分析就是第一层次降维聚类分群,然后大概认识一下有什么亚群,以及比例差异情况,最后就是把每个亚群都细分一下做同样的分析即可。 Continue reading

31

导师是如何让你废掉的

前面我们指出来了如何避坑那些已经废掉了的在读硕博士,详见:这5种博士千万不要招进课题组

因为人是环境的产物,有一些情况下其实废掉了的在读硕博士本性并不坏,也并不是说完全的烂泥扶不上墙,有可能是其导师或者课题组氛围出了问题,也是需要避坑。接下来我们主要是参考:《院士谈博士避坑:这10种导师千万不要选》,来源:中国教育报 ,作者:杨卫。指出来了导师应当遵守的“十戒”,作为导师的指导原则,如下所示 : Continue reading

31

当算法和肉眼冲突了肿么办

通常情况下,如果大家提问说他们对自己的“照猫画虎”的生物信息学数据分析结果的准确性不确定的时候,我们会让他可视化后部分结果然后肉眼判断。因为为算法通常是给出来一个统计学指标,而我们高通量数据的分析通常是批量做大量的数据统计,会有大量的结果产生,这个其实就呼应了昨天的视频号直播: 生信分析和实验结果哪个更可靠(我和y叔的回答),y叔提到了因为存在大量的生物信息学初学者,他们对数据分析的认识不足导致数据分析出错误也会造成生信分析的不准确性。。。

比如,差异分析后一般来说有成百上千个上下调基因,如果对一个具 Continue reading

31

单细胞亚群的命名策略决定了不同的研究很难统一(都是癌症成纤维吗)

昨天我们介绍了2023年5月某院士团队发表在顶刊的文章:《Epithelial cells activate fibroblasts to promote esophageal cancer development》。详见:肿瘤相关成纤维单细胞亚群的iCAF和myCAF迷思,从大伙的留言可以看出来可能是误解了我的本意。我并没有批评把肿瘤相关成纤维(Cancer-Associated Fibroblasts,CAFs)区分成为了 iCAF和myCAF的命名方式。
众所周知,单细胞亚群的命名策略有三种: Continue reading

31

单细胞水平这样的细胞比例变化可靠吗

前面我们在推文:数据分析有错误并不可怕,造假才不可饶恕 提到了这个新鲜出炉( 2023年12月5日)的cell期刊的文章单细胞转录组数据分析环节有一些值得探讨的地方,比如第一层次降维聚类分群后的亚群的生物学命名,就发现很多特异性高表达的基因并不主流,而且很多主流基因是缺失的。
更麻烦的是因为文献里面的两个分组每个组内都是3个样品而已,而文章大家结论缺依赖于这个单细胞水平的细胞比例变化。其实早期(2018-2021时候)单细胞转录组费用居高不下,所以绝大部分情况下大家做两个分组,每个组内也就是三五个样品而已。这样的话两个分组之间的不同单细胞亚群的比例差异其实往往是需要最后使用流式细胞等价格相对低廉的实验技术去扩大样品队列去验证一下。 Continue reading

31

单细胞水平的肿瘤异质性

早期的单细胞转录组课题只需要做到图谱解释程度即可,就是第一层次降维聚类分群后不停地细分亚群。甚至不需要有精细的课题设计,反正拿到了单细胞转录组表达量矩阵就可以跑代码,无所谓样品是否有分组。
后期单细胞领域卷起来了,纯粹的图谱肯定是没有新意啦,或者说海量的公共的单细胞转录组数据已经可以无限制任何人免费获取,这样的话大家要想分析出不一样的地方,就需要想办法给没有课题设计的项目找到分组信息!
比如之前是可能是多个同类型癌症病人的单细胞,但是癌症病人是有分子分型或者临床分期或者病理区分的,或者有预后信息,抽烟喝酒与否的生活习惯差异,就有了后续分析的可能性。如果完全都没有,其实还可以通过数据本身的特征给它分组,比如单细胞水平的肿瘤异质性就是其中一个很好的点。 Continue reading

31

空间单细胞转录组数据分析教程当然是看10x官网啊

因为单细胞分辨率的空间转录组测序—-Visium HD全球发布,我们也可以开始拿正眼瞧一下这个空间单细胞转录组技术啦!作为数据分析人员,我们其实关心的是它产出什么样的数据,然后下游数据分析分析(统计可视化),以及如何更好的配合生命科学领域研究者赋予它科研意义! Continue reading

31

单细胞第一步:认识和读取不同格式的单细胞转录组数据

做单细胞转录组数据数据分析的第一步是载入表达量矩阵文件到R或者Python这样的编程环境里面,而我们主推的就是基于R语言的Seurat流程,它可以使用Read10X读取3个文件。

但是Read10X读取3个文件还得注意版本,而且必须保证3个文件名字完全一样,如果是最新版,应该是如下所示的: Continue reading

31

单细胞差异分析之pseudobulk的3种实现方法

之前分享了:单细胞层面的表达量差异分析到底如何做,提到了pseudobulks方法,因为找各个单细胞亚群特异性高表达量基因(FindAllMarkers函数)以及两个亚群针对性差异分析(FindMarkers函数)都不符合需求,所以才有pseudobulks的流行。之前我们在《单细胞天地》公众号分享过一个文献 ,解读在:https://cloud.tencent.com/developer/article/1901064 Continue reading