毫无疑问,Seurat流程是目前单细胞转录组数据分析的主流,但是我们在过去的五年都熟悉了它的V4版本的代码架构,在R语言的cran官网可以看到其历史更新情况:
最近三年都是V4的版本: Continue reading
毫无疑问,Seurat流程是目前单细胞转录组数据分析的主流,但是我们在过去的五年都熟悉了它的V4版本的代码架构,在R语言的cran官网可以看到其历史更新情况:
最近三年都是V4的版本: Continue reading
甲基化技术里面,whole-genome bisulfite conversion (WGBS) 是金标准,但是价格昂贵,数据处理消耗计算资源,而Reduced- representation bisulfite sequencing (RRBS) 和Methylated DNA Immunoprecipitation Sequencing (MeDIP-Seq),都是片面的,只有 Methyl-Capture Sequencing (MC Seq)克服了它们其它这些技术的缺点: Continue reading
最近刷到了一个2023的文章《DNA methylome and transcriptome identified Key genes and pathways involved in Speckled Eggshell formation in aged laying hens》,家禽蛋壳的质量与蛋品生产的盈利能力密切相关。蛋壳斑点是影响鸡蛋外观和顾客偏好的一个重要品质性状。然而,斑点的形成机制仍然知之甚少。有斑点蛋和正常蛋的主要区别包括: Continue reading
食管鳞状细胞癌(Esophageal Squamous Cell Carcinoma,ESCC)和食管腺癌(Esophageal Adenocarcinoma,EAC)是两种常见的食管癌症类型,它们在病理学、发病机制和临床特征上存在显著差异。 Continue reading
这个月的学徒要开始单细胞转录组结合空间单细胞的数据分析学习啦, 然后他挑选了一个文章是:《Delineating the dynamic evolution from preneoplasia to invasive lung adenocarcinoma by integrating single-cell RNA sequencing and spatial transcriptomics》 Continue reading
做过单细胞转录组数据分析的小伙伴都知道,多分组多样品的单细胞项目很容易就十几万个单细胞了所以第一层次降维聚类分群就有十个左右亚群,然后每个亚群又可以细分十几个,算起来就是近百的单细胞亚群。
这样的话图表会非常多,但是数据分析的终极目标是发文章,而文章就必须要有故事性有落脚点。接下来我们就系统性梳理一下使用生存分析来辅助判定关键单细胞亚群。这里我们采用的仍然是2022的肺腺癌相关的文章,标题是:《Delineating the dynamic evolution from preneoplasia to invasive lung adenocarcinoma by integrating single-cell RNA sequencing and spatial transcriptomics》,肺癌单细胞数据集也有好几十个了,拿到表达量矩阵后的第一层次降维聚类分群通常是: Continue reading
大家最常接触的转录组数据分析教学环节都是二分组,处理和对照,疾病和正常,这样的差异分析很容易理解。但是真实的科研往往是更复杂一点,前面我们分享了:时间序列转录组多次差异分析以及时序分析,是不同时间点处理的肿瘤细胞系表达量芯片数据。 Continue reading
看到了《生信菜鸟团》公众号组建了一个孟德尔随机化的交流群,大家热火朝天的推荐各种学习资源和公众号合集。
其中有一个资源是最新的(2023年10月)NC文章《Genome-wide association analysis of plasma lipidome identifies 495 genetic associations》里面的数据在GWAS catalog ,里面的索引号是 GCST90277238-GCST90277416,但是这个公众号的小伙伴却不知道该如何批量下载, 或者说发现规律去写代码,而且手动整理好全部的链接后下载然后把它当做是宝贝来宣传。。。。 Continue reading
前些天在《生信技能树》的微信视频号做了一个肿瘤单细胞转录组的数据分析直播,文章是:《Delineating the dynamic evolution from preneoplasia to invasive lung adenocarcinoma by integrating single-cell RNA sequencing and spatial transcriptomics》详见:换一个分析策略会导致文章的全部论点都得推倒重来吗。
主要的分析就是第一层次降维聚类分群,然后大概认识一下有什么亚群,以及比例差异情况,最后就是把每个亚群都细分一下做同样的分析即可。 Continue reading
前面我们指出来了如何避坑那些已经废掉了的在读硕博士,详见:这5种博士千万不要招进课题组
因为人是环境的产物,有一些情况下其实废掉了的在读硕博士本性并不坏,也并不是说完全的烂泥扶不上墙,有可能是其导师或者课题组氛围出了问题,也是需要避坑。接下来我们主要是参考:《院士谈博士避坑:这10种导师千万不要选》,来源:中国教育报 ,作者:杨卫。指出来了导师应当遵守的“十戒”,作为导师的指导原则,如下所示 : Continue reading
通常情况下,如果大家提问说他们对自己的“照猫画虎”的生物信息学数据分析结果的准确性不确定的时候,我们会让他可视化后部分结果然后肉眼判断。因为为算法通常是给出来一个统计学指标,而我们高通量数据的分析通常是批量做大量的数据统计,会有大量的结果产生,这个其实就呼应了昨天的视频号直播: 生信分析和实验结果哪个更可靠(我和y叔的回答),y叔提到了因为存在大量的生物信息学初学者,他们对数据分析的认识不足导致数据分析出错误也会造成生信分析的不准确性。。。
比如,差异分析后一般来说有成百上千个上下调基因,如果对一个具 Continue reading
昨天我们介绍了2023年5月某院士团队发表在顶刊的文章:《Epithelial cells activate fibroblasts to promote esophageal cancer development》。详见:肿瘤相关成纤维单细胞亚群的iCAF和myCAF迷思,从大伙的留言可以看出来可能是误解了我的本意。我并没有批评把肿瘤相关成纤维(Cancer-Associated Fibroblasts,CAFs)区分成为了 iCAF和myCAF的命名方式。
众所周知,单细胞亚群的命名策略有三种: Continue reading
前面我们在推文:数据分析有错误并不可怕,造假才不可饶恕 提到了这个新鲜出炉( 2023年12月5日)的cell期刊的文章单细胞转录组数据分析环节有一些值得探讨的地方,比如第一层次降维聚类分群后的亚群的生物学命名,就发现很多特异性高表达的基因并不主流,而且很多主流基因是缺失的。
更麻烦的是因为文献里面的两个分组每个组内都是3个样品而已,而文章大家结论缺依赖于这个单细胞水平的细胞比例变化。其实早期(2018-2021时候)单细胞转录组费用居高不下,所以绝大部分情况下大家做两个分组,每个组内也就是三五个样品而已。这样的话两个分组之间的不同单细胞亚群的比例差异其实往往是需要最后使用流式细胞等价格相对低廉的实验技术去扩大样品队列去验证一下。 Continue reading
早期的单细胞转录组课题只需要做到图谱解释程度即可,就是第一层次降维聚类分群后不停地细分亚群。甚至不需要有精细的课题设计,反正拿到了单细胞转录组表达量矩阵就可以跑代码,无所谓样品是否有分组。
后期单细胞领域卷起来了,纯粹的图谱肯定是没有新意啦,或者说海量的公共的单细胞转录组数据已经可以无限制任何人免费获取,这样的话大家要想分析出不一样的地方,就需要想办法给没有课题设计的项目找到分组信息!
比如之前是可能是多个同类型癌症病人的单细胞,但是癌症病人是有分子分型或者临床分期或者病理区分的,或者有预后信息,抽烟喝酒与否的生活习惯差异,就有了后续分析的可能性。如果完全都没有,其实还可以通过数据本身的特征给它分组,比如单细胞水平的肿瘤异质性就是其中一个很好的点。 Continue reading
因为单细胞分辨率的空间转录组测序—-Visium HD全球发布,我们也可以开始拿正眼瞧一下这个空间单细胞转录组技术啦!作为数据分析人员,我们其实关心的是它产出什么样的数据,然后下游数据分析分析(统计可视化),以及如何更好的配合生命科学领域研究者赋予它科研意义! Continue reading
这个月的学徒要开始单细胞转录组结合空间单细胞的数据分析学习啦, 然后他挑选了一个文章是:《Delineating the dynamic evolution from preneoplasia to invasive lung adenocarcinoma by integrating single-cell RNA sequencing and spatial transcriptomics》 Continue reading
做单细胞转录组数据数据分析的第一步是载入表达量矩阵文件到R或者Python这样的编程环境里面,而我们主推的就是基于R语言的Seurat流程,它可以使用Read10X读取3个文件。
但是Read10X读取3个文件还得注意版本,而且必须保证3个文件名字完全一样,如果是最新版,应该是如下所示的: Continue reading
之前分享了:单细胞层面的表达量差异分析到底如何做,提到了pseudobulks方法,因为找各个单细胞亚群特异性高表达量基因(FindAllMarkers函数)以及两个亚群针对性差异分析(FindMarkers函数)都不符合需求,所以才有pseudobulks的流行。之前我们在《单细胞天地》公众号分享过一个文献 ,解读在:https://cloud.tencent.com/developer/article/1901064 Continue reading
编程语言软件环境主要指的是r语言软件本身以及配套的IDE软件,最近我的rsutdio这个ide人家一直提示我要更新,考虑到教学的需要,就彻底更新给大家看! Continue reading
最近看到朋友圈好多人在转发这个《Top 10 Advances in Bioinformatics in 2023》,我看了看其实相当于是10个综述或者说是10个方向,并不是具体的某个发现或者某个技术。之前我们推送过《中国生物信息学十大进展》评选活动,该起始于2018,但是2023的还没有公布。我仍然是照例把这两个都 贴在文末,看看大家能不能预测一下刚刚过去的2023的可能会被评选出的《中国生物信息学十大进展》会有哪些。 Continue reading