过去的三五年,我们在单细胞数据分析的方方面面都写了很多笔记,而且已经形成了一套成熟的降维聚类分群代码。 Continue reading
Category Archives: 未分类
作者仅提供了fpkm格式表达量矩阵的转录组测序数据集该如何重新分析呢
一个2021的糖尿病转录组文章:《Altered human alveolar bone gene expression in type 2 diabetes—A cross-sectional study》,在线链接是: Continue reading
自动化下载并且校验文件完整性
经常下载过ngs项目公共数据集的小伙伴们都是知道fastq文件非常大而且不同数据库访问情况都不太稳定。
详见:aspera的高速下载确实很快吗,需要自己在服务器上面配置好conda,然后执行conda的安装两个软件(kingfisher和aspera),我们一般来说会推荐极简下载代码,就是一个循环而已;
首先自己制作文件名字(fq.txt )内容如下所示:: Continue reading
转录组测序发展这么多年了仍然是基因表达量差异分析而已
大家在网络上看得到的生物信息学教程,一半都是转录组方面的数据处理心得体会,包括表达量芯片和转录组测序。而且其中一波都是集中在基因的表达量差异分析而已,实际上生命科学领域可以探索的东西非常多!
从分子生物学的角度来看,基因的表达量高低变化只是中心法则中的一个方面。中心法则描述了遗传信息的流动方向,主要包括以下几个过程: Continue reading
转录组测序的表达量的两个归一化方向会影响差异分析吗
众所周知,转录组测序后拿到的表达量矩阵通常是基因在样品的reads的数量,就是最原始的整数的counts矩阵啦。它有两个归一化方向,首先是样品方向的就是抹去各个样品的文库大小这个变量,然后是基因方向的就是抹去基因长度对表达量的影响。
如果是使用deseq2这样的包进行转录组测序的表达量的差异分析需要的是最原始的整数的counts矩阵即可,如果是做表达量热图,通常是使用归一化后的矩阵,可以是两个方向都做。如果仅仅是考虑文库大小就是cpm和rpm,如果同时考虑基因长度就是 FPKM(Fragments Per Kilobase of transcript per Million mapped reads),以及tpm,让我们来理解一下: Continue reading
专注于高通量测序数据处理的生物信息学书籍推荐
前面我们介绍了:专注于多组学数据处理的生物信息学书籍推荐,大家纷纷留言表示没想到生物信息学的系统性资料居然可以这么早,2011年那个时候国内基本上成规模的测序相关科研服务公司都没有。。。。
当然了也有人推荐了一个同款2011的书籍:《Bioinformatics for High Throughput Sequencing》,这本书籍的目录表明它专注于高通量测序(High-Throughput Sequencing, HTS)技术及其在生物信息学中的应用。以下是对书籍内容的整理和介绍: Continue reading
专注于多组学数据处理的生物信息学书籍推荐
生物信息学是一个交叉学科,结合了生物学、计算机科学和信息技术,用于处理和分析生物数据,特别是大规模的组学数据。
这里给大家推荐一下一本关于生物信息学(Bioinformatics)的专著,专注于组学(Omics)技术及其数据分析,标题也是朴实无华哦:《Bioinformatics for Omics Data》,另外就是非常值得强调的是书籍居然是2011年的! Continue reading
这配色方案让人费解啊
学员在微信交流群分享了一个2024年5月的单细胞数据挖掘文章,标题是:《Single-cell combined with transcriptome sequencing to explore the molecular mechanism of cell communication in idiopathic pulmonary fibrosis》,研究者们重新分析了 GSE122960 这个单细胞转录组数据集,第一层次降维聚类分群后简单的统计了一下每个单细胞亚群的数量,绘制条形图如下所示: Continue reading
这不是一个稀奇的表达量芯片平台
马拉松授课的表达量芯片环节结束后,学员们都迫不及待的处理自己感兴趣的数据集了,其中一个小伙伴表示发现了一个稀奇的表达量芯片平台,是 GPL19833,[HG-U219] Affymetrix Human Genome U219 Array (ENSG Brainarray CDF Version 18.0.0),如下所示 : Continue reading
院士喊你来学习生物信息呢
前面的推文:离大谱了,生信转湿实验?,不知道怎么就又莫名其妙的戳到了一些“黑粉”的G点,都关注我们生信技能树这么多年了还是如此的顽固不化,拒绝进入人工智能时代拒绝高通量测序数据分析。 Continue reading
医学科研离不开临床医生啊
最近听到了太多的声音,说不需要让临床医师做科研,耽误了他们的治病救人的本职工作不说,还破坏了纯洁的学术氛围。对于这样的说法我是嗤之以鼻的,因为没有临床实践提出来科学问题医学科研基本上都是空中楼阁啊! Continue reading
一网打尽全部的商业化单细胞数据处理
看到了预印本出来了一个测评文章;《Comparative Analysis of Commercial Single-Cell RNA Sequencing Technologies》重要的是3个链接: Continue reading
一个引号引发的血案
安排学徒探索了一下表达量芯片的不同探针平台信息,然后学徒给我反馈了一个在他看来有意思的bug,就是在读取一个txt文件的时候会出现读不完整的情况 : Continue reading
一朵迟来的玫瑰
七夕节当天在朋友圈看到了好几个朋友转发了使用R编程语言绘制一个动态交互式的玫瑰花,颜值还不错!
代码来源于朋友圈多个公众号,已经没办法搞清楚原创是谁了,我就复制粘贴一下借花献佛给大家哦 Continue reading
学单细胞数据分析之前得掌握生物信息学算法吗
有小伙伴在交流群问了一下tSNE和UMAP的问题,就有人“友情回怼”了一下说要理解“降维聚类分群”原理就得看生物信息学算法了。
然后甩了一个很古老的在线书籍: Continue reading
细胞名字可以不给但是基因名字不能不要啊
这些年陆陆续续处理了一两千个单细胞转录组公共数据集了,总是会碰到一些缺胳膊断腿的,比如: Continue reading
无论是肿瘤和正常组织都不可能有这么高比例的树突细胞
最近在咱们的微信交流群看到了小伙伴反馈一个数据挖掘文章从根上就错了,标题:《Integrative analyses of bulk and single-cell transcriptomics reveals the infiltration and crosstalk of cancer-associated fibroblasts as a novel predictor for prognosis and microenvironment remodeling in intrahepatic cholangiocarcinoma》,链接是: Continue reading
无论如何也不可能达到文献的完美分群?
安排学徒复现一个新鲜出炉的阿兹海默症的单细胞文章:《Characterisation of premature cell senescence in Alzheimer’s disease using single nuclear transcriptomics》: Continue reading
我为什么不卖生信套路
其实很简单,我作为作为生信新媒体圈子华语区第一人,有自己的生态位,注定了我不可能说去做一些短平快的生信套路课程或者文章生意。首先呢不符合我的人设,我的理想是带领三五百万生命科学领域从业者都开始数据分析,其次我还不至于沦落到需要做这样的“灰色”生意的地步,毕竟是我已经开创了共享服务器这个赛道,而且在生物信息学人才培养领域做到了第一而且几乎是唯一。 Continue reading
我不是那个天降猛男
前两天发布的 谁来拯救那三五万生信工程师?,让很多人误解了以为生物信息学这个专业方向前景堪忧。其实并不能这样说,我想表达的是初级生信工程师会被强大的人工智能很轻松的替代掉,所以勉励大家精进一下自己的数据分析业务水平。 Continue reading