02

自动化下载并且校验文件完整性

经常下载过ngs项目公共数据集的小伙伴们都是知道fastq文件非常大而且不同数据库访问情况都不太稳定。

详见:aspera的高速下载确实很快吗,需要自己在服务器上面配置好conda,然后执行conda的安装两个软件(kingfisher和aspera),我们一般来说会推荐极简下载代码,就是一个循环而已;

首先自己制作文件名字(fq.txt )内容如下所示:: Continue reading

02

转录组测序发展这么多年了仍然是基因表达量差异分析而已

大家在网络上看得到的生物信息学教程,一半都是转录组方面的数据处理心得体会,包括表达量芯片和转录组测序。而且其中一波都是集中在基因的表达量差异分析而已,实际上生命科学领域可以探索的东西非常多!

从分子生物学的角度来看,基因的表达量高低变化只是中心法则中的一个方面。中心法则描述了遗传信息的流动方向,主要包括以下几个过程: Continue reading

02

转录组测序的表达量的两个归一化方向会影响差异分析吗

众所周知,转录组测序后拿到的表达量矩阵通常是基因在样品的reads的数量,就是最原始的整数的counts矩阵啦。它有两个归一化方向,首先是样品方向的就是抹去各个样品的文库大小这个变量,然后是基因方向的就是抹去基因长度对表达量的影响。

如果是使用deseq2这样的包进行转录组测序的表达量的差异分析需要的是最原始的整数的counts矩阵即可,如果是做表达量热图,通常是使用归一化后的矩阵,可以是两个方向都做。如果仅仅是考虑文库大小就是cpm和rpm,如果同时考虑基因长度就是 FPKM(Fragments Per Kilobase of transcript per Million mapped reads),以及tpm,让我们来理解一下: Continue reading

02

专注于高通量测序数据处理的生物信息学书籍推荐

前面我们介绍了:专注于多组学数据处理的生物信息学书籍推荐,大家纷纷留言表示没想到生物信息学的系统性资料居然可以这么早,2011年那个时候国内基本上成规模的测序相关科研服务公司都没有。。。。
当然了也有人推荐了一个同款2011的书籍:《Bioinformatics for High Throughput Sequencing》,这本书籍的目录表明它专注于高通量测序(High-Throughput Sequencing, HTS)技术及其在生物信息学中的应用。以下是对书籍内容的整理和介绍: Continue reading

02

专注于多组学数据处理的生物信息学书籍推荐

生物信息学是一个交叉学科,结合了生物学、计算机科学和信息技术,用于处理和分析生物数据,特别是大规模的组学数据。

这里给大家推荐一下一本关于生物信息学(Bioinformatics)的专著,专注于组学(Omics)技术及其数据分析,标题也是朴实无华哦:《Bioinformatics for Omics Data》,另外就是非常值得强调的是书籍居然是2011年的! Continue reading

02

这配色方案让人费解啊

学员在微信交流群分享了一个2024年5月的单细胞数据挖掘文章,标题是:《Single-cell combined with transcriptome sequencing to explore the molecular mechanism of cell communication in idiopathic pulmonary fibrosis》,研究者们重新分析了 GSE122960 这个单细胞转录组数据集,第一层次降维聚类分群后简单的统计了一下每个单细胞亚群的数量,绘制条形图如下所示: Continue reading

02

一朵迟来的玫瑰

七夕节当天在朋友圈看到了好几个朋友转发了使用R编程语言绘制一个动态交互式的玫瑰花,颜值还不错!
代码来源于朋友圈多个公众号,已经没办法搞清楚原创是谁了,我就复制粘贴一下借花献佛给大家哦 Continue reading

02

无论是肿瘤和正常组织都不可能有这么高比例的树突细胞

最近在咱们的微信交流群看到了小伙伴反馈一个数据挖掘文章从根上就错了,标题:《Integrative analyses of bulk and single-cell transcriptomics reveals the infiltration and crosstalk of cancer-associated fibroblasts as a novel predictor for prognosis and microenvironment remodeling in intrahepatic cholangiocarcinoma》,链接是: Continue reading

02

我为什么不卖生信套路

其实很简单,我作为作为生信新媒体圈子华语区第一人,有自己的生态位,注定了我不可能说去做一些短平快的生信套路课程或者文章生意。首先呢不符合我的人设,我的理想是带领三五百万生命科学领域从业者都开始数据分析,其次我还不至于沦落到需要做这样的“灰色”生意的地步,毕竟是我已经开创了共享服务器这个赛道,而且在生物信息学人才培养领域做到了第一而且几乎是唯一。 Continue reading