其实很简单,我作为作为生信新媒体圈子华语区第一人,有自己的生态位,注定了我不可能说去做一些短平快的生信套路课程或者文章生意。首先呢不符合我的人设,我的理想是带领三五百万生命科学领域从业者都开始数据分析,其次我还不至于沦落到需要做这样的“灰色”生意的地步,毕竟是我已经开创了共享服务器这个赛道,而且在生物信息学人才培养领域做到了第一而且几乎是唯一。
数据挖掘的核心是缩小目标基因
众所周知,生信套路就是各种各样的公共数据集的数据挖掘,他们的核心是缩小目标基因,因此就引入了海量的生物信息学套路,传统的有免疫,代谢,衰老,现在有昼夜节律,线粒体,细胞焦亡,乳酸化等等。
一般来说,无论是表达量芯片还是转录组测序后,拿到的表达量矩阵通常是2万多个蛋白编码基因,只要是分组合理无论是采用何种算法的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。其实还有另外一个策略方向,有点类似于人工选择啦,通常是可以往热点靠,比如肿瘤免疫,相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析,仅仅是拿着几千个免疫相关基因的表达矩阵即可。最近比较热门的有:自噬基因,铁死亡,EMT基因,核受体基因家族,代谢基因。还有一个最搞笑的是m6a基因的策略,完全是无厘头的基因集搞小,纯粹是为了搞小而搞小。
生信圈子每个人或者组织都有自己的生态位
学术界,之前有TCGA计划,GTEX联盟,ENCODE组织等等,最近有SOMA项目,BICCN联盟,他们是大资金投入方,同时也是生物信息学的全球圣地,他们是不可能说浪费时间精力在生信套路项目,因为隔三差五就有海量的CNS文章出来。。。
空组学和医学图谱(Space Omics and Medicine Atlas, SOMA)的系列研究成果
这个SOMA项目,太空组学和医学图谱(Space Omics and Medicine Atlas, SOMA)的系列研究成果,以专刊形式在顶级学术期刊《Nature》及其子刊上发表,共计44篇重量级文章。这一项目由全球超过25个国家地区的100多个机构携手完成,SOMA项目是迄今为止规模最大的太空相关数据集,它不仅涵盖了基因组学、表观基因组学、转录组学、蛋白质组学、代谢组学和微生物组学等多维度的分子和生理图谱,还深入揭示了宇航员在太空任务中所经历的一系列生物学变化。树立了多个里程碑,包括:
- 将源自太空的下一代测序(NGS)数据量增加了10倍以上;
- 太空中单细胞数据的数量增加了4倍;
- 推出了首个太空医学生物库(CAMbank);
- 获得了首批直接来自宇航员的RNA测序数据;
- 在单次太空任务中处理了数量最多的生物样本(2911个);
- 首次获得宇航员的空间分辨转录组数据。
脑细胞普查网络联盟(Brain Research through Advancing Innovative Neurotechnologies Initiative - Cell Census Network,BICCN)
- 2021年10月,《自然》杂志曾一次性上线16篇研究论文,报告了BICCN项目的阶段性研究成果:在分子水平上全面绘制哺乳动物初级运动皮层细胞类型的特征。
- 2023年10月,BICCN联盟在《Science》及其子刊上发布了11篇研究论文,这些成果不仅在数量上前所未有,更在深度和广度上为理解大脑的细胞组成和功能提供了新的视角。研究涵盖了不同动物模型和发育中的人脑,从转录水平、表观遗传学以及细胞功能等多个维度进行了深入探讨。
- 2023年10月,《科学》杂志特别推出了“脑细胞普查”专题,共21篇研究论文同时在《科学》、《科学-进展》和《科学-转化医学》上线。这些论文分享了迄今为止最全面的人类和非人灵长类动物大脑细胞图谱,为神经科学研究提供了宝贵的资源。
生物信息学领域,TCGA、GTEX和ENCODE是三个非常重要的项目和组织
- TCGA (The Cancer Genome Atlas):
- 癌症基因组图谱计划。这是一个由美国国家癌症研究所 (National Cancer Institute, NCI) 和美国国家人类基因组研究所 (National Human Genome Research Institute, NHGRI) 联合资助的大型项目。该项目的目标是通过应用高通量的基因组分析技术,对多种类型的癌症进行全面的基因组特征研究,以发现癌症的分子亚型、生物标志物和潜在治疗靶点。
- GTEX (Genotype-Tissue Expression):
- 基因型-组织表达项目。这是一个旨在研究人类基因表达与基因型之间关系的项目。GTEX项目收集了大量的基因表达数据和基因型数据,涵盖了多个组织和器官,为研究基因表达的遗传调控提供了宝贵的资源。
- ENCODE (Encyclopedia of DNA Elements):
- 基因组DNA元素百科全书项目。这是一个国际性的合作研究项目,旨在识别和注释人类基因组中的所有功能元件,包括基因、调控区域和其他非编码RNA。ENCODE项目通过多种高通量实验技术,揭示了基因组中调控基因表达的复杂网络。
泛癌层面的数据挖掘文章
如果是整理了多个癌症的多个单细胞转录组数据集,就是泛癌研究,聚焦到某个单细胞亚群,这样的汇总的文章张泽民课题组发了很多cns文章,包括髓系免疫细胞,t细胞以及nk细胞;
- 基因组DNA元素百科全书项目。这是一个国际性的合作研究项目,旨在识别和注释人类基因组中的所有功能元件,包括基因、调控区域和其他非编码RNA。ENCODE项目通过多种高通量实验技术,揭示了基因组中调控基因表达的复杂网络。
- 2021年2月发表在CELL的《A pan-cancer single-cell transcriptional atlas of tumor infiltrating myeloid cells》
- 2021年12月发表在science的《Pan-cancer single cell landscape of tumor-infiltrating T cells》
- 2023年9月发表在CELL的《A pan-cancer single-cell panorama of human natural killer cells》
- 2024年8月发表在CELL的《Pan-cancer single-cell dissection reveals phenotypically distinct B cell subtypes》
- 普通的文章,泛癌层面的内皮细胞亚群,标题是:《 Pan-cancer integrative analyses dissect the remodeling of endothelial cells in human cancers 》
复旦大学樊嘉课题组也有类似的cns文章: - 2024年3月的《Cell》期刊《Neutrophil profiling illuminates anti-tumor antigen-presenting potency》
- 2024年5月的《Science》期刊《 A blueprint for tumor-infiltrating B cells across human cancers 》
道理往往是相通的
美国的Broad研究所(Broad Institute)和欧洲生物信息学研究所(European Bioinformatics Institute, EBI) 是生物信息学领域内两个极具影响力和声望的研究机构:
- Broad研究所:
- Broad研究所位于美国马萨诸塞州剑桥市,与哈佛大学和麻省理工学院(MIT)有着紧密的合作关系。它是一个大型的多学科研究机构,致力于通过基因组学和生物信息学来理解生物学的基本原理,并将其应用于医学和疾病治疗。
- Broad研究所在基因组测序、癌症基因组学、干细胞生物学、神经科学等领域取得了许多突破性成果。它是1000 Genomes Project、Human Genome Project等重大国际项目的积极参与者和领导者之一。
- 欧洲生物信息学研究所(EBI):
- EBI位于英国剑桥附近的Hinxton,是欧洲分子生物学实验室(European Molecular Biology Laboratory, EMBL)的一部分。EBI是一个世界领先的生物信息学服务中心,提供大量的生物信息学资源和工具。
- EBI在生物信息学、系统生物学、基因组学和蛋白质组学等领域进行研究,并且提供公共数据库,如EMBL-EBI数据库,这些数据库包含了大量的生物分子数据,供全球科研人员使用。
这两个研究所都在生物信息学领域做出了巨大贡献,它们提供的资源、工具和研究成果对于全球的科研人员来说都是极其宝贵的。他们的科学家不会去做生信套路!
张泽民课题组和复旦大学樊嘉课题组也不需要卖生信套路,我也不需要!附上朋友圈的一个关于互联网受众吐槽吧:
其实道理往往是相通的,大家将心比心,我作为作为生信新媒体圈子华语区第一人会承担什么样的压力和骂名呢?
- 我勤勤恳恳的坚持了十多年生物信息学笔记写作,有人一定要说我的github和外网教程的搬运工。
- 我的理想是带领三五百万生命科学领域从业者都开始数据分析,有人就说是我把国内的生物信息学带歪的,生信套路的风气是我造成的?