chatGPT教你做孟德尔随机化

如果你去openAI问chatGPT关于孟德尔随机化的流程,它是这样的回答:


是的,我可以为您提供一个孟德尔随机化的流程介绍。

孟德尔随机化是一种常见的生物信息学算法,用于评估基因对生物学过程的影响。该算法通过模拟随机基因重排来评估基因组和外显子组的对生物学目标的影响。

以下是孟德尔随机化的流程:

  1. 数据准备:获取数据,进行数据预处理,清洗和格式化数据。
  2. 生成随机数据集:使用随机数生成器,生成随机数据集,该数据集与原始数据集相同。
  3. 基因重排:对随机数据集的基因进行随机重排,以模拟随机的基因重排。
  4. 统计分析:计算随机数据集和原始数据集中的生物学指标,并进行统计分析。
  5. 比较:将随机数据集中的生物学指标与原始数据集中的生物学指标进行比较,以评估基因对生物学过程的影响。
  6. 可视化:对结果进行可视化处理,以方便更好的理解和分析结果。
  7. 结论:得出结论,根据比较的结果评估

当然了,这样的泛泛而谈肯定是不够,我们需要更加细致的步骤介绍,尤其是代码,所以需要细化自己的 提问方式:

有做孟德尔随机化的R代码流程推荐吗

是的,我可以提供一种基于R语言的孟德尔随机化流程。

首先,你需要获取到你的数据,如果是基因表达数据,那么需要先将它转化为矩阵形式。

然后,可以通过以下代码来进行孟德尔随机化:

# 导入相关库
library(matrixStats)
library(ggplot2)

# 读入数据
data <- read.table("gene_expression_matrix.txt", header=TRUE, row.names=1)

# 定义孟德尔随机化函数
permute_gene_expression <- function(data, n_permutations){
 # 记录原始数据的均值和标准差
 mean_orig <- rowMeans(data)
 sd_orig <- apply(data, 1, sd)

 # 存储孟德尔随机化的数据的均值和标准差
 mean_permuted <- matrix(nrow=nrow(data), ncol=n_permutations)
 sd_permuted <- matrix(nrow=nrow(data), ncol=n_permutations)

 # 进行孟德尔随机化
 for(i in 1:n_permutations){
 # 对每一列随机打乱
 data_permuted <- data[,sample(ncol(data))]

 # 计算孟德尔随机化后的均值和标准差
 mean_permuted[,i] <- rowMeans(data_permuted)
 sd_permuted[,i] <- apply(data_permuted, 1, sd)
 }

 # 返回结果
 return(list(mean_orig=mean_orig, sd_orig=sd_orig, mean_permuted=mean_permuted, sd_permuted=sd_permuted))
}

# 运行孟德尔随机化
result <- permute_gene_expression(data, 1000)

# 绘制结果
ggplot(melt(result$mean_permuted), aes(x=value, fill=variable)) + 
 geom_density(alpha=0.5) +

虽然我没有做过孟德尔随机化,但是我感觉这个代码应该是不能运行的,而且如果你找chatGPT要参考文献,肯定也是会遇到它瞎编乱造的回复:

有孟德尔随机化的经典文章推荐吗

孟德尔随机化是一种常用的生物学研究方法,用于评估生物数据的统计学显著性。如果你对孟德尔随机化感兴趣,我可以推荐一些相关的经典文章:

  1. Fisher, R. A. (1936). Has Mendel’s work been rediscovered?. Annals of science, 1(2), 115-137.
  2. Fisher, R. A. (1930). The genetical theory of natural selection. Oxford University Press.
  3. Wright, S. (1931). Evolution in Mendelian populations. Genetics, 16(2), 97-159.

这些文章是孟德尔随机化理论的重要来源,提供了孟德尔随机化的基本原理和应用方法。

我虽然说没有去搜索这些文章,但是看着它们都是接近100年前的,让我有点懵逼。其实如果你让我推荐孟德尔随机化相关资料,我会介绍2022年4月的文章:《Deciphering how early life adiposity influences breast cancer risk using Mendelian randomization》,它配套了全部的代码和测试数据 :

Mendelian randomization and mediation analysis code is available on

Simulation analysis for selecting the mediation method is available on

知道如何做并不代表就能做成功

纸上谈兵的道理大家都懂,chatGPT实际上就是扩充了我们的知识面,但如果要实操还是得从零开始掌握基础代码能力,统计可视化,否则就是有金山银山在你面前,也无福消受。

而且chatGPT对业内人的帮助或许会远大于普通人,普通人仅仅是拿chatGPT当一个聊天器,搜索工具,但是行业内人士是可以跟chatGPT交互式对话,不停的训练它往专业的方向前进。比如同样是利用chatGPT做统计可视化,如果你熟悉你的流程,描述清楚你的需求,就可以一步到位出图:

一步到位出图

Comments are closed.