PDX小鼠模型的单细胞样品定量能选择人类参考基因组吗

学员交流群有小伙伴提问他看到了他们隔壁课题组的一个食管癌单细胞文章可能数据处理有问题, 文献标题是:《Collagen 1-mediated CXCL1 secretion in tumor cells activates fibroblasts to promote radioresistance of esophageal cancer》:

  • we develop patient-derived xenografts (PDXs) from 19 patients with ESCC to investigate the mechanisms driving radio- resistance. Using RNA sequencing, cytokine arrays, and single-cell RNA sequencing,
  • we reveal an enrichment of cancer-associated fibroblast (CAF)-derived collagen type 1 (Col1) and tumor-cell-derived CXCL1 in non-responsive PDXs.

其中肿瘤病人的多组学数据(肿瘤外显子以及转录组)目前管理很严格,所以是没办法公开获取的,但是文献里面的The single-cell RNA sequencing data of 6 PDX mice 是可以公开的:https://ngdc.cncb.ac.cn/gsa/browse/CRA010501 ,确实是可以看到这个PDX小鼠模型的单细胞样品定量是选择的人类参考基因组:
选择的人类参考基因组
这个时候如果大家的生物学背景知识不够,确实是容易有这个误解。其实本文的研究者们仅仅是定量拿到了PDX小鼠模型里面的人类肿瘤细胞,所以明明是 6 PDX mice 的单细胞转录组也就是拿到了三千多个细胞而已。然后做了降维聚类分群,接着选择了CXCL1含量最高的C1单细胞亚群去看它在NR和R组的差异而已:
也就是拿到了三千多个细胞而已
PDX(Patient-Derived Xenograft)小鼠模型是一种将来自癌症患者的肿瘤细胞或组织片段移植到免疫缺陷小鼠体内的方法,用于癌症研究。在PDX模型中,肿瘤细胞保持了原始肿瘤的许多特征,包括异质性和微环境相互作用,这使得它们成为研究肿瘤生物学和评估抗癌疗法的有效模型。
在进行单细胞测序分析时,PDX模型的样品可能包含人类肿瘤细胞和鼠源性细胞(如基质细胞、免疫细胞等)。因此,选择适当的参考基因组对于准确分析和解释数据至关重要。

是否可以选择人类参考基因组?

  1. 目的:如果分析的主要目的是研究人类肿瘤细胞的特性,选择人类参考基因组是合适的。这有助于聚焦于肿瘤细胞的基因表达、突变和功能状态。
  2. 挑战:然而,由于PDX模型中也存在鼠源性细胞,如果只使用人类参考基因组,可能会忽略或误解释鼠源性细胞的信号。
  3. 解决方案:为了克服这一挑战,研究人员可能会选择一个包含人类和小鼠基因组信息的双重参考基因组,或者使用特定的生物信息学工具来区分和分析人类和鼠源性细胞的数据。

    细节知识点:

  4. 细胞分离:在进行单细胞测序之前,可能需要通过流式细胞术或其他方法分离人类肿瘤细胞和鼠源性细胞。
  5. 基因组覆盖:使用人类参考基因组可以提供对肿瘤细胞基因表达和突变的全面覆盖,但可能无法解释小鼠细胞的信号。
  6. 数据解析:在数据分析时,需要考虑如何区分人类和鼠源性细胞的基因表达模式,可能需要使用特定的算法或工具。
  7. 免疫微环境:PDX模型中的小鼠免疫细胞可以与人类肿瘤细胞相互作用,影响肿瘤的生长和对治疗的响应。因此,分析这些相互作用可能需要同时考虑人类和小鼠的基因组信息。
  8. 实验设计:在实验设计阶段,需要考虑如何平衡人类肿瘤细胞和小鼠细胞的分析,以确保数据的准确性和可解释性。
  9. 参考基因组的选择:可能需要选择或构建一个适合PDX模型的参考基因组,这可能包括人类基因组的不同版本和/或小鼠基因组。
  10. 生物信息学工具:使用专门的生物信息学工具来处理和解释单细胞测序数据,包括区分人类和小鼠来源的细胞和分子事件。
  11. 伦理和合规性:在使用PDX模型时,需要遵守相关的伦理和合规性指南,确保动物福利和研究的科学性。
    总之,PDX小鼠模型的单细胞样品定量分析是一个复杂的过程,需要仔细考虑参考基因组的选择、细胞分离方法、数据分析策略以及实验设计的多个方面。

    学徒作业

    下载这个CRA010501数据集里面的单细胞转录组样品的fq文件,然后走cellranger定量流程,选择人类以及小鼠参考基因组,各自走一遍定量流程,然后两个表达量矩阵分开做一下降维聚类分群哈, 看看背后是否有一些被忽略的生物学现象。
    这个数据集详情:

    标题: Collagen 1-mediated CXCL1 secretion in tumor cells activates fibroblasts to promote radioresistance of esophageal cancer
    项目编号: PRJCA016013 /
    发布日期: 2023-04-09
    文件个数: 12
    文件大小: 158.47 GB
    

    可以看到它是可以公开获取的,链接在: https://download.cncb.ac.cn/gsa2/CRA010501/

    Name Update Date Size
    CRR727434 2023-04-09 09:58:00 
    CRR727435 2023-04-09 10:00:00 
    CRR727436 2023-04-09 10:02:00 
    CRR727437 2023-04-09 10:04:00 
    CRR727438 2023-04-09 10:06:00 
    CRR727439 2023-04-09 10:08:00 
    md5sum.txt 2023-04-09 10:20:00 876
    

    很容易解析里面的文件下载地址;

    https://download.cncb.ac.cn/gsa2/CRA010501/CRR727434/CRR727434_f1.fq.gz
    
    https://download.cncb.ac.cn/gsa2/CRA010501/CRR727434/CRR727434_r2.fq.gz
    
    。。。。
    
    https://download.cncb.ac.cn/gsa2/CRA010501/CRR727439/CRR727439_f1.fq.gz
    
    
    https://download.cncb.ac.cn/gsa2/CRA010501/CRR727439/CRR727439_r2.fq.gz
    
    

    值得注意的是有时候,一些文件后缀是fastq.gz有一些是fq.gz,估计是作者自己不统一。。。。
    我们先统一下载,这个时候不需要conda了,仅仅是服务器有 axel 即可,如果没有axel可以求助管理员或者自己使用自己的conda安装axel :

    for i in {34..39};do ( axel -n 20 https://download.cncb.ac.cn/gsa2/CRA010501/CRR7274${i}/CRR7274${i}_f1.fq.gz );done
    for i in {34..39};do ( axel -n 20 https://download.cncb.ac.cn/gsa2/CRA010501/CRR7274${i}/CRR7274${i}_r2.fq.gz );done
    

    基本上也就是等一个晚上就下载完毕, 然后可以看看数据文件大小情况:
    ```
    ls -lh |cut -d” “ -f 5-

接下来就完完全全参考 [小鼠的5个样品的10x技术单细胞转录组上游定量(文末赠送全套代码)](https://mp.weixin.qq.com/s/hPOnfJzT147nL1sUPCqy0w),走**cellranger**流程即可。
首先呢,上面的这些fastq文件名字是需要改名的。。。。如果你熟悉10x单细胞转录组数据,就知道:
- 首先,1-26个cycle就是测序得到了26个碱基,先是16个Barcode碱基,然后是10个UMI碱基;通常是R1文件
- 然后,27-34这8个cycle得到了8个碱基,就是i7的sample index;通常是I1文件
- 最后35-132个cycle得到了98个碱基,就是转录本reads(目前很多测序仪都是150bp了),通常是R2文件
也就是说R2 文件是真正的测序reads,肯定是文件最大。而且I1文件是可以省略的。。。

mkdir ../clean
ls gz|cut -d”_” -f1 |sort -u | while read id ;do
ln -s PWD/{id}_f1
.gz ../clean/${id}_S1_L001_R1_001.fastq.gz;
ln -s PWD/{id}_r2.gz ../clean/${id}_S1_L001_R2_001.fastq.gz;
done
```
简单的修改名字后就完完全全参考 小鼠的5个样品的10x技术单细胞转录组上游定量(文末赠送全套代码),走*cellranger
流程即可。

Comments are closed.