我们都知道狗的英文单词是dog,最近看了个2019年8月文章:Whole-exome and whole-transcriptome sequencing of canine mammary gland tumors ,是多组学哦,关键是标题里面有一个陌生的单词 canine,我还在奇怪canine mammary gland tumors难道说是一种新的乳腺癌吗?等我细看文章,出现:dog genome, as provided in CanFam3.1这些让我很熟悉的名词,所以去查单词才发现是 犬乳腺癌,居然还有人研究这东西!
妥妥的多组学啦,几百个样本的 WES and RNA-Seq数据分别在:
- https://identifiers.org/ncbi/insdc.sra:SRP159481 (2018). 总共是382个样品,约2T数据
- https://identifiers.org/ncbi/insdc.sra:SRP159466 (2018). 总共是444个样品,约1.3T数据
其中转录组数据直接给出来了表达矩阵在:https://identifiers.org/geo:GSE119810 (2018).
数据处理相关中间文件主要是 Figshare :
- Details on age, neuter status, histopathology descriptions, and immunohistochemical evaluation are deposited at Figshare29.
- Additional metadata links to SRA and GEO with clinical information are provide at Figshare29.
- The VCF files for germline mutations (SNPs and indels) of 197 CMTs and 185 normal samples called by GATK haplotype caller and for somatic variant calls of whole exome sequencing of 185 matched CMT and normal samples called by Mutect2 can be accessed at Figshare29.
- figshare, https://doi.org/10.6084/m9.figshare.c.4543784.v1 (2019).
如果你仔细看,他们的2019这个文章是发表在Scientific Data ,仅仅是一下WES数据和RNA-seq的质控,并没有很细致的讲一个生物学故事,算是另外一种方式的预印本吧!
后来我检索了这个数据集,发现他们其实是发表在 2020年7月:Cross-species oncogenic signatures of breast cancer in canine mammary tumors ,一般来说纯粹的堆砌样本量数据量的测序文章发Nature Communications 问题不大,比较那么多经费都烧掉了。他们也没有做什么特殊的分析,突变全景图如下:
学徒作业
他们的,提到了 somatic variant calls of whole exome sequencing of 185 matched CMT and normal samples called by Mutect2 都分享在 figshare, https://doi.org/10.6084/m9.figshare.c.4543784.v1 (2019).
学徒们可以直接下载这些somatic的突变文件,maf文件直接使用R包maftools读入,绘制一个全景图即可。宠物狗的市场 OR 疾病模型?
文章最后说我们奋战癌症的防线已经扩大到了 companion animals,应该是宠物的意思吧,或者鸡鸭猫狗牛羊?批这么大一笔经费做宠物狗研究?
拿狗狗做疾病模型的概率应该是比较小吧,毕竟它不是小白鼠。