遇到了粉丝的一个超级好的问题:
感兴趣的一个基因A,研究它在10种乳腺癌细胞系中的表达情况,跑了western和qpcr 。 发现它只在一种乳腺癌细胞系中表达,其他9种都不表达。 结果是一致的,确认自己的实验没有问题! 现在都怀疑唯一有表达的那个细胞系是不是污染了???
实验这个东西,并不是说你做的没有问题就不会有问题,很有可能细胞系本身就是有问题的,类似的新闻屡见不鲜了!
比如我们换数据思维来看这个问题,看看CCLE数据库里面这些细胞系的自己的感兴趣的基因的表达量情况是怎么样的?
很简单啊,去CCLE数据库查询看看!
关于CCLE数据库
肿瘤细胞系数据库CCLE,全称为Broad Institute Cancer Cell Line Encyclopedia上官网链接:
CCLE数据库是公开的数据库,通过普通的邮箱注册就能获取数据库中公开的数据。据统计数据库中共包含40种癌型(包含未知的癌型),1457个肿瘤细胞系的数据,可以说CCLE数据库和COSMIC都是研究肿瘤细胞系的利器。
据统计CCLE数据包含了细胞系的突变、基因融合、miRNA、蛋白质表达谱、基因表达谱、甲基化谱、拷贝数、代谢谱、药物处理细胞系的IC50值和AUC值等。
值得一提的是,CCLE数据库并不是所有的细胞系在各个组学层面都进行了检测。各种组学数据中包含的细胞系数量都是不相同的。
很多文献直接就使用CCLE数据库的查询结果
比如 : http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0081803#pone.0081803.s001
这篇文章只用了CCLE的一个地方,就是看看不同cancer type里面的某个 基因表达boxplot,这个图的数据用 GEOquery 可以得到,样本的分类信息也用GEOquery可以得到,这样就可以做下面这个图了,非常简单:
Further, the Cancer Cell Line Encyclopedia (CCLE) database demonstrated that of 1062 cell lines representing 37 distinct cancer types, glioma cell lines express the highest levels of STK17A
或者你干脆一点,直接网页数据库搜索这个基因,然后直接截图:https://portals.broadinstitute.org/ccle/page?gene=STK17A
你会发现是一模一样的!
学徒作业
因为粉丝的课题是保密的,我不能够透露他研究的基因名字,但是只在一种乳腺癌细胞系中表达,其他9种都不表达的基因应该是可以有很多。
我这里布置一个学徒作业,下载CCLE数据库的RNA-seq的表达矩阵,然后提取属于乳腺癌的细胞系的,随机分成9:1的两个组,然后选择那些在其中10%细胞系表达的基因并且在另外的90%的细胞系不表达的基因。
看看这样的基因数量多少,有什么特性?开放性问题,加油哦!
历年学徒作业目录如下:
- 生信编程直播课程优秀学员作业展示1
- 生信编程直播课程优秀学员学习心得及作业展示3
- 生信编程直播课程优秀学员作业展示2
- 给学徒的GEO作业
- 这个WGCNA作业终于有学徒完成了!
- 上次说的gmt函数(学徒作业)
- 拖后腿学徒居然也完成作业,理解RNA-seq数据分析结果
- 肿瘤外显子视频课程小作业
- ChIPseq视频课程小作业
- Agilent芯片表达矩阵处理(学徒作业)
- 学徒作业:TCGA数据库单基因gsea之COAD-READ
- 学徒作业-在CCLE数据库里面根据指定基因在指定细胞系里面提取表达矩阵
- 学徒作业-指定基因在指定组织里面的表达量热图
- 学徒作业-我想看为什么这几个基因的表达量相关性非常高
- 学徒作业:给你8个甲基化探针, 你在tcga数据库进行任意探索
- 学徒作业-根据我的甲基化视频教程来完成2015-NPC-methy-GSE52068研究
- RNA芯片和测序技术的比较(学徒作业)
- 学徒作业-单基因的tcga数据挖掘分析
- ATCC终于出来了organoids资源
- 拿到7个DDR通路的基因集-学徒作业
- 绘图本身很简单但是获取数据很难
- 都说lncRNA只有部分具有polyA尾结构,请证明
- 学徒作业-hisat2+stringtie+ballgown流程
- 学徒任务-探索DNA甲基化的组织特异性
- 用WES和RNA-Seq数据提取到的somatic SNVs不一致
- 《GEO数据挖掘课程》配套练习题