感兴趣的一个基因A,研究它在10种乳腺癌细胞系中的表达情况,跑了western和qpcr 。 发现它只在一种乳腺癌细胞系中表达,其他9种都不表达。 结果是一致的,确认自己的实验没有问题! 现在都怀疑唯一有表达的那个细胞系是不是污染了???
实验这个东西,并不是说你做的没有问题就不会有问题,很有可能细胞系本身就是有问题的,类似的新闻屡见不鲜了!
比如我们换数据思维来看这个问题,看看CCLE数据库里面这些细胞系的自己的感兴趣的基因的表达量情况是怎么样的?
很简单啊,去CCLE数据库查询看看!
关于CCLE数据库
肿瘤细胞系数据库CCLE,全称为Broad Institute Cancer Cell Line Encyclopedia上官网链接:
CCLE数据库是公开的数据库,通过普通的邮箱注册就能获取数据库中公开的数据。据统计数据库中共包含40种癌型(包含未知的癌型),1457个肿瘤细胞系的数据,可以说CCLE数据库和COSMIC都是研究肿瘤细胞系的利器。
据统计CCLE数据包含了细胞系的突变、基因融合、miRNA、蛋白质表达谱、基因表达谱、甲基化谱、拷贝数、代谢谱、药物处理细胞系的IC50值和AUC值等。
值得一提的是,CCLE数据库并不是所有的细胞系在各个组学层面都进行了检测。各种组学数据中包含的细胞系数量都是不相同的。
很多文献直接就使用CCLE数据库的查询结果
比如 : http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0081803#pone.0081803.s001
这篇文章只用了CCLE的一个地方,就是看看不同cancer type里面的某个 基因表达boxplot,这个图的数据用 GEOquery 可以得到,样本的分类信息也用GEOquery可以得到,这样就可以做下面这个图了,非常简单:
Further, the Cancer Cell Line Encyclopedia (CCLE) database demonstrated that of 1062 cell lines representing 37 distinct cancer types, glioma cell lines express the highest levels of STK17A
或者你干脆一点,直接网页数据库搜索这个基因,然后直接截图:https://portals.broadinstitute.org/ccle/page?gene=STK17A
你会发现是一模一样的!
学徒作业
因为粉丝的课题是保密的,我不能够透露他研究的基因名字,但是只在一种乳腺癌细胞系中表达,其他9种都不表达的基因应该是可以有很多。
我这里布置一个学徒作业,下载CCLE数据库的RNA-seq的表达矩阵,然后提取属于乳腺癌的细胞系的,随机分成9:1的两个组,然后选择那些在其中10%细胞系表达的基因并且在另外的90%的细胞系不表达的基因。
看看这样的基因数量多少,有什么特性?开放性问题,加油哦!
历年学徒作业目录如下: