因为我也是完全从零开始入门miRNA-seq分析,所以收集的资料比较齐全,我首先看了部分中文资料,了解了miRNA测序是怎么回事,该分析什么,然后主要围绕着上一篇提到的文献里面的分析步骤来搜索资料。传送门:自学miRNA-seq分析第一讲~文献选择与解
我首先拿到了miRNA定义:http://nar.oxfordjournals.org/content/34/suppl_1/D135.full ,当然基本上每个研究miRNA的文章都会在前言里面写到这个,我只是随意列出一个而已。
MicroRNAs (miRNAs) are small RNA molecules, which are ∼22 nt sequences that have an important role in the translational regulation and degradation of mRNA by the base's pairing to the 3′-untranslated regions (3′-UTR) of the mRNAs. The miRNAs are derived from the precursor transcripts of ∼70–120 nt sequences, which fold to form as stem–loop structures, which are thought to be highly conserved in the evolution of genomes. Previous analyses have suggested that ∼1% of all human genes are miRNA genes, which regulate the production of protein for 10% or more of all human coding genes。
然后我比较纠结的问题是参考序列如何选择,因为miRNA序列很少,把它map到3G大小的人类基因组有点浪费计算资源,正好我的服务器又坏了,不想太麻烦,想用自己的个人电脑搞定这个学习过程。我看到很多帖子提到的都是比对到参考miRNA数据库(miRNA count: 28645 entries),用bowtie : http://www.mirbase.org/ ,从这个数据库,我明白了前体miRNA和成熟的miRNA的区别,前体miRNA长度一般是∼70–120 碱基,前体miRNA一般是茎环结果,也就是发夹结构,所以叫做hairpin。成熟之后,一般∼22 个碱基,在miRNA数据库很容易下载到这些数据,现在的miRNA版本来说,人类这个物种已知的成熟miRNA共有2588条序列,而前体miRNA共有1881条序列,我下载(下载时间2016年6月 )的代码是:
wget ftp://mirbase.org/pub/mirbase/CURRENT/hairpin.fa.gz ## 28645 readswget ftp://mirbase.org/pub/mirbase/CURRENT/mature.fa.zip ## 35828 readsgrep sapiens mature.fa |wc # 2588grep sapiens hairpin.fa |wc # 1881## Homo sapiensperl -alne '{if(/^>/){if(/Homo/){$tmp=1}else{$tmp=0}};next if $tmp!=1;s/U/T/g if !/>/;print }' hairpin.fa >hairpin.human.faperl -alne '{if(/^>/){if(/Homo/){$tmp=1}else{$tmp=0}};next if $tmp!=1;s/U/T/g if !/>/;print }' mature.fa >mature.human.fa这里值得一提的是miRBase数据库下载的序列,居然都是用U表示的,也就是说就是miRNA序列,而不是转录成该miRNA的基因序列,而我们测序的都是基因序列。
通过这个代码制作的 hairpin.human.fa 和 mature.human.fa 就是本次数据分析的参考基因组。
搜集资料的过程中,我看到了一篇文献讲挖掘1000genomes的数据找到位于miRNA的snp位点,https://genomemedicine.biomedcentral.com/articles/10.1186/gm363 ,看起来比较新奇,不过跟本次学习过程没有关系,我就是记录一下,有空回来学习学习。
同时,我看到了一些博客讲解如何分析miRNA数据:http://genomespot.blogspot.com/2013/08/quick-alignment-of-microrna-seq-data-to.html
还有很多公司讲数据分析流程:
http://bioinfo5.ugr.es/miRanalyzer/miRanalyzer_tutorial.html
http://www.partek.com/sites/default/files/Assets/UserGuideMicroRNAPipeline.pdf
http://partek.com/Tutorials/microarray/microRNA/miRNA_tutorial.pdf
http://www.arraystar.com/reviews/microrna-sequencing-data-analysis-guideline/
耶鲁大学好像做得不错: http://www.yale.edu/giraldezlab/miRNA.html
中国有个南方基因: http://www.southgene.com/newsshow.php?cid=55&id=73
miRNA研究整套方案 http://wenku.baidu.com/view/5f38577a31b765ce05081429.html?re=view
Biostar 讨论帖子:
https://www.biostars.org/p/3344/
https://www.biostars.org/p/98486/
miRNA-seq数据处理实战指南: http://bib.oxfordjournals.org/content/early/2015/04/17/bib.bbv019.full
直接用一个包也可以搞定: http://bioconductor.org/packages/release/bioc/html/easyRNASeq.html
github流程:miRNA Analysis Pipeline v0.2.7 https://github.com/bcgsc/mirna/tree/master/v0.2.7
https://tools.thermofisher.com/content/sfs/manuals/CO25176_0512.pdf
miRNA annotation : http://seqcluster.readthedocs.io/mirna_annotation.html
开发的网页版分析工具: https://wiki.uio.no/projects/clsi/images/2/2f/HTS_2014_miRNA_analysis_Lifeportal_14_final.pdf
R package 也很好用: http://bioinf.wehi.edu.au/subread-package/SubreadUsersGuide.pdf
一个培训: http://www.training.prace-ri.eu/uploads/tx_pracetmo/NGSdataAnalysisWithChipster.pdf
可视化IGV User Guide: http://www.broadinstitute.org/igv/book/export/html/6
比较特殊的是新的miRNA预测,miRNA靶基因预测,这块研究太多软件了,并没有成型的流程和标准。