26

【直播】我的基因组(二):科研和临床分析调研

全基因组重测序,最大的分析点就是在于找到跟参考基因组不一样的地方(科研分析流程),然后通过各种公共数据库来注释这些不一样的地方(snv,indel,cnv,sv)(临床分析流程)。然而对于这些不一样的地方,就需要严格结合质量值、测序深度、重复性等因素进行进一步的过滤及筛选,过滤掉假阳性,从而进行下一步的分析。

那么我们一起来看看科研及临床一般都是进行怎样的分析吧! Continue reading

26

【直播】我的基因组(一):直播的目的及意义

直播的目的及意义
近年来随着“名人效应"的带动,基因测序也逐渐进入大家的视野。基因检测是在分子水平上对人体遗传密码进行破译,通过单核苷酸多态性和GWAS的分析对人体患病风险进行预测,从而进行预防干预及个体化治疗。随着二代测序技术的涌现,使得个人基因组测序成本逐年下降(2016年个人全基因组纯测序,30X,不到一万)。在这样的前景中,有一部分人开始考虑用基因检测来代替普通体检,从而预测预防各项疾病。最近有许多消息冒出来说测序体检报告如同天书看不懂,那么如何看懂测序呢?那让我们一起来看Jimmy的基因组直播。作为一名生信人,能亲自分析自己的测序数据可是再好不过了。Jimmy早在13年就产生了这样的想法,然而条件一直不是很成熟。但是执着的jimmy一直没有放弃这个念头,终于等到了天时地利人和的现在,决定开始和大家一起分享自己基因组的测序分析及解读的全过程。
Continue reading
28

用crossmap代替liftover做基因组坐标转换

其实国际三大主流生物信息学数据库运营单位都出了自己的基因组坐标转换,它们分别是 (UCSC liftOver, NCBI Remap, Ensembl API)
Ensembl's Assembly Converter.是基于crossmap的,我觉得挺好用的,就介绍给大家!!!

This online tool currently uses CrossMap, which supports a limited number of formats (see our online documentation for details of the individual data formats listed below). CrossMap also discards metadata in files, so track definitions, etc, will be lost on conversion.

Important note: CrossMap converts WIG files to BedGraph internally for efficiency, and also outputs them in BedGraph format.

但是不知道为什么UCSC的liftover最出名,我也写过它的教程,(http://www.bio-info-trainee.com/?p=990

Continue reading

16

根据染色体起始终止点坐标来获取碱基序列

这次要介绍一个非常实用的工具,很多时候,我们有一个染色体编号已经染色体起始终止为止,我们想知道这段序列是什么样的碱基。当然我们一般用去UCSC的genome browser里面去查询,而且可以得到非常多的信息,多到正常人根本就无法完全理解。但是我如果仅仅是想要一段序列呢?
诚然,我们可以下载3G的那个hg19.fa文件,然后写一个脚本去拿到序列,但是毕竟太麻烦,而且一般这种需求都是临时性的需要,我们当然想要一个非常简便的方法咯。
我这里介绍一个非常简单的方法,是基于perl的cgi编程,当然,不需要你编程了。人家UCSC已经写好了程序,你只需要把网页地址构造好即可,比如chr17:7676091,7676196 ,那么我只需要构造下面一个网页地址
hg38可以更换成hg19,dna?segment= 后面可以按照标准格式更换,既可以返回我们想要的序列了。
网页会返回 一个xml格式的信息,解析一下即可。
This XML file does not appear to have any style information associated with it. The document tree is shown below.
<DASDNA>
<SEQUENCE id="chr17" start="7676091" stop="7676196" version="1.00">
<DNA length="106">
aggggccaggagggggctggtgcaggggccgccggtgtaggagctgctgg tgcaggggccacggggggagcagcctctggcattctgggagcttcatctg gacctg
</DNA>
</SEQUENCE>
</DASDNA>
很明显里面的aggggccaggagggggctggtgcaggggccgccggtgtaggagctgctgg tgcaggggccacggggggagcagcctctggcattctgggagcttcatctg gacctg 就是我们想要的序列啦。
赶快去试一试吧
当然你不仅可以搜索DNA,还可以搜索很多其它的,你也不只是可以搜索人类的
See http://www.biodas.org for more info on DAS.
Try http://genome.ucsc.edu/cgi-bin/das/dsn for a list of databases.
X-DAS-Version: DAS/0.95
X-DAS-Status: 200
Content-Type:text
Access-Control-Allow-Origin: *
Access-Control-Expose-Headers: X-DAS-Version X-DAS-Status X-DAS-Capabilities

UCSC DAS Server.
See http://www.biodas.org for more info on DAS.
Try http://genome.ucsc.edu/cgi-bin/das/dsn for a list of databases.
See our DAS FAQ (http://genome.ucsc.edu/FAQ/FAQdownloads#download23)
for more information.  Alternatively, we also provide query capability
through our MySQL server; please see our FAQ for details
(http://genome.ucsc.edu/FAQ/FAQdownloads#download29).

Note that DAS is an inefficient protocol which does not support
all types of annotation in our database.  We recommend you
access the UCSC database by downloading the tab-separated files in
the downloads section (http://hgdownload.cse.ucsc.edu/downloads.html)
or by using the Table Browser (http://genome.ucsc.edu/cgi-bin/hgTables)
instead of DAS in most circumstances.

 

24

草莓基因组数据预处理

今天先 对7个单端数据做处理,是454数据,平均长度300bp左右,明天再处理3KB和20KB的配对reads。

首先跑fastqc

打开一个个看结果

草莓基因组数据预处理28

可以看到前面一些碱基的质量还是不错的, 因为这是454平台测序数据,序列片段长度差异很大,一般前四百个bp的碱基质量还是不错的,太长了的测序片段也不可靠

草莓基因组数据预处理39

重点在下面这个图片,可以看到,前面的4个碱基是adaptor,肯定是要去除的,不是我们的测序数据。是TCAG,需要去除掉。

草莓基因组数据预处理118

所以我们用了 solexaQA 这个套装软件对原始测序数据进行过滤

草莓基因组数据预处理214

可以看到过滤的非常明显!!!甚至有个样本基本全军覆没了!然后我查看了我的批处理脚本,发现可能是perl DynamicTrim.pl -454 $id这个参数有问题

for id in *fastq

do

echo $id

perl DynamicTrim.pl -454 $id

done

for id in *trimmed

do

echo $id

perl LengthSort.pl $id

done

 

可以看到末尾的质量差的碱基都被去掉了,但是头部的TCAG还是没有去掉。

草莓基因组数据预处理425

处理完毕后的数据如下:

草莓基因组数据预处理475

 

 

 

 

 

 

17

草莓基因组文章解读-并下载原始测序数据

找橡胶测序数据无果

所以我只好找了他们所参考的草莓(strawberry, Fragaria vesca (2n = 2x = 14),a small genome (240 Mb),)的文章,是发表是nature genetics上面的

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3326587/

可以看到它的SRA索取号。

研读橡胶的基因组文章1087

草莓组装结果:Over 3,200 scaffolds were assembled with an N50 of 1.3 Mb .

Over 95% (209.8 Mb) of the total sequence is represented in 272 scaffolds.

草莓基因息:Gene prediction modeling identified 34,809 genes, with most being supported by transcriptome mapping.

草莓染色体信息:Paradoxically, the small basic (x = 7) genome size of the strawberry genus, ~240 Mb,

offers substantial advantages for genomic research.

草莓来源:diploid strawberry F. vesca ssp. vesca accession Hawaii 4

(National Clonal Germplasm Repository accession # PI551572).

然后我去NCBI上面下载这三个数据

研读橡胶的基因组文章1664

 

SRA020125 共有四个数据:

 

http://www.ncbi.nlm.nih.gov/sra/SRX030575[accn] Total: 4 runs, 4.7M spots, 2.6G bases, 5.5Gb
http://www.ncbi.nlm.nih.gov/sra/SRX030576[accn]  (3 KB PE) Total: 2 runs, 2.2M spots, 908.5M bases, 2.1Gb
http://www.ncbi.nlm.nih.gov/sra/SRX030577[accn] (20KB片段) Total: 2 runs, 1.9M spots, 800M bases, 1.8Gb
http://www.ncbi.nlm.nih.gov/sra/SRX030578[accn] Total: 3 runs, 4M spots, 2.2G bases, 4.6Gb

挂在后台自动下载

研读橡胶的基因组文章2877

好了,有了这些数据我们就要进行基因组的一系列分析啦!!!

不过我们可以先看看他们这个研究小组的成果

首先他们建造了一个关于草莓的基因组信息网站

https://strawberry.plantandfood.co.nz/

研读橡胶的基因组文章3091

跟我之前在水科院做鲫鱼鲤鱼的差不多

直接在里面就可以下载他们做好的所有数据,也可以可视化。

 

它的染色体如下,非常简单,就七条染色体

研读橡胶的基因组文章3106

 

http://www.rosaceae.org/species/fragaria/fragaria_vesca/genome_v1.1

我找到了它组装好的草莓基因组地址,用批处理全部下载了

研读橡胶的基因组文章3287