16

转录组edgeR分析差异基因

转录组edgeR分析差异基因

edgeR是一个研究重复计数数据差异表达的Bioconductor软件包。一个过度离散的泊松模型被用于说明生物学可变性和技术可变性。经验贝叶斯方法被用于减轻跨转录本的过度离散程度,改进了推断的可靠性。该方法甚至能够用最小重复水平使用,只要至少一个表型或实验条件是重复的。该软件可能具有测序数据之外的其他应用,例如蛋白质组多肽计数数据。可用性:程序包在遵循LGPL许可证下可以从Bioconductor网站。

一:下载安装该软件

下载安装edgeR这个R包,因为这是一次讲R包的下载,我就啰嗦一点,这种生物信息学的包不同于普通的R包,是需要用biocLite来安装的,命令如下

转录组edgeR分析差异基因304

 

Continue reading

16

转录组HTseq对基因表达量进行计数

转录组HTseq对基因表达量进行计数

一:下载安装该软件

下载htseq这个python模块安装解压包,依赖于很多python的其它安装包及库,模块,我最讨厌python了,在有些电脑上特别难安装,而且服务器还有权限的问题。

解压进入该目录,输入 python setup.py   install  --user  记住,是- - 而不是—

这样只是把这个软件安装到自己的目录

安装完毕后,会出现这两个程序,在自己的python库里面,可以直接调用这两个程序的,我这里它们的路径是 .local/bin ,很奇怪的一个路径,我也是用find命令才找到的

转录组HTseq对基因表达量进行计数451

Continue reading

15

仿写fastqc软件的一些功能-R代码

仿写fastqc软件的一些功能(下)

文件来自于上面perl代码的输出文件,好像算法有点问题,26G的文件居然处理近一个小时才出数据!

仿写fastqc软件的一些功能-下-R代码263

R语言本身自带的画图工具都很丑,懒得说了,可以用ggplot2来重新画一个,不是项目要求没有报酬我就懒得画了,大家面前看看画图原理即可。

Continue reading

14

转录组cufflinks套装的使用

转录组cufflinks套装的使用

cufflinks套装有很多,我们主要使用的只有三个

Cufflinks是用来处理tophat的输出的bam文件然后输出gtf文件

cuffmerge把多个样本的gtf文件合并的,也没啥子用,主要是测多个样本可能会需要

cuffdiff算出分组的bam文件里面的差异基因。

一:下载安装该软件

是二进制版本,找到网址,然后用wget下载,解压即可使用

转录组cufflinks套装的使用428

Continue reading

14

转录组比对软件tophat的使用

转录组比对软件tophat的使用

为什么要用这个软件?:因为转录组reads比对到基因组reads用bwa和bowtie的效果都不够好,所以我们选择tophat

它做了什么?:tophat把测序的转录组的原始reads比对到了参考基因组上面,并且输出了bam(二进制的sam)文件比对结果给我们。(fastq--->bam)

一:下载安装该软件

其实一般的生信服务器自然会有高手给安装好了,你只需调用即可,这里我给大家演示一下如何安装。

wget   http://ccb.jhu.edu/software/tophat/downloads/tophat-2.0.13.Linux_x86_64.tar.gz

Continue reading

14

仿写fastqc软件的部分功能-perl代码

  仿写fastqc软件的部分功能(上)

前面我们介绍了fastqc这个软件的使用方法 http://www.bio-info-trainee.com/?p=95 ,这是一个java软件,但是有些人服务器没有配置好这个java环境,导致无法使用,这里我贴出几个perl代码,也能实现fastqc的部分功能

统一测试文件是illumina的phred33格式的fastq文件,共100000/4=25000条reads,读长都是101个碱基

程序名-fastq2quality.pl

使用命令:perl fastq2quality.pl SRR504517_1.fastq >quality.txt

功能: 把fastq格式的每条原始reads的第四行ascii码质量值,转换为Q值并输出一个矩阵,有多少条reads就有多少行,每条reads的碱基数就是列数。

Continue reading

12

生信菜鸟养成手册

生信菜鸟养成手册

背景:生物小本,懂做一些分子实验,了解一些生物背景知识。

目标:成为生信菜鸟,找到一份生物信息学相关的工作。

1、计算机基础(linux+perl+R 或者 python+matlab)

2、生信基础知识(测序+数据库+数据格式)

3、生信研究领域(全基因组,全转录组,全外显子组,捕获目标区域测序)

4、生信应用领域(肿瘤筛查,产前诊断,流行病学,个性化医疗)

Continue reading

12

Trinity进行转录组组装的使用说明

Trinity进行转录组组装的使用说明

一:下载安装该软件

去官网下载trinity并解压安装   http://trinityrnaseq.github.io/

安装非常简单,一个make即可

这个软件比较大,约150M。所以安装需要一会时间,以下是安装进程日志,可以看出trinity这个软件安装的同时还附带着好几个测序一起安装进来了。

Trinity转录组组装软件说明书452

Continue reading

11

菜鸟建站教程三部曲

菜鸟建站教程三部曲   

门牌号(域名)——房间(主机)——装修(网站源码)

在没有拥有自己网站之前,我曾无数次害怕过这个过程,以为会有各种各样的麻烦,需要学html、sql、php、javascript、Dreamweaver、需要花大量的时间写程序,需要花大笔的金钱去买域名买空间,而且买到域名和空间也不知道还会有哪些步骤,一切的一切都看起来是那么的困难。而今回首,才发现,整个过程居然只有一个小时即可!!!

Continue reading

10

NCBI的taxid简单介绍

 NCBI的taxid简单介绍

物种的信息集合都在它的NCBI的taxid号里面,在NCBI里面关于它的英文介绍地址如下 http://www.ncbi.nlm.nih.gov/guide/taxonomy/ ,NCBI人为的给自然界所有的物种都给了一个编号,这个编号就是taxid,是根据计算机里面树这种数据结构来编码的,其中人类的编号是 9606,7227是果蝇,我们只需要进入这个物种的taxid里面就能看的关于它的一切NCBI存在并且收集好的信息。

NCBI的taxid简单介绍288

 

Continue reading

07

搜索学习其他学者的RNA数据处理流程(包括原始数据、脚本、中间文件)

搜索其他学者的RNA数据处理流程(包括原始数据、脚本、中间文件)

一:原始数据

是谷歌里面无意中搜索到的,是某个物种的RNA数据,不是很大,但是里面有所有的分析流程,非常方便,对原始reads进行了组装,和注释。

http://moana.dnsalias.org/~sgeib/Anth_RNAseq/Run2.1/RawData/

打开网址可以看到raw data的下载链接

QQ截图20150309220349

 

Continue reading

07

阅读文献并下载原始数据知illumina的Chip-seq数据

阅读文献并下载原始数据知illumina的Chip-seq数据

目录

一:阅读文献找到总实验项目

二:在根据实验项目地址找到所有实验数据的下载地址

三:构造脚本并下载

四:用sra-toolkit工具解压

正文

一:阅读文献找到总实验项目

该chip-seq数据其实隶属于一个大的实验项目组,其下载地址如下http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52964

阅读文献并下载原始数据知illumina的Chip-seq数据482 Continue reading

07

阅读文献并下载原始测序数据之helicos转录组数据

阅读文献并下载原始测序数据之helicos转录组数据

目录

  1. 阅读pdf文献,并找到原始数据搜索关键词。
  2. 根据关键词在NCBI的SRA板块搜索找到其下载地址
  3. 根据下载地址写批处理批量下载所有原始测序数据
  4. 用NCBI提供的工具解压SRR数据,还原成fastq格式reads

正文

一、阅读pdf文献,并找到原始数据搜索关键词

tmp164

可以看到它的下载索引是SRP003040,阅读文献可知其包含4种细胞的6种处理方式的转录组数据

Continue reading

07

广播–深圳生物信息兴趣小组

         希望有在深圳的生信从业人员或者学生能看到此广播,我们可以组成兴趣小组交流一下各自所学,或者合作翻译一些技术文档或者制作生信常用软件的使用说明书。
简单介绍一下本人,精通perl和R,勉强可以使用python和matlab,熟练生信的linux环境配置及各大软件的配置。熟练使用基因组及转录组的大部分软件。
现在计划对一些生信入门资料做简单整理,包括以下五个部分内容,及自己的一些随笔。

  • 常用数据库(NCBI,ensembl,UCSC,uniprot,IMGT,KEGG,OMIN,TIGR,GO)
  • 常见数据格式(sam,vcf,gtf,psl,blast-m-8,fa,fq,genbank,bed等)
  • 大型国际计划(1000Genome,hapmap,ENCODE等)
  • 生信基础软件(blast++套件,fastqc,flash,blast,solexaQA,NGS-QC-toolkit,SRA-toolkit,fastx-toolkit)
  • snp-calling相关软件(bwa,bowtie,samtools,GATK,VarScan.jar,annovar)
  • 基因组相关软件(velvet,SOAPdenovo2,repeatmasker,repeatscount,piler,orthMCL,inparanoid,clustw,muscle,MAFFT,quickparanoid,blast2go,RAxML,phyML)
  • 转录组相关软件(trinity,tophat,cufflinks,RseQC,RNAseq,GOseq,MISO,RSEM,khmer,screed,trimmomatic,transDecoder,vast-tools,picard-tools,htseq,cuffdiff,edgeR,DEseq,funnet,davidgo,wego,kobas,KEGG,Amigo,go)
  • 外显子组、表观遗传学组、宏基因组相关软件(待定)
  • 计算机基础(linux,perl,R)

         慢慢的我都会把这些制作一个简易介绍文档,如果兴趣小组规模足够大,我们也可以制作精美ppt。希望找到深圳生信朋友我们一起交流,一起合作,一起进步。
因为反正做生信的不用加班,平时跑个代码也不忙,有很多时间可以研究技术,而且这种技术跟着大家一起学是最快的,而且现场交流非常方便,平时周六日什么的大家可以聚会一起玩,最好不要是华大的,不是歧视他们,主要是太偏僻了。
有意者联系我QQ1227278128,或者直接打给我电话也行,15314025716。