Scalpel is available here: http://scalpel.sourceforge.net/
文章是： http://www.nature.com/nmeth/journal/v11/n10/full/nmeth.3069.html
很赞的工具！
软件说明书写的也比较详细：http://scalpel.sourceforge.net/manual.html
他提供了3种情况的找INDELs变异，我目前需要用的就是对我的全基因组测序数据来找，所以用single模式：
为了节省对计算资源的消耗，作者建议我单独对每条染色体分别处理。 Continue reading →

一 12

CBX7在ESC里面重要作用发现史

Posted on 2017年1月12日 by ulwvfje

MicroRNA Regulation of Cbx7 Mediates a Switch of Polycomb Orthologs during ESC Differentiation

http://www.sciencedirect.com/science/article/pii/S1934590911005856

这篇文章就是做了CBX7的perturbation实验。

Continue reading →

十二 15

制作自己的gene set文件给gsea软件

Posted on 2016年12月15日 by ulwvfje

熟悉GSEA软件的都知道，它只需要GCT,CLS和GMT文件，其中GMT文件，GSEA的作者已经给出了一大堆！就是记录broad的Molecular Signatures Database (MSigDB) 已经收到了18026个geneset，但是我奇怪的是里面竟然没有包括cancer testis的gene set，MSigDB的确是多，但未必全，其实里面还有很多重复。而且有不少几乎没有意义的gene set。那我想做自己的gene set来用gsea软件做分析，就需要自己制造gmt格式的数据。因为即使下载了MSigDB的gene set，本质上就是gmt格式的数据而已：http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats#GMT:_Gene_Matrix_Transposed_file_format_.28.2A.gmt.29 Continue reading →

十二 15

CpG Islands记录文件下载的4种方式

Posted on 2016年12月15日 by ulwvfje

这个也是读者来信最多的，关于基因组某些区域的起始终止坐标的下载问题，genomic feature的问题，一般是gtf文件或者bed文件，比如人类hg19上面的所有外显子的坐标记录文件，所有基因的坐标记录文件，所有lncRNA，rRNA等等，我这里拿CpG Islands记录文件下载的4种方式举例子给大家说明一下： Continue reading →

十二 11

gene symbol 中的奇怪开头基因

Posted on 2016年12月11日 by ulwvfje

这本是我为论坛的基础板块写的一个基础知识点，但是浏览量实在有限，不忍它蒙尘，特在博客重新发布一次！原帖见：http://www.biotrainee.com/thread-511-1-1.html

gene symbol 是非常官方的，由HUGO 组织负责维护，有专门的数据库HGNC database of human gene names | HUGO
以前分析数据的时候，有一些基因的symbol很奇怪，让我百思不得其解，比如
C orf 系列基因，
HS.系列基因，
KRTAP系列基因，
LOC系列基因，
MIR系列基因，
LINC系列基因
它们往往一个系列，就有好几百个基因；
C12orf44; Chromosome 12 Open Reading Frame 44; 这个是C orf系列基因的意思
MIR系列基因应该是 miRNA相关的基因
LINC系列基因应该就是long intergenic non-protein coding RNA
LOC系列基因，是非正式的，推定的，日后可能被更合适的名字替代
我这里做好了所有的基因对应关系，去生信菜鸟团QQ群里下载吧，共47938个基因的symbol和entrez gene id还有name，还有alias的对应!

还有一些RNA基因，根本就没有symbol，比如：CTA/B/C/D系列的
Aliases for ENSG00000271971 Gene
Quality Score for this RNA gene is 1
Aliases for ENSG00000271971 Gene
CTD-2006H14.2 5
External Ids for ENSG00000271971 Gene
Ensembl: ENSG00000271971
还有，如果你看到HS.开头的基因，它是unigene的ID了，已经不再是symbol啦。

十二 11

用R获取芯片探针与基因的对应关系三部曲-NCBI下载对应关系

Posted on 2016年12月11日 by ulwvfje

这是系列文章，请先看：

用R获取芯片探针与基因的对应关系三部曲-bioconductor

ncbi现有的GPL已经过万了，但是bioconductor的芯片注释包不到一千，虽然bioconductor可以解决我们大部分的需要，比如affymetrix的95,133系列，深圳1.0st系列，HTA2.0系列，但是如果碰到比较生僻的芯片，bioconductor也不会刻意为之制作一个bioconductor的包，这时候就需要自行下载NCBI的GPL信息了，也可以通过R来解决：

##本质上是下载一个文件，读进R里面，然后解析行列式，得到芯片探针与基因的对应关系，看下面的代码，你就能理解了。 Continue reading →

十二 01

java版本GSEA软件的ES score图片的修改

Posted on 2016年12月1日 by ulwvfje

首先要明白这个ES score图片里面的数据是什么，这样才能修改它，因为java是一个封闭打包好的软件，所以我们没办法在里面修改它没有提供的参数，运行完GSEA，默认输出的图就是下面这样： Continue reading →

十二 01

GSEA的统计学原理试讲

Posted on 2016年12月1日 by ulwvfje

GSEA这个java软件使用非常方便，只需要根据要求做好GCT/CLS格式的input文件就好了。我以前也写个用法教程：

用GSEA来做基因集富集分析

批量运行GSEA，命令行版本

但说到统计学原理，就有点麻烦了，我试着用自己的思路阐释一下：

假设芯片或者其它测量方法测到了2万个基因，那么这两万个基因在case和control组的差异度量(六种差异度量，默认是signal 2 noise，GSEA官网有提供公式，也可以选择大家熟悉的foldchange)肯定不一样,那么根据它们的差异度量，就可以对它们进行排序，并且Z-score标准化，在下图的最底端展示的就是

Continue reading →

十二 01

吐血推荐snpedia数据库，非常丰富的snp信息记录

Posted on 2016年12月1日 by ulwvfje

正好，我拿到了自己的全基因组测序数据，而前些天看到朋友圈推送的文章提到有研究表明STAT4上的rs7574865和HLA-DQ的 rs9275319是国人群中乙型肝炎病毒（HBV）相关肝细胞癌（HCC）遗传易感基因，我就想顺便看看自己在这两个位点的变异情况。一般的流程是先找完变异位点，然后用vep/snpEFF对变异位点进行注释，然后看看有没有这两个位点。但我仅仅是想查看这两个位点，所以我会根据它的rsID来找到它的基因组坐标，再直接call这个位置的变异情况。以前我都是用dnSNP来查看rsID的基因组坐标的，

mkdir -p ~/annotation/variation/human/dbSNP

cd ~/annotation/variation/human/dbSNP

## https://www.ncbi.nlm.nih.gov/projects/SNP/

## ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh38p2/

## ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/

nohup wget ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/VCF/All_20160601.vcf.gz &

wget ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/VCF/All_20160601.vcf.gz.tbi

Continue reading →

十一 25

用BioNet这个bioconductor包来找 maximal-scoring subgraph

Posted on 2016年11月25日 by ulwvfje

## 此包是为了解决一个难题： maximal-scoring subgraph (MSS) problem ，在一个巨大的复杂网络里面找到significantly differentially expressed subnetworks，就是说，得到了几百个差异基因，去PPI数据库做网络图的时候，发现还是巨大无比，所以需要用这个包来精简我们的网络图。

heuristically的中文意思：启发性地

## 而这个R包可以整合多种数据结果来给一个网络打分，

包的主页是：https://www.bioconductor.org/packages/release/bioc/html/BioNet.html

paper：BioNet: an R-Package for the Functional Analysis of ... - Bioinformatics

它整合了PPI网络分析和寻找功能模块的需求。

脚本：https://www.bioconductor.org/packages/release/bioc/vignettes/BioNet/inst/doc/Tutorial.R

教程：https://www.bioconductor.org/packages/release/bioc/vignettes/BioNet/inst/doc/Tutorial.pdf

重点就是根据一个"igraph" or "graphNEL"对象和打分来找最大的MSS

subnet <- subNetwork(dataLym$label, interactome)

module <- runFastHeinz(subnet, scores)

plotModule(module, scores=scores, diff.expr=logFC) #这个就是精简后的我们的网络图。

其实另外一个函数也有类似的功能，dNetFind https://rdrr.io/cran/dnet/man/dNetFind.html

Continue reading →

十一 24

cytoscape五步曲之二：在cytoscape里面生成网络图

Posted on 2016年11月24日 by ulwvfje

通过上一讲大家应该明白了，网络图是为了展现分子之间的连接关系的，并不是一定要用cytoscape来做，只需要根据连接关系给我们的所有点安排一个坐标，然后把相应的线连接起来即可！那么既然我们要学习cytoscape，肯定是要用cytoscape做好第一步，就是根据输入数据来做网络图。

可以先了解一下cytoscape定义好的输入数据，

http://wiki.cytoscape.org/Cytoscape_User_Manual/Network_Formats 当然，其实木有意义！因为我们不可能拿到cytoscape的输入文件（cys格式的），除非是你朋友传给你的。我们肯定是根据txt.csv等分割的文本文件来做网络图。

Continue reading →

Page 2 of 10‹ Previous 123 4 5 Next ›Last »

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

Category Archives: 生信基础

生物信息学编程实战练习题大全

一文学会WGCNA分析

WGCNA 分析

基本概念

PRINSEQ软件使用说明

PRINSEQ软件使用说明

得到一个物种所有基因的TSS(转录起始位点)区域的bed文件。

我的github极简指南

我学会docker啦！希望你也可以学会

写在前面

用DEXSeq分析可变剪切，外显子差异表达

不能理解homer软件居然有错误

我测试了一下Jbrowse的安装及初步试用

发现下面文章的图片都挂掉了，请直接点击这个链接查看：http://mp.weixin.qq.com/s/P32LxR-cFPN3pw25ba5sIg，下面不用看了，反正没有图片了

scalpel软件找indel

CBX7在ESC里面重要作用发现史

制作自己的gene set文件给gsea软件

CpG Islands记录文件下载的4种方式

gene symbol 中的奇怪开头基因

用R获取芯片探针与基因的对应关系三部曲-NCBI下载对应关系

用R获取芯片探针与基因的对应关系三部曲-bioconductor

java版本GSEA软件的ES score图片的修改

GSEA的统计学原理试讲

吐血推荐snpedia数据库，非常丰富的snp信息记录

用BioNet这个bioconductor包来找 maximal-scoring subgraph

cytoscape五步曲之二：在cytoscape里面生成网络图

WGCNA 分析

基本概念

PRINSEQ软件使用说明

​写在前面

发现下面文章的图片都挂掉了，请直接点击这个链接查看：http://mp.weixin.qq.com/s/P32LxR-cFPN3pw25ba5sIg，下面不用看了，反正没有图片了

写在前面