七 17

perl操作pdf文档

Posted on 2015年7月17日 by ulwvfje

大家看看就好，这个模块写的不怎么样，而且有高手已经写了一个pdftoolkit就是完全用这个模块实现了大部分pdf文档的操作

PDF::API2模块使用笔记

一：简单使用方法

use PDF::API2;

# Create a blank PDF file	$pdf = PDF::API2->new();
# Open an existing PDF file	$pdf = PDF::API2->open('some.pdf');
# Add a blank page	$page = $pdf->page();
# Retrieve an existing page	$page = $pdf->openpage($page_number);
# Set the page size	$page->mediabox('Letter');
# Add a built-in font to the PDF	$font = $pdf->corefont('Helvetica-Bold');
# Add an external TTF font to the PDF	$font = $pdf->ttfont('/path/to/font.ttf');
# Add some text to the page	$text = $page->text(); $text->font($font, 20); $text->translate(200, 700); $text->text('Hello World!');
# Save the PDF	$pdf->saveas('/path/to/new.pdf');

实例：

use PDF::API2;

$pdf=PDF::API2->new;

$pdf->mediabox('A4');

$ft=$pdf->cjkfont('Song');

$page = $pdf->page;

$gfx=$page->gfx;

$gfx->textlabel(50,750,$ft,20,"\x{Cool44}\x{4EA7}"); # 资产二字

$pdf->saveas('Song_Test.pdf');

二：主要对象及方法

1、pdf对象可以创造，可以打开，可以保存，可以更新，还有一堆参数可以设置

$pdf->preferences(%options)还可以设置一些浏览参数，不过本来pdf阅读器可以设置，没必要在这里花时间。

这个可以当做是个人创建pdf的保密信息，也许有一点用吧。

还可以可以设置页脚$pdf->pageLabel($index, $options

2、Page对象，可以新建，可以打开，可以保存（需要指定保存的位置）

$page = $pdf->page()

$page = $pdf->page($page_number)

$page = $pdf->openpage($page_number);

还可以更新旧的pdf，这样可以循环获取pdf页面不停的累积到一个新的pdf

$page = $pdf->import_page($source_pdf, $source_page_number, $target_page_number)

$pdf = PDF::API2->new();

$old = PDF::API2->open('our/old.pdf'); # Add page 2 from the old PDF as page 1 of the new PDF

$page = $pdf->import_page($old, 2);

$pdf->saveas('our/new.pdf');If $source_page_number is 0 or -1, it will return the last page in the document.

$count = $pdf->pages()Returns the number of pages in the document.

这样就可以写一个简单程序把我们的pdf文件合并

use PDF::API2;

my $new = PDF::API2->new;

foreach my $filename (@ARGV) { my $pdf = PDF::API2->open($filename); $new->importpage($pdf, $_) foreach 1 .. $pdf->pages;}$new->saveas('new.pdf'); $pdf->mediabox($name)

可以指定A4，A3，A5等等$pdf->mediabox($w, $h)可以指定宽度和高度$pdf->mediabox($llx, $lly, $urx, $ury)

3，还可以随意画点线面及表格，太复杂了就不看了

七 17

转-windows快捷键，让你的办公效率提升一个档次

Posted on 2015年7月17日 by ulwvfje

gpedit.msc-----组策略

2. sndrec32-------录音机

3. Nslookup-------IP地址侦测器

4. explorer-------打开资源管理器

5. logoff---------注销命令

6. tsshutdn-------60秒倒计时关机命令

7. lusrmgr.msc----本机用户和组

8. services.msc---本地服务设置

9. oobe/msoobe /a----检查XP是否激活

10. notepad--------打开记事本

11. cleanmgr-------垃圾整理

12. net start messenger----开始信使服务

13. compmgmt.msc---计算机管理

15. conf-----------启动netmeeting

16. dvdplay--------DVD播放器

17. charmap--------启动字符映射表

18. diskmgmt.msc---磁盘管理实用程序

　19. calc-----------启动计算器

20. dfrg.msc-------磁盘碎片整理程序

21. chkdsk.exe-----Chkdsk磁盘检查

22. devmgmt.msc--- 设备管理器

23. regsvr32 /u *.dll----停止dll文件运行

24. drwtsn32------ 系统医生

25. rononce -p ----15秒关机

26. dxdiag---------检查DirectX信息

27. regedt32-------注册表编辑器

28. Msconfig.exe---系统配置实用程序

29. rsop.msc-------组策略结果集

30. mem.exe--------显示内存使用情况

31. regedit.exe----注册表

32. winchat--------XP自带局域网聊天

33. progman--------程序管理器

34. winmsd---------系统信息

　　43. write----------写字板

44. winmsd---------系统信息

46. winchat--------XP自带局域网聊天

48. Msconfig.exe---系统配置实用程序

49. mplayer2-------简易widnows media player

50. mspaint--------画图板

51. mstsc----------远程桌面连接

52. mplayer2-------媒体播放机

53. magnify--------放大镜实用程序

　54. mmc------------打开控制台

55. mobsync--------同步命令

56. dxdiag---------检查DirectX信息

57. drwtsn32------ 系统医生

58. devmgmt.msc--- 设备管理器

59. dfrg.msc-------磁盘碎片整理程序

60. diskmgmt.msc---磁盘管理实用程序

61. dcomcnfg-------打开系统组件服务

62. ddeshare-------打开DDE共享设置

65. net start messenger----开始信使服务

67. nslookup-------网络管理的工具向导

68. ntbackup-------系统备份和还原

69. narrator-------屏幕“讲述人”

70. ntmsmgr.msc----移动存储管理器

71. ntmsoprq.msc---移动存储管理员操作请求

72. netstat -an----(TC)命令检查接口

73. syncapp--------创建一个公文包

　　74. sysedit--------系统配置编辑器

75. sigverif-------文件签名验证程序

76. sndrec32-------录音机

77. shrpubw--------创建共享文件夹

78. secpol.msc-----本地安全策略

　80. services.msc---本地服务设置

81. Sndvol32-------音量控制程序

82. sfc.exe--------系统文件检查器

83. sfc /scannow---windows文件保护

84. tsshutdn-------60秒倒计时关机命令

85. tourstart------xp简介(安装完成后出现的漫游xp程序)

86. taskmgr--------任务管理器

　87. eventvwr-------事件查看器

88. eudcedit-------造字程序

　92. progman--------程序管理器

94. rsop.msc-------组策略结果集

95. regedt32-------注册表编辑器

96. rononce -p ----15秒关机

99. cmd.exe--------CMD命令提示符

100. chkdsk.exe-----Chkdsk磁盘检查

101. certmgr.msc----证书管理实用程序

　102. calc-----------启动计算器

103. charmap--------启动字符映射表

104. cliconfg-------SQL SERVER 客户端网络实用程序

105. Clipbrd--------剪贴板查看器

106. conf-----------启动netmeeting

107. compmgmt.msc---计算机管理

108. cleanmgr-------垃圾整理

109. ciadv.msc------索引服务程序

110. osk------------打开屏幕键盘

　113. lusrmgr.msc----本机用户和组

114. logoff---------注销命令

115. fsmgmt.msc-----共享文件夹管理器

116. utilman--------辅助工具管理器

117. iexpress-------木马捆绑工具

　打开服务管理器的是services.msc

如果要用cmd直接启用已知服务名的服务如下：

net start [服务名] 启动一个服务

net stop [服务名] 停用一个服务

七 17

读书笔记-核酸&蛋白序列分析

Posted on 2015年7月17日 by ulwvfje

核酸序列分析：
一．DNA基本序列分析：bioedit、DNAman、DNAstar
a)   组成成分分析
b)   序列转换分析
c)   酶切位点分析（REBSASE，NEBCutter2）
二．DNA序列特征分析
a)   开放阅读框分析
b)   启动子和转录因子结合位点（数据库EPD,TRANSFAC,DBTSS,TRRD）（软件Promoter Scan，TfBlast，TESS）
c)   CpG岛识别（在线工具：EMBOSS,CpG Island searcher，CpG cluster）
三．重复序列分析
a)   常用数据库（RepBase，RepeatMasker，LINE-1，STR）
四．基因识别，
a)   同源序列比对
b)   组成统计学特征预测（UTR,EXON,INTRON,）
c)   GENESCAN，GRAIL，geneMarkS，Glimmer
五．mRNA可变剪切分析
a)   常用数据库（ASTD,ASD,ASAP）
b)   在线工具（ASPicDB,ESEfinder,RESCUE-ESE）
六．miRNA与靶基因预测
a)   预测方法（同源片段搜索，比较基因组学预测，序列结构特征打分，靶标预测，机器学习）
b)   数据库资源（miRNA，miRBase，TarBase，miRGen，MIRSCAN，MiPred，miRFinder，miRanda，Targetscan，PicTar）

蛋白序列分析
一．蛋白基本序列分析
a)   氨基酸组成（ExPASy）
b)   电荷性质，疏水性（ProtScale）
c)   理化性质（ProtParam）
二．序列特征信息
a)   跨膜区预测（TMpred）
b)   信号肽分析（signalP）
c)   卷曲螺旋分析（COILS）
三．功能信息分析
a)   PROSITE蛋白质功能数据库
b)   结构域和功能位点分析InterProScan
c)   基于蛋白同源性的功能分析（blastp等）
四．蛋白质结构分析
a)   二级结构预测-（Chou-Fasman，GOR，PHD，NNSSP以及多元预测方法）
b)   三级结构预测-（同源建模。重头预测）

七 17

用DESeq进行差异分析的源代码

Posted on 2015年7月17日 by ulwvfje

要保证当前文件夹下面有了742KO1.count等4个文件，就是用htseq对比对的bam文件进行处理后的输出文件

library(DESeq)
#加载数据
K1=read.table("742KO1.count",row.names=1)
K2=read.table("743KO2.count",row.names=1)
W1=read.table("740WT1.count",row.names=1)
W2=read.table("741WT2.count",row.names=1)
#列名
data=cbind(K1,K2,W1,W2)
#如果是htseq的结果，则删除data最后四行
n=nrow(data)
data=data

[c language="(-n+4:-n),"][/c]

#如果是bedtools的结果，取出统计个数列和行名
kk1=cbind(K1$V5)
rownames(kk1)=rownames(K1)
K1=kk1

#差异分析
colnames(data)=c("K1","K2","W1","W2")
type=rep(c("K","W"),c(2,2))
de=newCountDataSet(data,type)
de=estimateSizeFactors(de)
de=estimateDispersions(de)
res=nbinomTest(de,"K","W")

#res就是我们的表达量检验结果

到这里，理论上差异基因的分析已经结束啦！后面只是关于R的bioconductor包的一些简单结合使用而已

library(org.Mm.eg.db)

tmp=select(org.Mm.eg.db, keys=res$id, columns=c("ENTREZID","SYMBOL"), keytype="ENSEMBL")

#合并res和tmp
res=merge(tmp,res,by.x="ENSEMBL",by.y="id",all=TRUE)

#go
tmp=select(org.Mm.eg.db, keys=res$ENSEMBL, columns="GO", keytype="ENSEMBL")
ensembl_go=unlist(tapply(tmp[,2],as.factor(tmp[,1]),function(x) paste(x,collapse ="|"),simplify =F))

#为res加入go注释，
res$go=ensembl_go[res$ENSEMBL]#为res加入一列go

#写入all——data
all_res=res
write.csv(res,file="all_data.csv",row.names =F)

uniq=na.omit(res)#删除无效基因
sort_uniq=uniq[order(uniq$padj),]#按照矫正p值排序

#写入排序后的all_data
write.csv(res,file="all_data.csv",row.names =F)

#标记上下调基因
sort_uniq$up_down=ifelse(sort_uniq$baseMeanA>sort_uniq$baseMeanB,"up","down")
#交换上下调基因列位置
final_res=sort_uniq[,c(12,1:11)]
#写出最后数据
write.csv(final_res,file="final_annotation_gene_bedtools_sort_uniq.csv",row.names =F)

#然后挑选出padj值小于0.05的数据来做富集
tmp=select(org.Mm.eg.db, keys=sort_uniq[sort_uniq$padj<0.05,1], columns="ENTREZID", keytype="ENSEMBL")
diff_ENTREZID=tmp$ENTREZID
require(DOSE)
require(clusterProfiler)
diff_ENTREZID=na.omit(diff_ENTREZID)
ego <- enrichGO(gene=diff_ENTREZID,organism="mouse",ont="CC",pvalueCutoff=0.05,readable=TRUE)
ekk <- enrichKEGG(gene=diff_ENTREZID,organism="mouse",pvalueCutoff=0.05,readable=TRUE)
write.csv(summary(ekk),"KEGG-enrich.csv",row.names =F)
write.csv(summary(ego),"GO-enrich.csv",row.names =F)

七 17

R语言用tapply把多行重复一对一变成单行一对多格式

Posted on 2015年7月17日 by ulwvfje

数据框tmp如下

1 a

1 b

1 c

2 d

3 e

要把这个数据框变成多行重复一对一变成单行一对多格式

unlist(tapply(tmp[,2],as.factor(tmp[,1]),function(x) paste(x,collapse ="|"),simplify =F))

这样就变成了

1 a|b|c

2 d

3 e

其中改变的就是三个重复一对一变成单行一对多格式1 a|b|c

七 17

转载-VCF格式详解

Posted on 2015年7月17日 by ulwvfje

CHROM(chromosome):染色体

POS - position:参考基因组variant碱基位置，如果是INDEL（插入缺失），位置是INDEL的第一个碱基位置

ID - identifier: variant的ID。比如在dbSNP中有该SNP的id，则会在此行给出；若没有，则用’.'表示其为一个novel variant。

REF - reference base(s):参考碱基，染色体上面的碱基，必须是ATCGN中的一个，N表示不确定碱基

ALT - alternate base(s):与参考序列比较发生突变的碱基

QUAL - quality: Phred格式(Phred_scaled)的质量值，表示在该位点存在variant的可能性；该值越高，则variant的可能性越大；计算方法：Phred值 = -10 * log (1-p) p为variant存在的概率; 通过计算公式可以看出值为10的表示错误概率为0.1，该位点为variant的概率为90%。

FILTER - _filter status: 使用上一个QUAL值来进行过滤的话，是不够的。GATK能使用其它的方法来进行过滤，过滤结果中通过则该值为”PASS”;若variant不可靠，则该项不为”PASS”或”.”。

INFO - additional information: 这一行是variant的详细信息，具体如下：

DP-read depth：样本在这个位置的reads覆盖度。是一些reads被过滤掉后的覆盖度。 DP4:高质量测序碱基，位于REF或者ALT前后

MQ：表示覆盖序列质量的均方值RMS Mapping Quality

FQ：phred值关于所有样本相似的可能性

AF1： AF(Allele Frequency) 表示Allele的频率，AF1为第一个ALT allele 发生频率的可能性评估

AC1：AC表示Allele（等位基因）的数目,AC1为对第一个ALT allele count的最大可能性评估

AN：AN(Allele Number) 表示Allele的总数目

IS：插入缺失或部分插入缺失的reads允许的最大数量

AC：AC(Allele Count) 表示该Allele的数目

G3：ML 评估基因型出现的频率

HWE：chi^2基于HWE的测试p值和G3

CLR：在受到或者不受限制的情况下基因型出现可能性log值

UGT：最可能不受限制的三种基因型结构

CGT：最可能受限制三种基因型的结构

PV4：四种P值得误差，分别是（strand、baseQ、mapQ、tail distance bias）

INDEL：表示该位置的变异是插入缺失

PC2：非参考等位基因的phred（变异的可能性）值在两个分组中大小不同

PCHI2：后加权chi^2，根据p值来测试两组样本之间的联系

QCHI2：Phred scaled PCHI2.

PR：置换产生的一个较小的PCHI2

QBD：Quality by Depth，测序深度对质量的影响

RPB：序列的误差位置（Read Position Bias）

MDV：样本中高质量非参考序列的最大数目

VDB：Variant Distance Bias，RNA序列中过滤人工拼接序列的变异误差范围

GT：样品的基因型（genotype）。两个数字中间用’/'分开，这两个数字表示双倍体的sample的基因型。0 表示样品中有ref的allele； 1 表示样品中variant的allele； 2表示有第二个variant的allele。因此： 0/0 表示sample中该位点为纯合的，和ref一致； 0/1 表示sample中该位点为杂合的，有ref和variant两个基因型； 1/1 表示sample中该位点为纯合的，和variant一致。

GQ：基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值，表示在该位点该基因型存在的可能性；该值越高，则Genotype的可能性越大；计算方法：Phred值 = -10 * log (1-p) p为基因型存在的概率。

GL：三种基因型（RR RA AA）出现的可能性，R表示参考碱基，A表示变异碱基

DV：高质量的非参考碱基

SP：phred的p值误差线

PL：指定的三种基因型的质量值(provieds the likelihoods of the given genotypes)。这三种指定的基因型为(0/0,0/1,1/1)，这三种基因型的概率总和为1。和之前不一致，该值越大，表明为该种基因型的可能性越小。 Phred值 = -10 * log (p) p为基因型存在的概率。

FORMAT 和 BC1-1-base.sorted.bam：这两行合起来提供了’ BC1-1-base′这个sample的基因型的信息。’ BC1-1-base′代表这该名称的样品，是由BAM文件中的@RG下的 SM 标签决定的。

七 17

转-基因突变种类大全

Posted on 2015年7月17日 by ulwvfje

突变（Mutation, 即基因突变）:在生物学上的含义，是指细胞中的遗传基因（通常指存在于细胞核中的脱氧核糖核酸）发生的改变。它包括单个碱基改变所引起的点突变，或多个碱基的缺失、重复和插入。原因可以是细胞分裂时遗传基因的复制发生错误、或受化学物质、辐射或病毒的影响。

以功能分类:

失去功能的突变Loss-of-function mutations

：失去功能的突变是指发生的突变会造成基因完全地失去活性，原因可分成两类。一类是由于基因被删除或是调控基因表现的过程受到影响让基因不表现，另一种则是由于基因本身受到影响，使得基因的产物蛋白质失去功能。又称剔除突变（null mutations）或是敲除突变（knockout mutations）。

次形态突变Time form mutation：此种突变会使基因的表现或是基因产物的活性减弱，但不会消失。

超形态突变hypermorphic mutations：此种突变与次形态突变相反，会使基因的表现加强。

获得功能的突变gain-of-function mutation：获得功能的突变是指发生的突变让原本应该是不表现的基因产生活性，进而影响细胞功能，这样的突变多半需要染色体程度的突变较有可能产生，而最常发生获得功能的突变就是癌细胞。

以突变机理分类:

点突变point mutation:DNA序列中涉及单个核苷酸或碱基的变化称为点突变。 通常有两种情况：一是一种碱基或核苷酸被另一种碱基或核苷酸所替换；二是一个碱基的插入或缺失。

（1）沉默突变silent mutation

当点突变发生在基因及其调控序列之外，或使基因序列内一种密码子变成编码同一种氨基酸的另一种同义密码子时，不会改变生物个体的基因产物，因而不引起性状变异。不引起生物性状变异的突变称为沉默突变。

（2）错义突变missense mutation

指由于某个碱基对的改变，使编码一种氨基酸的密码子变成编码另外一种氨基酸的密码子，结果使构成蛋白质的数百上千个氨基酸中有一个氨基酸发生变化。（实例：镰刀形细胞贫血症）

（3）移码突变frameshift mutation

指在DNA链上，有时一个或几个非3的整数倍的碱基的插入或缺失，往往产生比碱基替换突变更严重的后果。 这种插入或缺失突变会造成阅读框的改变，翻译过程中其下游的三联密码子都被错读，产生完全错误的肽链或肽链合成提前终止。这种插入或缺失突变又称为移码突变。

（4）无义突变nonsense mutation

是指当点突变使一个编码氨基酸的密码子变成终止子时，则蛋白质合成进行到该突变位点时会提前终止，结果产生一个较短的多肽链或较小的蛋白质。

大突变

大突变是可能涉及整个基因以至多个基因的一长段DNA序列的改变，大突变常常导致染色体畸变。

（1）缺失:指DNA分子丢失一段碱基序列。（染色体缺失）(Deletion)

（2）插入:指DNA分子的正常序列中插入一段DNA序列。(Insertion②)

（3）重排:重排包括某段DNA序列的重复（duplication），倒位（inversion），易位（translocation）等。

七 17

转-R语言内存管理

Posted on 2015年7月17日 by ulwvfje

R中的对象（比如矩阵）在内存中存于两种不同的地方:

第一种是堆内存（heap），其基本单元是“Vcells”，每个大小为8字节，新来一个对象就会申请一块空间，把值全部存在这里，和C里面的堆内存很像;

第二种是地址对（cons cells），主要用来存储地址信息，最小单元一般在32位系统中是28字节、64位系统中是56字节。

1、ls()来查看当前所有对象名，对于每一个对象，可以通过object.size(x)来查看其占用内存的大小。

如果是因为当前对象占用内存过多，那么可以通过处理对象来获取更大的可用内存。一个很有用的方法是改变对象的存储模式，通过storage.mode（x）可以看到某个对象的存储模式，比如某个矩阵默认就是“double”的，如果这个矩阵的数值都是整数甚至0-1，完全没必要使用double来占用空间，可以使用storage.mode(x） <- "integer"将其改为整数型，可以看到该对象的大小会变为原来的一半。

2、object.size()看每个变量占多大内存。

3、memory.size()查看现在的work space的内存使用

4、memory.limit()查看系统规定的内存使用上限。如果现在的内存上限不够用，可以通过memory.limit(newLimit)更改到一个新的上限。注意，在32位的R中，封顶上限为4G，无法在一个程序上使用超过4G （数位上限）。这种时候，可以考虑使用64位的版本。

对于一些很大的但无用的中间变量，养成清理的习惯：

可以使用rm(object)删除变量，但是记住，rm后记得使用gc()做Garbage collection，否则内存是不会自动释放的，相当于你没做rm.

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

Daily Archives: 2015年7月17日

perl操作pdf文档

转-windows快捷键，让你的办公效率提升一个档次

读书笔记-核酸&蛋白序列分析

用DESeq进行差异分析的源代码

R语言用tapply把多行重复一对一变成单行一对多格式

转载-VCF格式详解

转-基因突变种类大全

转-R语言内存管理

2015年7月
一	二	三	四	五	六	日
« 六				八 »
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31