R语言奇淫巧技之pdftools包

我们前面讲解过了使用R语言做爬虫，处理图片，写网页应用等等，都在生信基石之R语言，B站的10个小时教学视频！

最近逛论坛发现pdftools包这个神器，原文链接是：https://www.r-bloggers.com/2019/04/join-split-and-compress-pdf-files-with-pdftools/ 也是值得推荐一下。

首先是拆分PDF文件

比如我们想打印文献，十几个PDF文件，但是每个PDF文件末尾都是参考文献等等并不是很想浪费金钱去打印它，就可以删除指定的页面在每个pdf文件里面。
就可以使用pdftools包的pdf_subset()函数，示例代码如下：
# Load pdftools
library(pdftools)
# extract some pages
pdf_subset('https://cran.r-project.org/doc/manuals/r-release/R-intro.pdf',
 pages = 1:3, output = "subset.pdf")
# Should say 3
pdf_length("subset.pdf")
当然了，如果你有客户端的PDF编辑器就是可视化很方便，不过它不能批量化。代码的魅力就在于批量和自动化，嘻嘻

合并PDF文件

而我们想把十几个PDF文件的文献发给商家，就可以先合并成为一个pdf文件，发送起来也是方便你我他。
就可以使用pdftools包的pdf_combine()函数，示例代码如下：
# Generate another pdf
pdf("test.pdf")
plot(mtcars)
dev.off()
# Combine them with the other one
pdf_combine(c("test.pdf", "subset.pdf"), output = "joined.pdf")
# Should say 4
pdf_length("joined.pdf")
同样的道理，代码的魅力就在于批量和自动化，嘻嘻。

如果你要把多个图片写入到同一个pdf里面，每个图片是一个页面

参考：https://stackoverflow.com/questions/1395410/how-to-print-r-graphics-to-multiple-pages-of-a-pdf-and-multiple-pdfs 示例代码如下：
pdf("myOut.pdf")
for (i in 1:10){
 plot(rnorm(10))
}
dev.off()
如果要读取PDF里面的内容呢？

我以前在生信技能树写过教程，大家尝试搜索，然后拿到该教程的短url哦！
搜索是有技巧的，见：

躺在宝藏旁却不自知，附上搜索神器

无敌宝藏：树爸爸历史推文大全

历史宝藏这样找
尤其是《生信技能树》公众号的号内搜索，居家旅行必备神器，好的关键词肯定能解决大家的问题。
如果你拿到《读取PDF里面的内容》的教程的短url，可以发在公众号次推文的文末跟大家交流哦！

文末友情推荐

要想真正入门生物信息学建议务必购买全套书籍，一点一滴攻克计算机基础知识，书单在：什么，生信入门全套书籍仅需160 。
如果大家没有时间自行慢慢摸索着学习，可以考虑我们生信技能树官方举办的学习班：

数据挖掘学习班第7期（线上直播3周，马拉松式陪伴，带你入门），原价4800的数据挖掘全套课程，疫情期间半价即可抢购。

生信爆款入门-第9期（线上直播4周，马拉松式陪伴，带你入门），原价9600的生信入门全套课程，疫情期间3.3折即可抢购。
如果你课题涉及到转录组，欢迎添加一对一客服：详见：你还在花三五万做一个单细胞转录组吗？
号外：生信技能树知识整理实习生招募，长期招募，也可以简单参与软件测评笔记撰写，开启你的分享人生！另外，：绝大部分生信技能树粉丝都没有机会加我微信，已经多次满了5000好友，所以我开通了一个微信好友，前100名添加我，仅需150元即可，3折优惠期机会不容错过哈。我的微信小号二维码在：0元，10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》

一	二	三	四	五	六	日
« 九
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

R语言奇淫巧技之pdftools包

首先是拆分PDF文件

合并PDF文件

如果你要把多个图片写入到同一个pdf里面，每个图片是一个页面

如果要读取PDF里面的内容呢？

文末友情推荐