我们前面讲解过了使用R语言做爬虫,处理图片,写网页应用等等,都在生信基石之R语言,B站的10个小时教学视频!
最近逛论坛发现pdftools包这个神器,原文链接是:https://www.r-bloggers.com/2019/04/join-split-and-compress-pdf-files-with-pdftools/ 也是值得推荐一下。首先是拆分PDF文件
比如我们想打印文献,十几个PDF文件,但是每个PDF文件末尾都是参考文献等等并不是很想浪费金钱去打印它,就可以删除指定的页面在每个pdf文件里面。
就可以使用pdftools包的pdf_subset()函数,示例代码如下:
# Load pdftools library(pdftools) # extract some pages pdf_subset('https://cran.r-project.org/doc/manuals/r-release/R-intro.pdf', pages = 1:3, output = "subset.pdf") # Should say 3 pdf_length("subset.pdf")
当然了,如果你有客户端的PDF编辑器就是可视化很方便,不过它不能批量化。代码的魅力就在于批量和自动化,嘻嘻
合并PDF文件
而我们想把十几个PDF文件的文献发给商家,就可以先合并成为一个pdf文件,发送起来也是方便你我他。
就可以使用pdftools包的pdf_combine()函数,示例代码如下:
# Generate another pdf pdf("test.pdf") plot(mtcars) dev.off() # Combine them with the other one pdf_combine(c("test.pdf", "subset.pdf"), output = "joined.pdf") # Should say 4 pdf_length("joined.pdf")
同样的道理,代码的魅力就在于批量和自动化,嘻嘻。
如果你要把多个图片写入到同一个pdf里面,每个图片是一个页面
pdf("myOut.pdf") for (i in 1:10){ plot(rnorm(10)) } dev.off()
如果要读取PDF里面的内容呢?
我以前在生信技能树写过教程,大家尝试搜索,然后拿到该教程的短url哦!
搜索是有技巧的,见:
- 躺在宝藏旁却不自知,附上搜索神器
- 无敌宝藏:树爸爸历史推文大全
- 历史宝藏这样找
尤其是《生信技能树》公众号的号内搜索,居家旅行必备神器,好的关键词肯定能解决大家的问题。
如果你拿到《读取PDF里面的内容》的教程的短url,可以发在公众号次推文的文末跟大家交流哦!文末友情推荐
要想真正入门生物信息学建议务必购买全套书籍,一点一滴攻克计算机基础知识,书单在:什么,生信入门全套书籍仅需160 。
如果大家没有时间自行慢慢摸索着学习,可以考虑我们生信技能树官方举办的学习班:- 数据挖掘学习班第7期(线上直播3周,马拉松式陪伴,带你入门),原价4800的数据挖掘全套课程, 疫情期间半价即可抢购。
- 生信爆款入门-第9期(线上直播4周,马拉松式陪伴,带你入门),原价9600的生信入门全套课程,疫情期间3.3折即可抢购。
如果你课题涉及到转录组,欢迎添加一对一客服:详见:你还在花三五万做一个单细胞转录组吗?
号外:生信技能树知识整理实习生招募,长期招募,也可以简单参与软件测评笔记撰写,开启你的分享人生!另外,:绝大部分生信技能树粉丝都没有机会加我微信,已经多次满了5000好友,所以我开通了一个微信好友,前100名添加我,仅需150元即可,3折优惠期机会不容错过哈。我的微信小号二维码在:0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》