最近在带领学徒,重现当初的 »生信技能树›互动作业›脚本能力实践›生信人必练的200个数据处理任务
其中第11题,很有趣:把文件内容按照染色体分开写出
然后发现以前没有问题的代码居然报错了:
awk '{print >> ( $1".tmp") }' batch1-cnvkit-all.seg
报错如下:
awk: sample100.tmp makes too many open files
input record number 3696, file batch1-cnvkit-all.seg
source line number 1
我略微思考了一下,学徒用的是Mac电脑,猜想可能是mac和Ubuntu命令不兼容。
所以我把同样的数据上传到我的Ubuntu服务器,发现同样的代码就不报错 ,诡异!
附赠:生信编程实战5个月传送门 http://www.biotrainee.com/thread-1075-1-1.html
- 生信编程直播第一题:人类基因组的外显子区域到底有多…
- 生信编程直播第二题:hg19基因组序列的一些探究
- 生信编程直播第三题:hg38每条染色体基因,转录本的分布
- 生信编程直播第四题:多个同样的行列式文件合并起来
- 生信编程直播第五题:根据GTF画基因的多个转录本结构
然后是第二个月,关于kegg数据库的注释:
- 生信编程直播第六题:下载最新版的KEGG信息,并且解析好
- 生信编程直播第七题:写超几何分布检验!
- 其中shell是单独出题,生信编程直播第六题:批量根据基因list来提取信息(shell)
- 生信编程直播第7题:批量从NCBI下载数据(shell)
接下来是第3个月,回归基础:
- 生信编程直播第8题-几个ID转换咯
- 生信编程直播第0题-生信编程很简单
- 生信编程直播第9题:根据指定染色体及坐标得到参考碱基
- 生信编程直播第10题:根据指定染色体及坐标得到位置信息
- 生信编程直播第11题:把文件内容按照染色体分开写出
- 生信编程直播第12题:json格式数据的格式化