最近在带领学徒,重现当初的 »生信技能树›互动作业›脚本能力实践›生信人必练的200个数据处理任务 Continue reading
招聘都需要有项目经验肿么办
借第一届生物信息学人才大会的契机
我们给大量有招聘需求的企业及科研单位和我们的十多万生信工程师建立了连接,然后发现一个很有趣的问题:就是招聘方通常是要求有项目实战经验,但大量的工程师都是初出茅庐,虽然不少是生物信息学专业科班出身,但是才走出象牙塔的他们也的确没有什么机会实战,那么我们就讨论一下,这个项目实战经验的问题! Continue reading
再次说明md5检查文件完整度的重要性
最近服务器停电,发现几个星期前提交的项目失败了几个样本: Continue reading
用ffmpeg转mov为mp4格式
通常我们的MAC录制视频后文件都非常大,15min的视频可以达到2G大小,所以需要转换和压缩,但是不能降低太多的分辨率。 这里我的御用视频编辑师推荐了一款非常轻量级的命令行工具FFmpeg
可以做到,下面是FFmpeg
的简短介绍: Continue reading
一起分析中国人的TNBC队列
看到标题进来的,肯定是知道TNBC(三阴性乳腺癌)的定义的,详见:https://mp.weixin.qq.com/s/wWFYLBIfexaP1PuhqgcA9w
乳腺癌是高度异质性疾病,临床分期及病理分级相同
的患者对治疗的反应和预后大不相同。
但是目前仍然是根据临床病理特点如HER2表达、雌激素受体状态、肿瘤大小、分级和淋巴结转移等选择辅助治疗,包括化疗,内分泌治疗,抗HER2治疗等。 Continue reading
寻找生存分析的最佳基因表达分组阈值
想做单细胞数据分析,完成一个R考核题
打开你的Rstudio,运行下面的代码: Continue reading
统计学10讲之示例数据
本来有statquest珠玉在前,我实在是提不起笔和勇气写统计学专题,但是最近直播单细胞转录组数据分析发现这系列知识点实在是太重要,而我的习惯是,讲不清楚的知识点不认为自己掌握了,所以还是尝试着介绍一波。 Continue reading
使用gtex数据库找组织特异性表达基因
组织特异性表达基因在单细胞领域应用比较广泛,毕竟一下子好几千个细胞的表达量矩阵就出来了,通过降维聚类,可以拿到不同的亚群,就需要对这些亚群进行生物学注释,这个时候,如果我们有人类的每个组织的特异性表达基因列表,就很容易操作。 Continue reading
使用DSS包多种方式检验差异甲基化信号区域
一个背景
哺乳动物基因组CpG位点通常集中在称为CpG岛(CpG island,CGI)的区域中,并且已知人基因启动子约60%含有CpG岛。CpG岛上下游不超过2000个碱基对(2kb)的基因组区域称为CpG“岛岸”(shores),其中CpG shelves指位于CpG shores 上下游2kb以内的区域,open sea指CpG islands、CpG shores和CpG shelves之外的其他区域。这4种情况形成了CpG resort,CpG位点的密度从island到open sea递减。 Continue reading
十年前收集病人五年前公布数据今天发nature
文章信息
题目:Immune evasion before tumour invasion in early lung squamous carcinogenesis
杂志:nature
时间:26-june-2009
链接: https://www.nature.com/articles/s41586-019-1330-0 Continue reading
十步搞定单因素方差分析
看过我TCGA肿瘤数据库知识图谱的小伙伴都知道如何在任意癌症查询指定感兴趣基因的表达量,并且对样本进行分组比较,网站是:https://xenabrowser.net/heatmap/ Continue reading
生信软件操作视频教程大赛
楔子
朋友圈偶然看到由信息中心生命科学图书馆联合营养与健康院团委、研究生会、中科院创新创业俱乐部举办的2019年度生物软件操作视频征集大赛,虽然是生物软件操作大赛,但是里面列出来的几乎都是生物信息学软件,而且很多让人眼前一亮的名字,让我觉得非常欣慰,这些年的坚持努力推广生物信息学知识没有白费。 Continue reading
神技能-自动化批量从PDF里面提取表格
最近给学徒布置了一个作业,是一篇文章的数据图表重现,如下: Continue reading
染色体全局可视化
这并不是最佳选择方案,因为前些天菜鸟团的
先安装 ChromHeatMap 包,里面存放有 cytoBand坐标信息,可以简单检查一下。 Continue reading
你只有9例病人肿么办
现在做肿瘤队列研究,纳入病人数量不过百都不好意思出来交流了,但是,并不意味着你的样本数量少,你的研究就没有意义,当然,部分稀有癌症本来就不可能是样本量大。
但是假如你做的并不是稀有癌症,又的确没有经费或者其它条件不允许,只能说是不到10个病人,数据也出来了,仍然是想发出去肿么办? Continue reading
你们的相关性可能只是第三者插足
很多人挖掘公共数据库,比如TCGA等,会喜欢用到相关性分析,就是寻找那些表达量相关性比较高的, 然后就认为他们之间具有调控关系,可能是某些模块,但是我最近看的一篇文章,提到了这样的相关性其实是比较容易受其他因素影响,比如肿瘤纯度,如下图: Continue reading
集思广益-生存分析可以随心所欲根据表达量分组吗
很久以前我们提到过TCGA的各种网页数据库的生存分析结果冲突的问题,现在又有人提出来一个新的问题,如下: Continue reading
基于R的统计习题30个
统计学是一门很深的学问,这里仅仅是出题帮助大家熟练使用R语言来学习统计学知识,具体知识点需要更深入阅读书籍或者教程: Continue reading
基于R的可视化习题30个
可视化是一门很深的学问,详解:https://mubu.com/doc/3L0wkgGUVg 这里仅仅是出题30个,引导大家进入该领域!
这里仅仅是针对一个数据集,就是r包airway并且通过assay函数拿到其表达矩阵。 Continue reading