生物医疗大数据高峰论坛参会笔记(全)

呀,这是去年(2015)蹭的一个论坛,不记得是第几届了,反正是生物谷举办的,他们搞论坛已经成为一个产业了,非常挣钱的!我那时候还很认真的做了笔记,现在回过头来看看,他们好像讲的都很有道理,虽然我直到现在也用不上,不过我丝毫不担心。我一直拼命的学习各种知识,就是因为有着坚定的信念,所学的一切终将会有一天对我的人生有所帮助。

同济大学附属上海市第一妇幼保健院院长-段涛
1,该院去年接生约2.5万名婴儿,占2014年上海市出生人口的近九分之一。
2,中国2014年出生人口约1600万~2000万,相当于台湾或者澳大利亚的总人口,但是统计部、卫生部、公安部、民政部给的数据差异很大。
3,,卫生部用大数据做出医院排行信息,但是依靠的数据大多靠行政命令摊牌各个医院自行上报,可信度很低。就像曾经规定不能让医院的病人排队时间大于8分钟一样,荒唐。即使这样得到了大数据,也是mass in mass.
4、仅仅是关于糖尿病相关的APP就有超过一百个。
5、中国现在仅处于循证医学的初级阶段,大多数医生看病靠经验,而且很多时候靠的还是该医院该科室主任的经验。不够个性化。
6,过于依赖欧美发达国家的测试结果,比如OGTT标准(口服葡萄糖耐量试验),就只是一个美国医生招募了752名正常人口服100g葡萄糖,然后测量血糖值,并且还取整后得到的数据,极其的不准确。
7,即使循证医学也有不合适的地方,我们应该适当反对。现行药物大多数治疗方式对大多数病人都是无效的,大多数病人只是陪着在治疗。
8,现有医学以器官或者系统来区分疾病的种类,这样的分类方式期待有着革命化的变革,应该加入基因型的因素。
9,现今大部分的疾病都是靠人体的自身免疫来克服的,而非是针对性疗效。
10,精准医疗将改变医学统计学,临床流行病学,诊断体系,治疗方式。
11,该院拥有近5年孕产期所有的超声数据,约百万数据,以及她们的住院门诊病历信息,可以做很多分析,例如胎儿生长发育曲线模型等,寻求合作,有意者联系微信公众号, Dr_Duan_Tao

上海生物信息技术研究中心主任-李亦学

1,taxonomy of disease ,仍然是疾病分类的问题,需要更清晰更精确的分类方式。
2,医疗大数据个人来源(基因组-转录组-蛋白质组-代谢组-生理生化指标-病理数据),超500G数据
3,大数据的4个特点-数据量(Volume)、时效性(Velocity)、多样性(Variety)、可疑性(Veracity)
4,现在测人30X全基因组(100GB数据量)的价格,可以拿到6000-10000的底价。
5,人有30亿个碱基,两万两千多个基因,三十多万种蛋白,但是人与人之间的差异却仅仅只有不到六百万个碱基。
6,上海市政府要投入12个亿在大数据的竞争性领域(数据资源+计算资源),人才随便找,资源最重要。
7,中国生物信息数据资源短缺,主要被欧美国家组织掌控,包括NCBI,EBI,DDBJ,等等。
8,介绍了23andme的模式,99美金的低价,与药企合作开发药物设计,用的是OmniExpress-24 芯片,覆盖人的70多万个位点,一张芯片可以测12个人。

Medsci 张宝发

1,医疗大数据将从诊断、治疗、预后三个方面来改变医学模式。
2,最大的研究数据,1985-2012年间追踪记录的七千四百万的死亡数据。
3,医学模式正逐渐走向“4P”医学模式(4p medical model):预防性(Preemptive)、预测性(Predictive)、个体化(Personalized)和参与性(participatory)
4,传统医学,是简单的因果推测,不合理的地方非常多。
5,即使大数据预测模型也并不完全正确,谷歌的流行病预测模型,通过关键词指数,尽管发布的时候准确性还算可以,运行了两年多无奈关闭。提醒了大数据陷进,数据并非越大越好。
6,三种建模思路(SEMMA,SA,CRISP-DM),反正不懂。
7, Markov和Monte Carlo ,很重要,值得学习学习。
8,模型主要有很多挑战:非线性关系,变量的交互性,随机扰动等等

北大循证医学中心副主任-詹思延

1,ClinicalTrials网站追踪药物四期临床数据。
2,药品上市后数据收集的三个动力,国家法律规定,药物公司开发维护需要,其它公司参考对比需要。
3,额待解决的问题是术语标准化。
4,医疗保险数据库,各个地方政府的社保医保资料,可分析性非常强。
5,各个数据所有单位只需要遵循通用的数据模型,共享数据接口,及数据转换即可。
北京蛋白质组研究中心-朱云平
1,数据质量控制,数据整合,数据标准建立,国家应该出面来做,这样才能保障数据共享。
2,建立中国的生物信息中心。
3,国际大的生物信息学计划(HapMap,ENCODE,HEP Project,GWAS,COSMIC)
4,欧美生物信息数据中心NCBI,EBI,DDBJ
5,参与国家生物信息数据中心建设(基因组所,微生物所,北京大学,上海生物信息中心,药物基因组所,云计算平台,哈工大计算系)
6,基础数据完全公开,功能应用数据选择性公开

阿斯利康亚太研发信息总监-Jenny Wei

1,数据包括 forum/pharmacy database/lab test database/Insurance claims data /hospital/Digital health
2,亚太区(日,韩,台湾)对于生物医疗数据的基础建设都挺好的,唯独中国大陆,一塌糊涂。
3,Chinese EMR information extraction workflow 通过检索常用药物信息论坛来追踪药物副作用,text mining , 包括寻医问药、好大夫、抗癌之家、新浪微博等网站。

复旦大学附属肿瘤医院信息中心主任 王奕

1,医疗信息来源(临床(病历,处方),科研,运营)
2,医疗信息数据量增长率48%,包括影像数据(高达80%),文本数据,语音数据
3,数据复杂度高,各个院系数据标准不统一,多数数据甚至结构化程度都很低。
4,传统数据分析方法(报表,类SQL,关键词检索),今年发展的分析技术(DBI,R,数据挖掘,机器学习,人工智能),未来(~~)
5,复旦大学附属肿瘤医院信息中心建立历程(2011-2016),KSHIS3.0,THIS4.0,THIS4.5,THIS EM1.0等大型医疗管理软件。
6,科研数据搜索系统(ClinBrain),电子数据采集系统EDC,医疗质量监控系统
7,临床知识系统,数据知识神经网络,疾病指南。
8,正在做精准医疗系统,仅涉及少量病种,正在与临床资料整合。

同济大学生命科学与技术学院教授 刘琦

1,大数据分析与传统统计分析方法区别(总体vs样本,穷举vs采样,模糊vs精确)
2,big small data VS small big data 处理方法的区别。
3,做了药物重定位推荐系统,2012和2013年nature子刊均有发表把药物相关信息与public的GWAS数据联系起来重新定义药物的靶点信息。
4,A “web Ranking” model for drug virtual screening
5,RACS  --> Ranking system of anti-cancer synergy
6,用到的public data包括(FDA,DrugBank,SIDER2,CTD,connectivity Map O2,PharmGKB,OMIN,HGMD)

北京大学人民医院院长助理 刘帆

1,北京大学人民医院是国内信息化程度最高的医院,可达美国Himss评级的七级
2,院内信息系统包括5个domain,73个系统,几百个子系统。
3,仅2011年就有29个系统,98个子系统,322个数据接口,直到2013年才完成数据集成平台。
4,医疗大数据分析的挑战(缺乏主索引(身份证,健康卡,就诊卡,社保卡,病历本等等),术语不够标准化(72种术语字典))
5,病人隐私保护,HIPAA方法。
6,应该构建大数据生态圈(多组学数据,日常数据(可穿戴式设备),环境数据,临床数据,公共卫生数据),多种数据结合分析
7,数据云端迁移,灾难备份,仅北京大学人民医院就有>2000万个处方信息,342万患者信息,2.1亿条··记录,10亿次的什么什么,1亿的什么什么,4000万的什么什么,金山云,物理设备应该是800万,云端才50-100万每年,大大的节约了成本。

礼来(中国)研发有限公司IT总监

1,信息数据80%在文本之中,真正以数字的形式给出的很少。
2,我们要从keywords search 转为 Agile Text minning
3,text minning的基础参考自ontology,比较出名的有GO,DO
4,文本来源,pubmed数据库发表的文献的标题及摘要,网页爬虫还有临床数据
5,成功应用案例-礼来学术小助手,微信平台

万达信息股份有限公司 黄晓琴

讲的太多,太复杂,不知道怎么总结

 

Comments are closed.