您好,欢迎来到吉趣旅游网。
搜索
您的当前位置:首页基于Hadoop的临床科研平台系统建设

基于Hadoop的临床科研平台系统建设

来源:吉趣旅游网
基Hadoop 临床科研平台系统建设 周毅①王国锋①杨呖①田宗梅 摘要 目的:解决医院临床科研数据利用问题,唤醒临床工作中产生的“沉睡的数据”。方法:引入基于Hadoop、 MongoDB等技术框架的大数据技术,通过ETL工具抽取清洗,整合各临床业务系统的数据,采用ElasticSearch等自然文本语 言处理技术,再将其归一、结构化,以便于进行多学科临床科研系统建设探索。结果及结论:满足临床科研人员回顾性研 究多重条件检索的要求,并进一步讨论了临床大数据应用重点思考的问题,对提高临床科研工作效率具有较大意义。 关键词Hadoop ElasticSearch大数据临床科研平台 Doi:10.3969/j.issn.1673—7571.2018.03.022 【中图分类号】R197.3;TP391 【文献标识码】A Construction of Clinical Research Platform System Based on Hadoop/ZHOU Yi,WANG Guo~feng,YANG Yang,et al//China Digital Medicine.一2018 13(3):66 to 68 Abstract Objective:To solve the problem of hospital clinical research data utilization and to awaken the”sleeping data”generated in clinical work.Methods:Introducing the big data technology,based on Hadoop and MongoDB technical framework.Extract the data through ETL tools,and integrate the data of each clinical business system.Using ElasticSearch and other natural text language processing technology to normalize and structure the data,in order to facilitate the construction of multidisciplinary clinical research system to explore.Results&Conclusion:It is able to satisfy the requirements of clinical researchers and their retrospective study of nmltiple condition retrieva1.Furthermore,it discuss the problems of clinical large data application,which is of great signiifcance to improve the eficifency of clinical research. Keywords Hadoop,ElasticSearch,big data,clinical scientific research platform Fund project Project Funded by National Natural Science Foundation ofChina(No.71432002) Corresponding author Computer Center ofBeijing Shijitan Hospital,Capital Medical University,BeOing 100()38,P R.C. 首都医科大学附属北京世纪坛医院(北京铁路总医院),原为铁道部北京铁路总医院,创建于1 91 5年,是集医、 教、研、防于一体的综合性三级甲等医院。医院现有与临床密切相关的信息系统共有十余套,包括HIS、电子病历、LIS、 PACS、病理、超声、内窥镜等系统,这些系统由不同厂商建设,数据分布在多个数据库中。临床科研工作需要对患者病 历资料进行全面分析,其中,最有价值的临床数据体现在患者的电子病历中,而医院现有病历的结构化、数据标 隹化程度 不高,文本病历归档后基本处于“沉睡状态”。临床科研工作很多时候通过人工翻病历来整理数据,效率低下,错误率 高。如何快速准确地进行病历资料检索成为临床科研工作最迫切的需求…。随着大数据技术的发展,使用ETL、分布式计 算、自然文本语言处理、机器学习等先进技术,解决临床科研工作的痛点,使唤醒沉睡的临床病例数据成为现实。 1材料与方法 1.1材料来源临床科研平台于2O1 5年11月开始启动部署,系统集成了医院近10年的就诊患者数据,包括11O万患者,3275 份住院病历资料,1 3OO万门诊病历资料。数据集成内容包括患者信息、诊断信息、医嘱信息、费用信息:血液、尿液、 大便、微生物、细菌培养检验报告信息;普通放射、CT、MRI、内窥镜、超声波等检查报告信息;冰冻检查、分子生物学 趸基金项目:国家自然科学基金资助项目(编号:71432002) ★通讯作者:首都医科大学附属北京世纪坛医院信息中心,100038,北京市海淀区羊坊店铁医路10号 ①首都医科大学附属北京世纪坛医院信息中心,100038,北京市海淀区羊坊店铁医路1O号 66 China Digital Medici]e 201 8,Vol No 3 诊断、免疫组织化、DNA序列测定等 库,然后基于ElasticSea rch进行分词 病理报告信息;首程、入院记录、病 生成索引来供前端应用程序使用,通 程记录、手术记录、病案首页、生命 过这种分层处理,数据相对独立,容 体征等电子病历信息。 错性高,数据可追溯性也比较强,可 1.2分布式计算平台架构医院临 以兼顾高并发数据处理和前端应用的 床科研平台建设采用了目前主流 低延迟交互需求 。 的云计算及大数据技术架构,采 用了HadOOP2.0技术框架,该框架 医生在临床工作中会记录大量自 然语言有效信息,科研平台系统将医 l2将又率教 结构化处增 最核心的技术由HD FS文件系统和 院医疗业务系统中的数据,通过自然 些复杂的检索条件,更加简单便捷地 MapReduce的计算框架,以及数据仓 语义处理技术,结合医疗专业术语的 对相关病历数据进行过滤,同时可以 库工具Hive ̄1]分布式数据库Hbase组 语义结构,按照临床专家的医学逻辑 对查询出的病历进行查看,更加有助  成 。在上层使用了MongoDB来进行 进行数据处理,将原始的自然语言表 于临床科研工作。存储已经经过分词、索引后的数据, 达分析处理为结构化的可用数据,为 如图3所示的高级检索功能,根据 为前端应用提供支撑。这种框架下解决 后续的应用、挖掘、机器学习提供基 不同的维度,列出常用搜索项,临床 了大数据规模计算和规模存储的问题。 解决传统架构比较难解决的问题,计算  础数据支持。如图2所示,通过词的归 医生可将不同搜索项进行任意组合, 结构化处理后,再进行检索时一并 包括患者基本信息、一诉五史信息、时间问题、计算成本问题、I/O问题。  获取检索结果。例如.输入发烧或发 出入院诊断、病程记录、手术记录、该数据处理技术是构建医疗大数据应 热都会把相关患者一并检索出来,从 检验检查报告等信息。同时,平台还 腿 舭帆 球冁 卧耕格 ,往.认秆史瞠;t 史吾髓虫.罐疆饵研地,过啦 既医否认 鲴行孵 蝴 踟 捧“阀认心螂臻  育灭≮稼跨 育戢.啦m㈣ 三 乱 _啦队触氮 三l 一 ㈨ 删 确 蹴:盅物进 禽睦 = 上l 用的基础 。 而避免了因个性化用词而无法做全量 实现了对多个科研项目的管理,包括 数据检索分析的情况。 创建科研项目,自定义研究指标,并 且实现在线的数据分析,还可将已脱 血 百长癯下矗 n虾R基 2结果 敏数据导出,以便临床科研进一步进  2.1临床科研平台系统功能临床科研 行分析研究。2主要解决的问题系统在201 6年9 平台系统的建设极大节省了临床科室 2.哪耽骄黼钆搽融 基焉血焉中 痴 孙 滞 史史  以前收集数据的时间,同时,针对一 月开始在全院逐步推广使用。目前,否吾百否百否否是垦是 高级l蹙震 1数据分辰处辉 .病^罐席幂 历媲鹰 如图1所示,将医院各相关应用 + 系统的数据库作为数据源,通过ETL 工具进行数据的清洗、转化,在此过 程中,着重对患者的敏感信息进行处 理.然后加载到“医院数据标;隹”的 数据仓库中,先做数据集中,然后进 行清洗和关联操作,这个过程参考 旺蠹是吾吸魍 + 盎 + + 忸苗 电盘 HL7相关标;佳,建立临床数据标准的 数据集,数据加工的过程做“数据归 一出生年月、 尊 目嚼冲'soB 慷目嘲舶1}OB 哦a舶冲’s伸日 扁人' - 粮铺辫 (住硫:一) 、 ·t 4童佳目粥誓院随t 悖 名髂椭 幢脯出抗HI +出院¨重 住院珊住院弛i诉 孙 督” 处理”,形成面向应用的数据集。 经过在大数据平台H D F S上的 ” 棚生年爿 :.‘ 扁^蝻鹕。牛目*脯历 ¨_ 雌(往魄: 杯嘲 】 n 日嘲冲06 031 7韩 Ht r, 自荫舯ln 1 ●4靴嘲 盛 门 日婿却”O 0,概 {赢  .鄙童槔帏¥性, ■ 许脯嘲 ● 曩 。”{±I生锥自 - 一^靠毋硝薹嘶 (蝇蜿t) 圭 一 ~ 数据加工处理后,在应用层使用 M O ngODB作为应用层数据集数据 n航日嘲册1 9 I t£自 H盛f 日斟柏"∞ ■噼翱l 一………。出 ‘“立 、n贰雨料 。母傩脊,嘲 榭 —一一 — 图3高级检索 重点使用科室包括妇产科、介入科、 泌尿外科、内分泌科、中医科、风湿 免疫科等。科研平台系统总体设计解 决了以下几个问题:建立异构系统数 据的关联关系,完成数据的集中;解 表1系统实施前后科研模式对比 的合作,探索多学科 的技术合作。在系统 建设过程中,要充 分发挥医疗大数据公 司的技术能力和临床 医生的专业技能。例 决传统计算架构无法解决的计算性能问 题,处理好非结构化病历资料的检索; 如:临床医生协助审 提高已有数据的标准化,解决同病不同 与临床科研检索系统数据库的数据数 核数据归一、结构化的合理性,确保 描述,同症状不同说法的问题;应用的 量需要一致,且保持相对的及时性。 数据的 隹确性” 。而且,此过程需要 实时交互能力,把满足检索条件的内容 同时,数据质量需要效验后才可使 相关技术人员持续优化算法。另外, 秒级返回 。 用,避免因多个异构系统关联、结构 需要了解医院信息系统数据库结构人 员配合,需要专业的信息技术人员深 提高了临床科研工作效率,实现 化、归一处理过程中数据失真 。 跨数据库的任意组合条件的检索,通 数据抽取方法问题。每个医院 入项目管理。9 过关联、归一、结构化的处理实现全 情况不同,有些医院已经建立临床数 量数据的检索,实现对科研项目的管 据中心,数据抽取相对简单,没有 叁 c== 理,临床不必再考虑数据转录、保存 数据中心时就需要考虑异构数据的 『11张胜行,陈大鹏,凌小明基于大数据视 问题。数据输出应用时有较高的输出 抽取问题。常用的数据抽取方法有: 效率,通过大数据分布式计算架构实 G0 LDENGATE,DATAGUARD, 现实时交互的能力,数据检索可以秒 0 D BC连接、定义接口文件,建立 级返回计算结果,充分发挥医疗大数 DBLINK、数据总线转发等。但是, 角的医院科研管理【J】解放军医院管理杂 志,2015,5(5):481—483 [2】覃雄派,王会举,杜小勇,等大数据分 析——RDBMs与MapReduce的竞争与共生 卟软件学报,2012,23(1):32—45 据的价值 。科研平台实施前,临床医 无论使用哪种方法都需要根据医院情 I 3]孙瑛,朱刘松浅析云计算在医院信息 生需要联系各相关科室,如病案室, 况,提前评估对生产环节的影响,还 化建设中的应用l_l】.解放军医院管理杂 志,2014,21(7):66(/一661,666. 临检中心等,系统上线实施后,医生 要尽量保证数据的实时性 。 只需检索关键词就可完成相关临床资 数据安全问题。大数据时代最重 [4】邹北骥大数据分析及其在医疗领域中的 应用[1]l计算机教育,2014(7):24—29. 『51郭晓明,周明江大数据分析在医疗行业 的应用初探U]中国数字医学,2015,10(8):84— 85,111 料的调阅,这一过程基本属于秒级返 要的问题就是数据安全问题,聚焦到 回,时间可忽略不计。具体见表1的对 医疗大数据那就是患者隐私问题,回 比结果。 顾性研究数据需要脱敏,但是数据脱 敏的节点和脱敏的规则需要配合临床 f61王才有.大数据时代的医院数据平台建设 3总结与讨论 11中国医院,2()16,20(1):15—17. 的使用。前瞻性研究所产生的随访数 [过程的实现【11中国医疗设备,2015(4):89—92 7J左铭,万歆,刘迎,等.临床数据中心数据处理 临床科研平台的建设是医院医疗 据原则上不出医院,但如今通讯技术 【大数据应用的一个应用实例,在这个 发达,如果真想出医院也很难挡住。 系统建设过程中,通过应用ETL、分布 所以,要考虑医院数据安全管理制度 [8]刘晓亮,王坤,马军.大数据时代的卫生 信息化建设思考U].中国卫生信息管理杂 式计算、自然文本语言处理、机器学 和技术防范方法,做到事前授权,事 志,2014,11(1):43—46 习等先进技术,真正解决了临床科研 后追踪。即:数据使用要有分级授权 [9]朱立峰,左铭,万歆,等医院临床研究中 工作的痛点,唤醒了沉睡的临床病例 管理,进行全院级别、科室级别、个 的大数据应用需求与策略U]中国数字医 2015,10(12):14—15. 数据,切实为临床科研工作提供了较大 人级别数据使用授权。同时,要有相 学,的便利。在系统建设过程中需要重点关 应的监控技术手段,能够追踪什么时 【10]李维,计虹基于Hadoop的医院数据 注的问题与得到的启示总结如下。 间、在哪台计算机、什么人检索了什 利用探索与实践U】中国卫生信息管理杂 志,2016,13(1):70—74 数据一致性问题。临床科研数据 么数据,避免临床数据的违规使用 。 的准确性要求较高,医院生产数据库 积极探索与医疗大数据应用公司 【收稿日期:2017一()8—29】 (责任编辑:张倩) 68 ( ㈠ ; Medicine 2◇ 冀 。! {。  3 l

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- jqkq.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务