医疗大数据是什么、智慧医疗大数据平台

首页 > 健康 > 寻医问药 > 正文

医疗大数据是什么、智慧医疗大数据平台

一文详解大数据在医疗卫生领域的作用

医疗大数据是什么、智慧医疗大数据平台

医疗卫生成本拉动了对以大数据为驱动的医疗卫生方面的应用需求。在过去的几十年里,美国的医疗卫生支出已经超过了GDP增量,并且超过了任何一个其他发达国家的医疗支出。据经济合作与发展组织(OECD)称,尽管支出很高,但如果以便利性、平等性、质量、效率以及健康人数为指标的话,美国的医疗卫生系统在了11个国家中排名最后(如下图所示)。对医疗数据数字化及数据共享的标准化和倡导,改进并降低数据存储成本,并能够在商业硬件上运行,这些都促成了大数据在医疗行业的应用,并以更低的成本获得更好的医疗卫生服务为目标。

“平价医疗卫生法案”的一个目标是通过医疗信息技术的有效利用来改进医疗卫生,从而达到以下目的:

▪ 提高医疗卫生的质量和协调能力,使成果与现有的专业知识一致。

▪ 缩减医疗卫生支出,减少可避免的过度使用。

▪ 已改革的支付系统提供支持。

医疗保险公司、老年卫生医疗制度(美国政府向65岁以上的人提供医疗保险)、医疗补助制度(美国政府向贫困者提供医疗保险)正在从收取服务性费用转向以价值为基础、数据为驱动的激励转变。这种激励模式鼓励高质量、高性价比的医疗服务,并且还能展示对电子医疗记录的有效利用。

医疗卫生行业的数据80%都是非结构化数据,并且数据量还在呈指数式增长。对于这些非结构化数据的获取,比如医疗设备检测结果、医生的记录、实验结果、影像学报告、医用函件、临床数据和财务数据等,是改善病患医疗服务及提高效率的无价资源。

以下是未来可以受益于大数据分析的医疗卫生数据源的例子:

▪ 索赔报告:是医疗卫生服务供应商向保险公司提交的文件以获得保险赔偿。《健康保险隐私及责任法》(Health Insurance Portability and Accountability Act,缩写为HIPAA)中最关键的一个要素就是通过鼓励在医疗服务供应商和保险公司之间广泛使用电子文档交换(Electronic Document Interchange,缩写为EDI),建立电子医疗记录方面的国家级行业标准来提高效率。索赔报告交换包括国际疾病分类(International Classification of Diseases,缩写为ICD)诊断码, 治疗方案、日期、供应商ID以及花费金额。

▪ 电子健康/医疗记录数据(Electronic Health/Medical Record, 缩写为 EHR或者EMR): 医疗电子记录激励体系在建立之时便是用来鼓励职业人员以及医院采用并展示对已认证的EHR技术的有效应用。EHR能够促进服务供应商和医疗机构之间的数据全面分享。EHR包含医疗卫生服务中所产生的数据,例如诊断结果、治疗方案、处方、实验测试结果及放射诊疗结果。国际医疗卫生领域信息系统指标体系及交换协议(HL7)提供了电子医疗记录数据的交换、整合、共享、撤回等方面的基本标准。

▪ 医药研发:临床实验数据、基因数据。

▪ 病人行为和情绪数据。

▪ 医疗设备数据:家庭或医院的患者传感器数据。

现在有一种趋势是向着循证医学发展,即充分利用所有临床数据并能在临床和高级分析中对这些数据进行因子分解。抓取及收集关于某一个病人的所有信息能够为我们分析医疗服务协调性、分析基于效果的补偿体系、人口健康管理以及病人参与度和其他信息。

用大数据分析工具减少医疗诈骗、浪费和滥用

在美国医疗产业中,因欺诈、浪费和滥用而产生的成本是造成医疗费用节节上升的重要因素,但大数据分析能称为这一现象的变革者。医疗照护和医疗救助中心使用预测分析一年能够杜绝总额超过2.1亿的医疗保险欺诈。基于hadoop大数据平台的基础上,联合保健公司实现了向可预测的建模环境的转变。这个大数据平台能够以系统的、可重复的方式去甄别不正当的索赔申请,并能获得2200%的数据反馈。

辨别诈骗的关键是通过存储和可追溯的记录去分析历史赔偿记录中大量的非结构数据集,并利用机器学习的算法来甄别反常事物及模式。

医疗组织机构可以通过分析病人的纪录和账单来查明异常,例如短期内过度使用医疗服务,病人在不同地方的不同医院受到了医疗服务,或是同一个病人在多家机构得到了相同的处方。

医疗保护和医疗救助中心用预测分析来对某些特定的赔偿或医疗服务供应者进行风险评分,甄别计费模式并发现用传统方法难以查明的反常情况。以规则为基础的模式基本上能自动标示部分赔偿结果异常。而异常分析模式基本上是靠分析反常因素发现问题。预测分析模式是将某一赔偿案例与另外一个已被确认为诈骗的案例进行比较来发现可疑之处。而图表模式一般是依据关系网来分析,它认为一般存疑的医疗服务提供者总是与其他存在欺诈性的收费者保持紧密联系。

通过预测分析提高效果

不少积极的尝试,例如正在加速电子健康记录(Electronic Health Records,EHRs)的有效利用、病人信息的数量和细节,能够通过多种信息源组合、分析各种各样的结构化和非结构化的数据有助于提高诊断病人病状的准确性、根据病状匹配治疗方案以及预测病人患病或再患病的风险。

以电子健康记录(EHR)中的数据为来源的预测模型被应用于早起疾病的检测,并且还降低了一些疾病的死亡率,比如充血性心力衰竭(CHF)和败血症等疾病。降低充血性心力衰竭(Congestive Heart Failure ,CHF)和败血症等疾病的死亡率。CHF在医疗保健支出的占比最大,CHF越早治疗越好,这样能够避免花更多的钱治疗并发症。但是医生常常会忽略它的早期临床表现。来自于佐治亚理工学院的一个机器学习示例表明机器学习算法能够比医生从病人的图表中分析出更多的因素,同时通过增加额外的特征,机器学习算法能够有效提高模型区分CHF患者和非CHF患者的能力。

通过分析包含更多病患数据的大样本数据,预测模型和机器学习能发现之前未能发现的细微差别和模式。Optum实验室从EHRs中搜集30万病人的信息,为预测分析工具创建了一个庞大的数据库。这些工具将会帮助医生做出基于大数据信息的决策,从而改善病人的治疗。

实时监控病情

医疗机构正在通过持续性监控病人生命特征来提供更加具有主动性的治疗,各种监控数据能进行实时分析并及时发送警告给医疗服务提供者以便他们能及时了解病人病情的变化。通过机器学习算法进行实时分析能够帮助医生做出挽救性命的决策并且对一些病症进行有效干预。

我们需要收集数据、处理数据、存储数据,并最终将数据用于分析,机器学习和数据表盘。

数据撷取:NFS

通过网络文件系统(NFS)协议可远程访问网络共享磁盘。启用NFS服务器后,可与客户共享目录和文件,让用户和程序像访问存储在本地的文件一样访问远程系统上的文件。

与只允许集群数据导入或批量导入的其它版本的Hadoop不同,MapR允许通过NFS直接挂载群集本身,让您的应用程序直接读取、写入数据。通过POSIX语义,该Map件系统允许直接修改文件和多个并发读取写入操作。挂装NFS的集群可实现对数据源的简单数据撷取,比如说从其他应用标准Linux命令、实用程序、应用程序和脚本的设备上撷取文件、图片等。

通过使用NFS可从MapR集群移出移入数据至更昂贵的存储空间。例如,您可以将处理过的热数据转移到关系数据库或数据仓库,您也可以将冷数据转移到成本更低的Hadoop存储中。

流数据撷取:KAFKA API

由于越来越多的医疗方案需要实时分析和动态数据,使用事件流撷取数据到系统中则将成为关键。 MapR流是一种新型的分布式通信系统,通过Apache Kafka 0.9 API可使得生产者和消费者之间实现实时交流事件动态。主题是信息的逻辑化集合,可依据其将事件分门别类。

主题分区域放置。主题将并行数据负载传遍多个服务器,这保证了更高的吞吐量和可扩展性。

读取后消息并不会从主题中删除,而且主题可以有多个不同的消费者,这使得抱有不同目的不同消费者处理可以处理同一消息。

批量处理

当快速相应时间不是核心要素时,就可采用数据批量处理。批量处理用于处理一段时间积累的数据集。例如白天收集EDI声明,晚上打包至文件夹中准备用于处理。

Apache Hive是一个用于数据仓储的开源Hadoop应用程序。它提供了一个便捷的方式在大量的非结构化数据之上建立框架,然后对这些数据进行类似SQL查询操作的批处理程序。

Apache的Spark是下一代分布式并行处理框架,可为机器学习、图形处理、SQL等提供一套丰富的API。 对于迭代算法,Spark处理速度要比MapReduce更快,因为Apache尽量将相关信息储存在储存器中,而MapReduce则更多地直接从盘中读取和写入。

流式数据处理

Spark Streaming是基于Spark的实时计算框架,其将流式计算分解成一系列短小的批处理作业。因此,你可以像编写批处理作业一样编写流作业。当然,处理大规模流式数据,除了Spark Streaming, Apache Flink 和 Apache Storm也是不错的选择。

NOSQL数据库存储

存储海量数据,我们需要一个既能满足快速写入又能满足大批量录入的数据库。MapR-DB应运而生,MapR-DB就是为了规模化写入而设计,因为事实上同时读取的数据也存储在一起。

有了MapR-DB, 数据可以通过关键域在数据集群之间完成自动分配,每个服务器对应一个子数据集的源。如果按行分组数据,无疑会加快数据读写速度。

MapR-DB有两个API:

▪ JSON API——用于存储文件模型

▪ HBase API——用于列数据模型(尤其是时间序列数据)

提供数据

终端应用,例如数据表盘、商业智能工具以及其他的应用,需要使用已处理好的数据。同时,这些数据可以再存回数据库,方便日后使用。

Apache Drill 支持无模式SQL查询引擎,因此能够实现海量数据的自助式数据探索。能够实现海量数据自助服务SQL查询。Drill有如下优点:

▪ Drill支持多种数据读取

▪ Drill进行了交互式应用方面的优化,可以在秒级别的时间查询PB级别数据及万亿条记录

▪ 数据分析师在使用Drill的时候,可以搭配一些例如Tableau的工具,就能够快速实现数据可视化。

以上我们讨论的架构组建,都能与mapr 融合数据平台在同一数据集群上运行。当然,整合Hadoop、Spark、实时数据库、全球性事件流及大规模企业级存储,还会带来以下好处:

▪ 维护一个数据集群,意味着更少的系统架构部署和管理,对系统安全、稳定性和性能方面的监控也减少了。这样极大程度上降低了硬件和运营成本。

▪ 生产者和消费者在同一集群,将会降低因在不同集群和应用程序间复制或移动数据而造成的延迟。

Valence Health使用MapR融合数据平台来创建作为该公司主要数据储存地的数据湖。该公司产生3000条内部数据记录,涵盖45种不同类型,包括实验室测试数据、病人生命体征、处方、药品津贴、索赔和支出等,其中索赔来自医生和医院两方面。在过去,如果我们要从2000万条实验室记录中检索一条记录,将花费22个小时。而MapR只需要20分钟,并且其所消耗的硬件资源还会大大减少。

国立卫生研究院为了整合各研究院的数据集,也创建了一个数据湖。这样,所有的数据都集中在一个地方,更加方便数据共享和处理。

UnitedHealthcare IT部门采用Hadoop框架创建了一个平台。该平台上有各种工具,能够

分析诸如索赔、处方、治疗计划参与者、合同服务提供者及相关的索赔审议结果等信息。

医疗卫生服务的记录系统流

Liaison科技提出一个基于云的方案,帮助组织机构整合、管理、保护跨公司数据。针对医疗服务和生命科学产业,他们提供了一个纵向解决方案,该方案面临两个难题:符合HIPAA规定需要以及数据格式及呈现方式的推广。针对第一个问题,MapR将该规定的数据谱系流式化,数据流成为了一个记录系统——一个无穷尽而又不可随意更改的数据交换记录日志。

针对后一问题,我们通过一个例子来了解。一个病人的记录有可能被不同的用户,例如制药公司、医院、诊所、医生等以文件或图表形式呈现或以检索等方式使用。通过把即时数据变化通过数据流的形式处理成MapR-DB HBase、MapR-DB JSON文件、图表,并录入搜索数据库中。此外,通过应用MapR数据整合平台的服务,Liaison可以保护所有的数据,避免冗余数据和安全需求累积,而这是对备选方案的基本要求。

基因处理

Novartis团队采用Hadoop 和Apache Spark打造了一个工作流系统。这个系统为NGS(Next Generation Sequencing)研究整合、处理、分析各种类型的数据。

随着科技的发展,普通硬件无论是存储性能还是快速处理大数据的能力都大幅提升。随着通过捕获、共享、存储大量电子医疗服务数据和交易等技术的成熟,医疗服务行业正逐步变革,不断提高产出并降低花销。

原文选自:CONVERGE blog

作者:Carol McDonald

编译:数据观

译者:荆宏达 王楠 赵杏 高雅 邹小武 陈欢

校对:黄思思

注:本文系数据观编译稿件,转载请注明来源、作者及本文链接。数据观微信公众号(ID:cbdioreview) ,欲了解更多大数据行业相关资讯,可搜索数据观(中国大数据产业观察网www.cbdio.com)进入查看。

…看了又看…

医疗健康大数据如何发展、应用?专家详解

点击上方“健康中国”可以订阅哦

如何理解《促进和规范健康医疗大数据应用发展的指导意见》(以下简称“指导意见”),以及该政策对健康医疗领域所将产生的重要影响,《医学界》就热点话题采访了国家信息中心专家委员会副主任宁家骏教授。

请您介绍文件出台的背景及其意义?

宁家骏教授:这一文件是贯彻落实《国务院关于积极推进“互联网+”行动的指导意见》(国发40号)和《国务院关于印发“大数据发展行动纲要”的通知》(国发50号文件)的一个重要步骤,或者说是其重要组成部分。不久前,大数据部际联席会议还通过了《促进大数据行动纲要》的三年计划,并将医疗健康大数据应用作为今后三年的重要工作和突破点。大家都知道,医疗健康领域所包含的数据是非常巨大的,其应用也具有重要意义。在此背景下,国家卫计委推出该文件,应该说符合贯彻国家“十三五”期间推进大数据发展的要求,是一个重大战略和突破点,既关系民生、满足群众健康切身需求,又促进相关产业发展。

据悉文件包括夯实应用基础、全面深化应用、规范和推动“互联网+健康医疗”服务以及加强保障体系建设四大方面。请问国家将如何推动医学大数据的应用?在法律法规上如何保障体系建设呢?

宁家骏教授:可以说,人体是最复杂的系统,对健康的管理也是最复杂的工程,这项工作需要有海量、精准合不断变化的大数据的支持。近年来,伴随着国家经济实力的提高,我国医院的硬件设施有了很大的改善。很多医院都建立了现代化的临床信息管理系统,而且投入很大。但是,现在最主要的问题是每个医院都是自己在推动,导致信息孤岛的形成,造成重复诊断、重复检查等医疗资源的浪费,检查结果和信息利用率较低。所以发展大数据是利国利民的一件大事。具体而言,我们希望从公共卫生到医疗服务,包括医疗保障、药品供应和计划生育等全环节的数据很好地整合起来。这是该文件对医疗健康大数据应用指出了非常重要明确的方向。

谈到法律法规的问题,《行动纲要》已把大数据的相关立法和制度建设工作作为非常重要的环节。就医疗健康大数据来说,对涉及个人诸如基因库、疾病谱等高度敏感的信息是国家的重要资源,有必要通过立法来加强保护。考虑到立法周期比较长,所以目前国家还是首先利用好现有法律,如民法对隐私的保护要求等。同时,国家也鼓励地方政府部门的试点和创新。我认为,我们能够通过这些工作来做好数据保护。

从文件中我们看出政府大力推进医疗健康大数据的应用和资源整合,那么未来政府将有哪些资金上的支持?

宁家骏教授:在“十二五”期间,国家已重视医疗数据的整合,从中央层面开始做顶层设计推进信息共享。国家卫计委也从“十二五”就开始启动了“全民健康信息化工程”建设,计划在前期先行投入4亿多元人民币,进行建设。今后在“十三五”期间,还将动员更多的投资来做这方面的工作。当然除了政府投入,还要引入更多的社会资金投入这项重要领域的建设。

尽管目前推动不同的医疗机构间的信息贯通、共享存在一定难度,但是从技术层面来说,这实际上不成为障碍。近几年国家卫计委一直在做标准化建设,包括电子健康档案和电子病例,实下发了部标和国标。

我个人的观点是,推动信息共享是各利益群体的认识问题,关键在人。

互联网+健康服务将有哪些具体项目呢?

宁家骏教授:目前从各省已经或正在申报一些项目来看,“互联网+健康医疗”的项目不少,因为这些应用是互联网+健康服务的重要组成部分。按照审批程序,已有一些项目获得国家专项基金。

我认为,互联网+健康医疗的项目要分为两个层次。一个层面属于公益性/基础性的服务,要以政府为主导;另一个层面是增值务,须以市场为主导,政府做好监管和适当引导,以满足不同层次人民群众的需求。但总的来说,推动互联网+健康医疗,更重要的是利用互联网平台途径和思维,把过去传统的服务做好转型升级,真正地实现资源共享,更好推动信息共享、信息的汇聚。

作者:张凌

什么是健康医疗大数据

健康数据“多跑路” 人民群众“少跑腿”

华讯网7月4日电 国务院办公厅日前印发《关于促进和规范健康医疗大数据应用发展的指导意见》。什么是健康医疗大数据?健康大数据对医疗服务和百姓生活将产生哪些影响?就以上话题采访了相关部门负责同志和有关专家。

国家卫计委副主任金小桃介绍,健康医疗大数据涵盖人的全生命周期,既包括个人健康,又涉及医药服务、疾病防控、健康保障和食品安全、养生保健等多方面数据的汇聚和聚合。“让健康数据‘多跑路’,让人民群众‘少跑腿’。大数据有助于提供更加优质的健康医疗卫生服务。互联网健康咨询、预约就诊、诊间结算、医保联网异地结算、移动支付等,都给老百姓带来了更加便捷的应用服务。”

指导意见提出,要夯实健康医疗大数据应用基础。实施全民健康保障信息化工程,全面建成统一权威、互联互通的人口健康信息平台,消除数据壁垒,畅通共享通道。中国工程院院士、浙江大学附属第一医院李兰娟认为,未来以大数据为基础的全新医疗云计算模式和以家庭为云终端的健康服务将贯穿家庭、社区和医院,推动医学取得突破,帮助百姓获得实惠。目前,部分医改试点省份开展了医学检验检查结果互认共享的探索,这意味着在确保医疗质量的前提下避免不必要的重复检查,缓解“看病难、看病贵”问题。“《意见》的出台对国家医疗卫生的改革与发展,尤其是对每个人的健康管理将起到巨大的推动作用”。

国家卫生计生委医药卫生科技发展研究中心副主任代涛表示,国家要大力加强基础设施、资源目录、标准规范的建设,才能实现共建共享、互联互通。“光靠政府推动是不够的,必须要通过重要领域推广应用,形成示范带动,要让大家看到大数据是如何提高医疗服务效率和降低成本,是如何为临床决策提供支持系统的,是如何为政府决策提供事实产生的支持数据,然后才是组织实施”。

从尚未出生的胎儿到新生儿检查、定期体检,直至临终关怀,人生中所有的医疗健康数据都被存储记录下来,为医生的诊断提供参考——大数据让覆盖全生命周期的健康服务成为可能。

“如果能够把群众就医的数字医学足迹完整准确地记录下来,有利于构建一个预防、治疗、康复和自我保健管理一体化的电子云服务。小病在社区就能解决问题,一些疑难重症可以通过远程医疗方式分级诊疗。”国家卫生计生委规划信息司副司长张锋描述了大数据在健康领域的应用模式。

“利用大数据,将各种健康数据、各种生命体征的指标,集合在每个人的数据库和电子健康档案中,然后再通过可穿戴设备,及时监控血压、心率等方面的生命体征指标,及时作出健康提醒。通过大数据分析应用,推动覆盖全生命周期的预防、治疗、康复和健康管理的一体化健康服务,这是未来健康服务管理的新趋势。”金小桃介绍。

如何加强医疗大数据背景下的隐私保护,也是公众关注的话题。此次《意见》提出,促进和规范大数据应用,一方面要推进网络可信体系建设,包括强化健康医疗数字身份管理,建设全国统一标识的医疗卫生人员和医疗卫生机构可信医学数字身份、电子实名认证等。另一方面是加强健康医疗数据安全保障,开展大数据平台及服务商的可靠性、可控性和安全性评测以及应用的安全性评测和风险评估。

国家信息中心专家委员会副主任宁家骏认为,大数据安全是国家《促进大数据行动发展纲要》的安全保障重要组成环节,今后除了做好相应保障之外,大数据的开发应用要实现个体数据的“脱敏”,在应用和研究时只能看到群体差异化特征,阻止对个体化信息的开发使用。

备案号:赣ICP备2022005379号
华网(http://www.hbsztv.com) 版权所有未经同意不得复制或镜像

QQ:51985809邮箱:51985809@qq.com