2024第六届智慧医院建设与发展大会投稿论文
基于区块链和隐私计算的多中心临床研究平台探索与实践
【摘 要】
【关键词】
近年来,随着国内外真实世界研究相关政策和指导原则的相继出台,国际上陆续出现了结合真实世界研究的新药研发案例,国内也在积极推动疾病多中心研究平台和网络,以加强高质量研究的产出。然而现状是多中心科研依然面临诸多挑战,具体表现为:缺少高质量数据,多源异构数据完整性和正确性很难被保证;数据标准不统一,数据医学含义认知不统一,很难实现跨多中心的数据对齐;数据共享难,伦理审批耗时长,医院信息主管部门抽取数据成本高,数据管控难,因担忧数据安全而终止和停滞的多中心研究不在少数。同时,政府从法律层面在网络安全、数据安全、个人信息保护等方面逐步加大立法和执法力度,这也加重了多中心研究中“不敢共享”的问题。但国内对多中心研究数据共享的安全和可信机制的还缺少有价值的尝试和探索。为此,上海市肺科医院进行了尝试,通过梳理多中心科研中的数据共享场景和痛点,探索区块链和隐私计算技术在提升数据共享中的安全和可信价值,设计基于区块链和隐私计算的多中心科研平台,为多中心研究中数据孤岛问题提供建设参考和建议。
一、现状与问题
1.1多中心科研数据共享现状与问题
多中心研究已经逐步成为现阶段临床研究的趋势[1],其主要的优势在于:可以在较短的时间内招募到更大量的受试者;对受试者的选取方面也选择性更多,可以选择更具代表性的样本,避免结果可信度较低,泛化能力较差等问题[2]。然而,更大规模数据和更多参与方加入对于单家医院数据治理、伦理审批、数据安全管理、研究成果分摊等都带来了不小的挑战,分析其根本原因还是围绕在数据共享过程的前、中、后而发生的。
1.1.1数据共享成本高
不同地域、级别医院在信息系统的选型和建设上存在一定差异,导致医院数据在元信息层面上就存在巨大的差异[3]。在医院内部已有一些依赖大数据中台建设的专病数据库产品,用以支撑单中心临床研究。在多中心场景下,现有的临床研究为了保证各方数据结构的一致,主要是以CRF收集数据,手工抽取、脱敏、录入、上传到集中化平台,这些过程均消耗巨大的人力成本,且数据准确性、完整性很难得到质控和追溯。
1.1.2数据共享意愿差
在科研数据上传到部署在主中心或者第三方云环境的集中化科研平台后,数据权属开始模糊;共享后数据价值复用也缺少健全的控制能力;缺少比较客观的数据价值衡量机制等问题都一定程度上导致医院间数据共享的意愿较差。
1.1.3数据共享风险高
随着我国对个人健康医疗数据隐私安全保护的基本制度框架完成[4],相较有限边界的美国模式[5]和全保护的欧洲模式[6],患者医疗数据隐私边界的模糊问题给数据脱敏带来了一定难度[7]。尤其是基因组学数据经过脱敏往往已不具备分析价值。此外,脱敏后数据结合外部关联信息也会产生泄露的风险。
1.2区块链和隐私计算现状分析
1.2.1 区块链技术现状
区块链本质上是一种分布式账本,其具有防篡改、可溯源、去中心化等特性,在医疗健康领域的应用较为广泛[9][10],比较常见的是:处方追踪、互联网医疗数据共享、以患者为中心的数据共享、健康档案共享、保险核保与理赔等场景[11]。但因其技术的局限性导致区块链数据存储可扩展性较差、因数据公开和溯源诉求导致其在隐私保护方面也存在一定挑战[12]。按照参与区块链的不同形式将区块链分为三类:公有链、联盟链、私有链。公有链的参与方加入无需授权和认证;联盟链的参与方加入需要经过一定的授权和认证,一般适用于多家不同的机构和数据主体场景,链上数据的读取和写入也需要在给定的授权情况下完成;私有链则更适合机构内部场景。因此,由于多中心研究中会涉及到多家医疗机构,所以采用联盟链模式更为合适[8]。
1.2.2 隐私计算技术现状
隐私计算又称隐私增强计算,现阶段主流的隐私计算技术一般是指:基于密码学的多方安全计算(Secure Multi-Party Computation,MPC)技术[13];基于人工智能和隐私保护融合的联邦学习(Federated Learning,FL)技术[14];基于可信硬件的可信执行环境等。
MPC是1982年由姚期智院士提出,解决互不信任的一组参与方联合计算一个特定函数,最终,参与方无法得到除自身输入和计算结果外的任何信息。在多中心研究的场景下,可以通过MPC来实现联合统计分析,以达成各参与方获得统计分析结果[15],同时,原始数据不离开医院的目的。但是,因为MPC网络通信较多,计算较为复杂,导致单纯依靠MPC实现的多中心科研平台多用于理论和概念验证。
联邦学习是由Google在2016年首次提出,后被扩展为解决多数据中心、多机构、多设备等不同数据主体间联合建模和预测。由于法律法规和商业机密的双向诉求,联邦学习在金融、政务、互联网、通信等领域已有不少研究成果,在医疗领域中多中心临床研究场景下,联邦学习已有一些研究成果,但是实际的平台建设还鲜有成效。
二、方案设计
2.1 总架构设计
多中心临床研究涉及的环节较多,除技术层面还包括人员、经费、成果等的管理过程。其中数据共享的安全管理已经不能完全满足以传统的脱敏模式为隐私保护方案。将联盟链作为数据共享中数据和行为可信的保障机制,将隐私计算技术作为原始数据不共享,结果共享诉求的数据安全保护机制。系统整体上为分布式架构见图1,具体分为:平台端、医院端和监管端(可选)。不同主体(端)之间均部署区块链节点,独立存储链上数据,主体与主体之间通过安全信道完成网络通信。其中,平台端部署在主中心或者第三方的云平台;医院端部署在所有中心;监管端部署在监管机构指定的环境。
图1 多中心科研平台总体分布式架构
2.2 平台端设计
平台端系统交互层面支持在线一站式的科研分析能力,包括:进行人群筛选圈定研究对象;指标的自动计算加速选取研究指标;研究数据批量预处理;多种统计分析方法并辅助解读分析结果;常用模型训练和预测等能力。除此之外,还支持按照数据规模、质量和联邦贡献度分析其贡献价值的激励分配模块。
在调度层面包括MPC和FL调度模块,主要用于联合统计分析和联合建模任务接收、拆解、预处理、以及优先级的调度。对于多方安全计算调度过程考虑到多方安全计算技术本身资源成本较大,因此,由本地计算与多方安全计算组合的通用计算模式来完成联合统计分析,会将大量的计算在本地完成。从而,降低MPC的计算和通信成本,提高性能和实时响应能力。具体流程如图2。
at the movement control level includes MPC and FL movement control modules, which are mainly used for joint statistical analysis and joint modelling missions to receive, dismantle, pre-process, and priority movements. Multi-Secure calculation processes take into account multi-Secure computing techniques in their own resource costs, so that a generic calculation model of the multi-Scope computing combination by local calculations and multiple-Scope computing combinations will complete the joint statistical analysis in large numbers of cases locally. This will reduce MPC computing and communication costs and improve performance and real-time responsiveness.
图2 通用计算模式
2.3 医院端设计
医院端主要支撑多中心科研过程中数据接入、数据标准化治理、数据抽取、以及隐私计算能力等。架构设计上按照由下至上分为:基础设施层、基础支撑层、可信流通层、数据处理与共享层、数据展现层、用户层共六个层级进行展开,如图3。其中,可信流通层为区块链处理逻辑,主要包括上链逻辑单元和溯源逻辑单元,支撑多中心研究过程中数据处理全过程的数据和行为上链以及关键节点的溯源能力。
图3 医院端系统架构图
2.3.1数据接入与处理
该层主要解决数据接入,数据处理,数据共享三个主要问题。异构数据接入实现了不同信息化厂商系统数据库中数据从前置机以只读库的方式实时接入到医院端服务。考虑到不同医院信息化能力的差距,对于未进行全院数据接入或者专病数据接入的医院提供数据导入平台,其支持手动和批量的CRF导入能力。
数据处理阶段,各医院采用相同的标准进行数据治理和数据质控,以保证后续的多中心科研在数据的格式、单位、医学意义层面一致。数据处理后按照科研项目的诉求抽取数据进入多中心专病数据集中。其中,数据传统的数据脱敏过程可以按需作用在数据接入、数据治理、数据抽取中的任何一个阶段。
2.3.2 数据共享
数据共享阶段主要围绕多方安全计算引擎、联邦学习引擎、查询溯源引擎以及多中心专病数据集开展,不同医院的三种引擎均可以互相通信。其中,多方安全计算引擎传递的是秘密分享后的密文数据,各医院之间无法彼此解密密文数据,所有参与方利用自己得到的密文数据可以计算出预先设定好的统计结果密文形式,最终按照任务发起方对结果流向的约束可以指定最后恢复计算结果的医院;联邦学习引擎传递的是机器学习过程中的模型梯度(或权重)无原始数据传输,最终建立统一的模型并提供预测;查询溯源引擎传输的信息为联盟链不同节点交互的账本数据,该部分数据是采用签名算法签名后的摘要数据和区块链本身的链式数据,无原始数据传输。所有进行外部数据交换的模块都经过必要的安全网关和数据审计。
2.4 可信流通设计
多中心科研过程中涉及到大量的用户行为和科研数据交换的发生。通过抽象出数据可信流通层,来承载所有需要和区块链交互的模块。区块链将主要对数据和行为进行上链,为了保证原始数据的隐私同时结合区块链数据存储扩展性相对较差等问题,系统将数据和行为进行签名上链,上链的数据格式例如表1。
表1 数据上链格式
采用此种方式既可以节省大量的存储空间,在非数据提供方的场地中单纯根据签名后的上链信息又无法恢复原始数据可以保证数据的安全性。可信流通层除包括区块链基本的接口外还基于智能合约实现了4组常用的业务接口,包括:医疗数据上链/查询接口;数据加工行为上链/查询接口;调阅行为数据上链/查询接口;授权行为数据上链/查询接口。支撑多中心科研过程中原始数据、中间数据、抽取行为、多中心科研数据、多中心科研行为的上链,以及多中心科研过程的溯源。以联邦学习为例,可信数据流通层交互的业务逻辑如图4(其中红色标记为交互核心步骤)
图4 可信流通交互流程图
三、应用前景
四、结语
参考文献
2024第五届公立医院后勤建设与管理大会报名 | 智医讲堂交流互动群 |
版权说明
本公众号原创及转载文章、图片、视频等(包括),版权归原作/译者所有,如您对文章、图片、视频有权利要求,可留言或通过邮箱、电话与智医讯联系,我们将及时回复。原创文章除特别声明外,欢迎非商业转载,敬请注明出处。
邮箱:zhyxun@yeah.net
微信 18801345167
电话:010-88956990
扫码关注
公众号 视频号 智医讲堂
(可观看回放)
注册有任何问题请添加 微信:MVIP619 拉你进入群
打开微信扫一扫
添加客服
进入交流群
发表评论