基于区块链和隐私计算的多中心临床研究平台探索与实践

资讯 2024-06-19 阅读:255 评论:0

2024第六届智慧医院建设与发展大会投稿论文基于区块链和隐私计算的多中心临床研究平台探索与实践朱垚琦周佳高俊陈嘉旖上海市肺科医院【摘要】strung ˂strong style="font-family: #, &quat...

美化布局示例

欧易(OKX)最新版本

【遇到注册下载问题请加文章最下面的客服微信】永久享受返佣20%手续费！

APP下载全球官网大陆官网

币安(Binance)最新版本

币安交易所app【遇到注册下载问题请加文章最下面的客服微信】永久享受返佣20%手续费！

APP下载官网地址

火币HTX最新版本

火币老牌交易所【遇到注册下载问题请加文章最下面的客服微信】永久享受返佣20%手续费！

APP下载官网地址

2024第六届智慧医院建设与发展大会投稿论文

基于区块链和隐私计算的多中心临床研究平台探索与实践

朱垚琦周佳高俊陈嘉旖

上海市肺科医院

【摘要】

探索多中心科研平台架构模式，提高科研数据共享和流通的安全性和可信性，提升医院临床研究数据安全管理水平。分析多中心临床研究中的数据共享场景及痛点，挖掘区块链和隐私计算技术对科研数据共享的价值，设计基于区块链和隐私计算技术的多中心临床研究平台，提供数据确权、追溯机制，数据不出院条件下完成联合分析与建模。通过引入区块链和隐私计算技术可有效降低数据共享过程中的泄露和滥用风险，降低试错成本，提升多中心科研的效率。结论以区块链和隐私计算为技术组件综合设计的多中心科研平台，可以很好的解决医院间的数据孤岛问题，为多中心医学研究提供极大的便利，具有广泛的应用前景。

【关键词】

多中心临床研究数据共享区块链隐私计算

【引言】

近年来，随着国内外真实世界研究相关政策和指导原则的相继出台，国际上陆续出现了结合真实世界研究的新药研发案例，国内也在积极推动疾病多中心研究平台和网络，以加强高质量研究的产出。然而现状是多中心科研依然面临诸多挑战，具体表现为：缺少高质量数据，多源异构数据完整性和正确性很难被保证；数据标准不统一，数据医学含义认知不统一，很难实现跨多中心的数据对齐；数据共享难，伦理审批耗时长，医院信息主管部门抽取数据成本高，数据管控难，因担忧数据安全而终止和停滞的多中心研究不在少数。同时，政府从法律层面在网络安全、数据安全、个人信息保护等方面逐步加大立法和执法力度，这也加重了多中心研究中“不敢共享”的问题。但国内对多中心研究数据共享的安全和可信机制的还缺少有价值的尝试和探索。为此，上海市肺科医院进行了尝试，通过梳理多中心科研中的数据共享场景和痛点，探索区块链和隐私计算技术在提升数据共享中的安全和可信价值，设计基于区块链和隐私计算的多中心科研平台，为多中心研究中数据孤岛问题提供建设参考和建议。

一、现状与问题

1.1多中心科研数据共享现状与问题

多中心研究已经逐步成为现阶段临床研究的趋势^[1]，其主要的优势在于：可以在较短的时间内招募到更大量的受试者；对受试者的选取方面也选择性更多，可以选择更具代表性的样本，避免结果可信度较低，泛化能力较差等问题^[2]。然而，更大规模数据和更多参与方加入对于单家医院数据治理、伦理审批、数据安全管理、研究成果分摊等都带来了不小的挑战，分析其根本原因还是围绕在数据共享过程的前、中、后而发生的。

1.1.1数据共享成本高

不同地域、级别医院在信息系统的选型和建设上存在一定差异，导致医院数据在元信息层面上就存在巨大的差异^[3]。在医院内部已有一些依赖大数据中台建设的专病数据库产品，用以支撑单中心临床研究。在多中心场景下，现有的临床研究为了保证各方数据结构的一致，主要是以CRF收集数据，手工抽取、脱敏、录入、上传到集中化平台，这些过程均消耗巨大的人力成本，且数据准确性、完整性很难得到质控和追溯。

1.1.2数据共享意愿差

在科研数据上传到部署在主中心或者第三方云环境的集中化科研平台后，数据权属开始模糊；共享后数据价值复用也缺少健全的控制能力；缺少比较客观的数据价值衡量机制等问题都一定程度上导致医院间数据共享的意愿较差。

1.1.3数据共享风险高

随着我国对个人健康医疗数据隐私安全保护的基本制度框架完成^[4]，相较有限边界的美国模式^[5]和全保护的欧洲模式^[6]，患者医疗数据隐私边界的模糊问题给数据脱敏带来了一定难度^[7]。尤其是基因组学数据经过脱敏往往已不具备分析价值。此外，脱敏后数据结合外部关联信息也会产生泄露的风险。

1.2区块链和隐私计算现状分析

1.2.1 区块链技术现状

区块链本质上是一种分布式账本，其具有防篡改、可溯源、去中心化等特性，在医疗健康领域的应用较为广泛^[9][10]，比较常见的是：处方追踪、互联网医疗数据共享、以患者为中心的数据共享、健康档案共享、保险核保与理赔等场景^[11]。但因其技术的局限性导致区块链数据存储可扩展性较差、因数据公开和溯源诉求导致其在隐私保护方面也存在一定挑战^[12]。按照参与区块链的不同形式将区块链分为三类：公有链、联盟链、私有链。公有链的参与方加入无需授权和认证；联盟链的参与方加入需要经过一定的授权和认证，一般适用于多家不同的机构和数据主体场景，链上数据的读取和写入也需要在给定的授权情况下完成；私有链则更适合机构内部场景。因此，由于多中心研究中会涉及到多家医疗机构，所以采用联盟链模式更为合适^[8]。

1.2.2 隐私计算技术现状

隐私计算又称隐私增强计算，现阶段主流的隐私计算技术一般是指：基于密码学的多方安全计算（Secure Multi-Party Computation，MPC）技术^[13]；基于人工智能和隐私保护融合的联邦学习（Federated Learning，FL）技术^[14]；基于可信硬件的可信执行环境等。

MPC是1982年由姚期智院士提出，解决互不信任的一组参与方联合计算一个特定函数，最终，参与方无法得到除自身输入和计算结果外的任何信息。在多中心研究的场景下，可以通过MPC来实现联合统计分析，以达成各参与方获得统计分析结果^[15]，同时，原始数据不离开医院的目的。但是，因为MPC网络通信较多，计算较为复杂，导致单纯依靠MPC实现的多中心科研平台多用于理论和概念验证。

联邦学习是由Google在2016年首次提出，后被扩展为解决多数据中心、多机构、多设备等不同数据主体间联合建模和预测。由于法律法规和商业机密的双向诉求，联邦学习在金融、政务、互联网、通信等领域已有不少研究成果，在医疗领域中多中心临床研究场景下，联邦学习已有一些研究成果，但是实际的平台建设还鲜有成效。

二、方案设计

2.1 总架构设计

多中心临床研究涉及的环节较多，除技术层面还包括人员、经费、成果等的管理过程。其中数据共享的安全管理已经不能完全满足以传统的脱敏模式为隐私保护方案。将联盟链作为数据共享中数据和行为可信的保障机制，将隐私计算技术作为原始数据不共享，结果共享诉求的数据安全保护机制。系统整体上为分布式架构见图1，具体分为：平台端、医院端和监管端（可选）。不同主体（端）之间均部署区块链节点，独立存储链上数据，主体与主体之间通过安全信道完成网络通信。其中，平台端部署在主中心或者第三方的云平台；医院端部署在所有中心；监管端部署在监管机构指定的环境。

图1 多中心科研平台总体分布式架构

2.2 平台端设计

平台端系统交互层面支持在线一站式的科研分析能力，包括：进行人群筛选圈定研究对象；指标的自动计算加速选取研究指标；研究数据批量预处理；多种统计分析方法并辅助解读分析结果；常用模型训练和预测等能力。除此之外，还支持按照数据规模、质量和联邦贡献度分析其贡献价值的激励分配模块。

在调度层面包括MPC和FL调度模块，主要用于联合统计分析和联合建模任务接收、拆解、预处理、以及优先级的调度。对于多方安全计算调度过程考虑到多方安全计算技术本身资源成本较大，因此，由本地计算与多方安全计算组合的通用计算模式来完成联合统计分析，会将大量的计算在本地完成。从而，降低MPC的计算和通信成本，提高性能和实时响应能力。具体流程如图2。

at the movement control level includes MPC and FL movement control modules, which are mainly used for joint statistical analysis and joint modelling missions to receive, dismantle, pre-process, and priority movements. Multi-Secure calculation processes take into account multi-Secure computing techniques in their own resource costs, so that a generic calculation model of the multi-Scope computing combination by local calculations and multiple-Scope computing combinations will complete the joint statistical analysis in large numbers of cases locally. This will reduce MPC computing and communication costs and improve performance and real-time responsiveness.

图2 通用计算模式

2.3 医院端设计

医院端主要支撑多中心科研过程中数据接入、数据标准化治理、数据抽取、以及隐私计算能力等。架构设计上按照由下至上分为：基础设施层、基础支撑层、可信流通层、数据处理与共享层、数据展现层、用户层共六个层级进行展开，如图3。其中，可信流通层为区块链处理逻辑，主要包括上链逻辑单元和溯源逻辑单元，支撑多中心研究过程中数据处理全过程的数据和行为上链以及关键节点的溯源能力。

图3 医院端系统架构图

2.3.1数据接入与处理

该层主要解决数据接入，数据处理，数据共享三个主要问题。异构数据接入实现了不同信息化厂商系统数据库中数据从前置机以只读库的方式实时接入到医院端服务。考虑到不同医院信息化能力的差距，对于未进行全院数据接入或者专病数据接入的医院提供数据导入平台，其支持手动和批量的CRF导入能力。

数据处理阶段，各医院采用相同的标准进行数据治理和数据质控，以保证后续的多中心科研在数据的格式、单位、医学意义层面一致。数据处理后按照科研项目的诉求抽取数据进入多中心专病数据集中。其中，数据传统的数据脱敏过程可以按需作用在数据接入、数据治理、数据抽取中的任何一个阶段。

2.3.2 数据共享

数据共享阶段主要围绕多方安全计算引擎、联邦学习引擎、查询溯源引擎以及多中心专病数据集开展，不同医院的三种引擎均可以互相通信。其中，多方安全计算引擎传递的是秘密分享后的密文数据，各医院之间无法彼此解密密文数据，所有参与方利用自己得到的密文数据可以计算出预先设定好的统计结果密文形式，最终按照任务发起方对结果流向的约束可以指定最后恢复计算结果的医院；联邦学习引擎传递的是机器学习过程中的模型梯度（或权重）无原始数据传输，最终建立统一的模型并提供预测；查询溯源引擎传输的信息为联盟链不同节点交互的账本数据，该部分数据是采用签名算法签名后的摘要数据和区块链本身的链式数据，无原始数据传输。所有进行外部数据交换的模块都经过必要的安全网关和数据审计。

2.4 可信流通设计

多中心科研过程中涉及到大量的用户行为和科研数据交换的发生。通过抽象出数据可信流通层，来承载所有需要和区块链交互的模块。区块链将主要对数据和行为进行上链，为了保证原始数据的隐私同时结合区块链数据存储扩展性相对较差等问题，系统将数据和行为进行签名上链，上链的数据格式例如表1。

表1 数据上链格式

采用此种方式既可以节省大量的存储空间，在非数据提供方的场地中单纯根据签名后的上链信息又无法恢复原始数据可以保证数据的安全性。可信流通层除包括区块链基本的接口外还基于智能合约实现了4组常用的业务接口，包括：医疗数据上链/查询接口；数据加工行为上链/查询接口；调阅行为数据上链/查询接口；授权行为数据上链/查询接口。支撑多中心科研过程中原始数据、中间数据、抽取行为、多中心科研数据、多中心科研行为的上链，以及多中心科研过程的溯源。以联邦学习为例，可信数据流通层交互的业务逻辑如图4（其中红色标记为交互核心步骤）

图4 可信流通交互流程图

三、应用前景

区块链以其技术的特性可以很好的解决数据共享过程的可信问题。该能力在其他领域已经进行了充分的验证和实践。以多方安全计算和联邦学习为技术路线的隐私计算技术亦是现阶段打破机构间数据孤岛，保护数据安全同时创造数据价值的常用解决方案。本文主要将这两项创新技术与多中心临床科研的场景加以结合探索出一套解决方案。方案更好的解决了传统以集中式数据汇交模式开展多中心临床科研过程中遇到的诸多问题。同时又在数据共享的可信性和安全性方面更好的响应了国家对数据安全和隐私保护的政策。因此，在逐步严苛的数据安全和个人信息保护法规约束条件下，该方案在解决多中心临床研究系统建设方面将有更大的借鉴和应用前景。

四、结语

随着国家对多中心临床科研的重视和政策的倾斜，医院间乃至跨境的多中心临床研究必将得到更为广泛的发展。国家临床研究中心和区域临床研究中心的建设计划也将加速多中心临床科研平台的建设进程。医疗数据作为国家的重要战略资源，在数据安全和隐私保护方面的法律法规逐步落地的当下，医疗数据共享方案大多处于探索阶段，缺乏数据共享的相关标准和指导办法，相信以后会逐步完善。本文的研究内容仍存在一定的局限，未来将从三个方面开展工作：一是，重视数据的资产管理和分级分类，对需要脱敏的数据进行精细化脱敏；二是，建设和完善数据共享安全管理机制；三是，在数据生命周期管理方面进行更为完整的管控，更好的为多中心临床研究发展提供信息技术和管理的支撑。

参考文献

[1] 曾宪涛, 李宾, 吕军,等. 全球临床研究的现状分析及趋势展望[J]. 中国循证心血管医学杂志, 2017, 9(12):6.

[2] 李娌, 魏玉萍, 钱芳桥,等. 加强多中心临床研究的组织管理水平促进多中心临床研究质量提高[C]// 全国医学科研管理论坛暨江苏省医学科研管理学术年会. 2011.

[3] 戴明锋, 孟群. 医疗健康大数据挖掘和分析面临的机遇与挑战[J]. 中国卫生信息管理杂志 , 2017, 14(2): 126-130.

[4] 方安, 王茜, 王蕾,等. 我国患者医疗数据隐私保护制度体系及其现实挑战[J]. 医学信息学杂志, 2020, 41(5):7.

[5] Kels C G . HIPAA in the Era of Data Sharing[J]. JAMA The Journal of the American Medical Association, 2020, 323(5):476.

[6] WN Price, Cohen I G . Privacy in the age of medical big data[J]. Nature Medicine, 2019, 25(1):37-43.

[7] 关健. 法律框架下构建医学科学数据共享机制和保障体系[J]. 中国科技资源导刊, 2020, 52(2):7.

[8] 周正强, 陈玉玲, 李涛,等. 基于联盟链的医疗数据安全共享方案[J]. 应用科学学报, 2021.

[9] 彭坤, 冷金昌, 孙晓玮,等. 区块链技术在医疗领域的应用展望[J]. 中国卫生信息管理杂志, 2018, 15(3):5.

[10] Narikimilli N, Kumar A, Antu A D, et al. Blockchain Applications in Healthcare – A Review and Future Perspective[J]. Springer, Cham, 2020.

[11] 卫荣, 钱步月, 兰欣,等. 基于区块链技术的区域医疗数据安全共享问题研究[J]. 中国卫生信息管理杂志, 2020, 17(2):6.

[12] Angraal S, Krumholz H M, Schulz W L. Blockchain Technology: Applications in Health Care[J]. Circulation Cardiovascular Quality and Outcomes, 2017, 10(9):e003800.

[13] Goldreich O. Secure Multi-Party Computation[J]. Chapman & Hall/CRC.

[14] Warnat-Herresthal S, Schultze H, Shastry K L, et al. Swarm Learning for decentralized and confidential clinical machine learning[J]. Nature, 2021, 594(7862).

[15] Tso R, Alelaiwi A, Rahman S M, et al. Privacy-Preserving Data Communication Through Secure Multi-Party Computation in Healthcare Sensor Cloud[J]. Journal of Signal Processing Systems, 2016.