当前位置 | 首页 | 行业资讯 | 观点

基于多数据池的心电分类分散学习方法的介绍与比较

2023-10-27 14:49:49 210

人工智能和机器学习在各种场景中都带来了突出而壮观的创新。然而，由于隐私问题和严格的法律规定，在医学上的应用可能具有挑战性。集中知识而不是数据的方法可以解决这个问题。在这项工作中，6种不同的分散机器学习算法应用于12导联心电图分类，并与传统的集中式机器学习进行了比较。结果表明，与标准的中心模型(- 0.054 AUROC)相比，最先进的联邦学习导致分类性能的合理损失，同时提供显着更高的隐私水平。提出的联邦学习的加权变体(?0.049 AUROC)和集成(?0.035 AUROC)优于标准联邦学习算法。总体而言，考虑到多个指标，新的批处理顺序学习方案表现最佳(AUROC至基线为- 0.036)。尽管在现实世界应用中实现它们的技术方面需要仔细考虑，但所描述的算法构成了在医学中保存人工智能的前进道路。

人工智能(AI)，特别是机器学习(ML)及其推进的深度学习领域，在放射病理学[1]、基因组学[2]、损伤风险评估[3]、疾病预后[4,5]等各个医学领域带来了突出而壮观的创新。人工智能应用预计将在未来的日常医学中发挥越来越大的作用，基于(a)与最先进的技术相比，更先进的工艺对患者的效果更好，(b)在成本、时间和/或资源方面更便宜的非劣质工艺。

在机器学习领域存在着各种各样的技术，目前以人工神经网络(ann)为主导。最近，He等人在2016年[6]引入残差神经网络，彻底改变了这一领域。残差模型在许多领域显示出惊人的结果，通常优于其他架构。在2020年的心脏病学计算/物理网络挑战赛[7]中，10个[8,9,10,11,12,13,14,15,16,17]中表现最好的参赛团队中有9个使用了某种类型的剩余网络或跳过连接。无论选择何种技术或架构，所有人工智能算法都有一个共同点:对数据的需求。数据可用性和模型质武汉有哪些大学 量之间的相关性已被文献记载[18,19,20]，现在已被研究界广泛接受。最近，文献似乎发生了转变，更多地关注人工智能的数据方面。2022年，人工智能先驱吴恩达(Andrew Ng)分享了这一观点，他指出，数据应该是人工智能应用的核心要素，而不是模型本身[21]。

任何数据，特别是健康数据，都必须遵守严格的法律规定。此外，医疗数据通常是在分散的环境中收集的。医院或医科大学等机构从患者那里收集数据用于常规护理应用和/或临床试验和其他研究活动。然而，在这种主要用途范围之外，数据很少用于其他目的(二次使用)，更不用说与其他机构共享了。由于法律规定，与其他机构共享数据通常与数据持有人和所有者的某些风险有关。然而，如果对所有人工智能应用程序应用最高级的隐私保护，则数据的效用将会降低，并且需要承认对临床结果的严重损害。这尤其适用于需要大量数据或数据极其稀少的领域(如罕见疾病)的应用程序。因此，迫切需要平衡数据保护和数据可用性以优化整体结果的方法(“隐私保护AI”)。

通常，临床数据在模型开发之前是匿名的或假名的。然而，多项研究表明，删除明显的识别元素(如姓名、出生日期、地址)不足以保护患者的隐私，因为这些数据集仍然极易受到重新识别攻击[22,23,24,25]。Latanya Sweeney发现，使用出生日期、邮政编码和性别这三个基本准标识符，87%的个体可以成功地重新识别[26]。通过将剩余信息与其他公开可用或泄露的数据进行交叉引用，可以重新识别，这种情况正在不断增加。理论上可以从数据集中删除更多的信息来解决这个问题，但同时，这些数据的效用也会降低。2016年，辛西娅·德沃克(Cynthia Dwork)在“差异隐私研讨会”(Differential Privacy Symposium)上发表了著名的演讲，“去识别数据不是”[27]，恰如其分地总结了实用性与隐私之间的困境。k-匿名[28]和l-多样性[29]的概念允许逐渐删除敏感信息来解决这个问题，但仍然容易受到攻击(例如山东师范大学怎么样 ，偏度或相似性攻击)[30]。

在最近的出版物中已经探索了各种替代方法来集中数据，同时仍然充分保护隐私。然而，有希望的学术思想和实际适用的解决方案之间存在差异。关于这个问题有几个突出的例子:

?同态加密是一种引人注目的技术，它允许对完全加密的数据进行操作，而无需事先解密。Craig Gentry在2009年发表了第一个完全同态加密方案[31]。虽然这项技术无疑是有前途的，但它目前在计算上仍然过于昂贵，无法在大多数临床应用中广泛应用。

?Dwork等人引入了差分隐私[32]，并已在广泛的应用中成功实现[33]。要实现不同的私有，需要对数据库进行转换，以便模糊各个记录，但保留底层统计信息。然而，这种方法可能不适用于小数据集[34,35]。

?产生类似解决方案的另一种方法是生成对抗网络(GANs)的应用[36]，它产生源自原始示例的合成数据样本。这些示例显示相同的统计属性，但不包含真正的私有信息。这种方法已经应用于医疗数据[37,38]。然而，gan在计算上是昂贵的，耗时的，并且它们的输出是出了名的难以验证。

联邦学习(FL)不是试图找到安全的方法来聚合数据，而是旨在集中知识，而无需在中央基础设施中收集数据。该概念由Google研究人员McMahan等人于2015年提出，用于改进其Android操作系统中的输入预测[39]。

FL的核心原则是避免将来自不同参与客户端的数据池化(具有各自数据集的不同参与者在进一步编写中称为节点)到基础设施的中心点。在FL中，数据保存在节点收集数据的安全本地环境中，知识交换仅通过传递模型和模型来实现。这消除了对安全数据传输和存储的需求，这总是伴随着数据泄露的高风险。在其最初的提案[39]中，FL工作流由五个步骤组成:

1）
创建一个中心模型
2）
模型分布到所有节点
3）
该模型仅在客户的基础设施上使用各自的本地数据进行训练
4）
模型参数的变化是安全平均的
5）
用新的参数更新中心模型

重复步骤2-5多次，直到模型收敛。神经网络非常适合这种情况，因为它们由大型权重和偏差矩阵组成，标准的数学运算(如计算平均值)很容易适用。McMahan等人提出对缓冲区中的参数取平均值，以进一步模糊单个节点的贡献[40]。

2020年《自然》杂志的一篇文章调查了在医学中应用联合学习的可能性，并强调了其重要性和潜力[41]。然而，现有的FL方法在不同场景下的应用可能会面临新的挑战。在本文中，我们关注的是一个模拟场景，在这个场景中，学习不是委托给个体患者，而是委托给持有汇总数据集的各种机构。在这种情况下，只有少数数据节点用于训练，而在其原始应用程序中，可能有数百万台Android智能手机可用。此外，不同的节点可能提供相当同质的数据集，因为不仅健康数据提供者的类型不同(医院、研究机构、运动康复中心、老人院等)，而且收集数据的人群也不同(健康受试者、患者、老年人等)。另一个重要方面是数据集大小，因为训练中使用的数据量是机器学习模型性能的一个公认指标。一个尚未探讨的问题是，小型机构对FL网络的贡献是否可能对最终模型的性能产生负面影响。这些考虑提出了一个问题，即在这种情况下，如Rieke等人所描述的那样，对模型的权重进行平均是否真的足够。[41]Sheller等人提出了联邦学习在医学应用中的三种替代方法:联邦学习(federated learning)、机构增量学习(Institutional Incremental learning)和循环机构增量学习(Cyclic Institutional Incremental learning)[42]。在他们的实验中，他们将顺序学习方案与传统的联邦学习方法和集中式机器学习进行了比较。他们发现，在学习过程中对机构进行循环，所取得的结果与传统的联邦学习甚至集中式机器学习相当。然而，这种方法不太稳定。

当前工作的目的是为数据分布在不同来源的场景开发新的分散学习方案。为了模拟一个真实的环境，我们选择了四个不同大小和不同特征的开源心电图(ECG)数据集作为实验中的节点(如第1.4章所述)。将这些学习方案应用于复杂的多标签、多类分类任务中。它们的性能与标准的机器学习方法进行了比较，其中数据是集中的。本研究需要回答的主要问题是:(A)作为一种隐私保护AI的标准联邦学习能否应用于节点较少的医疗数据中? (B)是否存在改进上章所述标准联邦学习算法的方法?

摘要
1 介绍
2 方法
3.结果
4 讨论
5 结论
代码的可用性
参考文献

作者信息
道德声明

搜索
导航

#####

我们使用了2020年Cardiology/Physionet挑战赛提供的数据[7]，其中包括六个公开可用的12导联ECG数据集(CPSC, CPSC- extra, INCART, PTB, PTB- xl, Georgia)。同一机构来源收集的数据集(CPSC和CPSC- extra;合并PTB和PTB- xl)以模拟真实的分布式学习设置，从而得到四个节点的总数:(1)INCART， (2) CPSC， (3) Georgia和(4)PTB(表1)。

表1数据表用于我们分析的四个ECG数据集的描述

这些数据库中的心电图记录在信号长度、采样率、人口统计学性质和类别数量方面是异构的。为了模仿数据较少的小型机构的参与，纳入了与其他集合最不同的INCART集(患者基数n=74)。此外，INCART心电图较长(30分钟)，患者趋于年轻化(平均年龄55.99岁)。总共存在111个由SNOMED代码表示的不同类。每个心电图可以标记为一个或多个类别。在本出版物中，与医学相关的类别被加入或合并到父类别中，形成13个类别，如表2所示。

表2 Co在每个数据源中考虑ECG的类别和发生频率

所有录音重新采样至250 Hz。随后，从每个信号中提取一个10-s序列，为机器学习模型生成统一的数据样本。如果有过多的可用数据，则忽略信号的前5秒。心电数据经带通滤波器(3-30 Hz，巴特沃斯带通，二阶)滤波。

对于这个多类别、多标签的分类任务，我们使用了一个包含5个一维卷积块的深度卷积神经网络，并在分类层之前使用了一个全局平均池化[46]。图1以图形方式总结了模型架构:

图1

模型架构:输入层后面是五个卷积块。每个块由三个具有LeakyReLU激活(α=0.3)的1d -卷积层和一个结束dropout层组成。方括号表示卷积参数:(过滤器，内核大小，步幅)。最后一个块是一个全局平均池化层，然后是LeakyReLU激活(α=0.3)、dropout和批归一化层。最后一个区块是一个完全连通的层，有13个单元具有s型激活，作为分类层

使用二元交叉熵损失函数和Adam优化器对模型进行训练[47]。Kingma等人[47]提出的训练epoch数和学习率衰减在各个方法的描述中进行了描述。所有实现都在Python 3.7.4中执行，建模使用Tensorflow 2.4[48]。

采用了11种不同的学习方案(1个集中式基线，4个节点-个体，6个分散)，总结如表3所示。下面的章节将详细描述每种方法。

表3所有应用的学习方案列表以所有数据集中作为性能参考(B)训练的直线模型，4个单独的模型训练0仅使用4个节点数据集(I1-I4)中的1个，以及6个分散学习方案(M1-M3)。结果是描述提供信息关于每个学习方案的结果。参考文献说明了方案的起源或参考文献中发现的类似算法

2.4.1 B:英航直线集中式模型

基线模型(B)作为控制分类器。对于该模型，所有的训练数据被连接起来，形成一个非分布的最优学习设置。在此汇总的训练数据上，对该模型进行了50次epoch的训练。学习率由Eq. 1衰减，其中初始学习率lr0=0.001，衰减λ=0.2，当前历元数为t。

（1)

2.4.2 I1-I4:单个模型

为四个数据节点中的每个节点训练一个单独的模型，从而产生四个额外的模型(I1: CPSC、I2: Georgia、I3: PTB和I4: INCART)，这些模型以与组合模型相同的方式进行训练，但只使用来自各自节点的训练数据。

2.4.3 M1a:回归集合

从联邦数据源聚合知识的第一种方法是计算来自各个模型I1-I4的所有分类结果的平均值。查询在单个节点上训练的所有模型，对公共测试集进行分类。然后，通过计算每个类别特定回归结果的平均值来确定结果。最后，应用0.5(=50%概率)的阈值从回归值中得出M1a的分类结果。

2.4.4 M1b:加权回归集合

在M1a中，所有四个单独的模型对最终分类的贡献相同。然而，在M1b中，单个回归结果根据两个因素(见Eq. 2)进行加权:(a)它们的训练集大小占总数据集大小的比例(样本大小nm除以所有节点样本大小的总和)和(b)它们的节点内部AUROC性能。

（2）

将AUROC分数内插到[0,1]的范围内，并将最终的权重归一化，使所有四个权重之和等于1。

2.4.5 M2a:节点智能顺序学习

通过将初始未训练的模型一个接一个地暴露于节点的数据，从而依次收集知识，从而训练组合模型。该方法与Sheller等人[42]提出的机构增量学习(Institutional Incremental Learning)方法相当。对于M2a方法，将单个模型按以下顺序发送到所有节点:(1)CSPC， (2) Georgia， (3) INCART， (4) PTB，如图2所示。

图2

节点有序学习方案(M2a):将未训练的模型依次发送到所有节点，每个节点训练50个epoch。每个节点后学习率重置为0.001

首先，初始化模型并将其发送到第一个节点，在该节点中使用该特定节点的数据训练模型。训练完成后，将模型按顺序发送到下一个节点，其中已经部分优化的权值是继续使用下一池数据进行训练的初始条件。在每个节点上，模型训练50个epoch，每个epoch后学习率衰减，如Eq. 1所示。在一个节点上训练后，学习率被重置为0.001的初始值，并按顺序发送到下一个节点。重复这个过程，直到模型在所有节点上都训练完一次。

2.4.6 M2b:分批顺序学习

为了进一步采用顺序学习的思想，我们应用了一种称为批处理顺序学习(Batch-wise sequential learning, M2b)的新方法。与M2a中在一个节点上完全完成训练不同，模型在发送到下一个节点之前，只在随机选择的一个节点的训练数据的小批量上进行训练。这些小批的批大小被设置为节点训练集大小的2%。这意味着在M2b中，每个样本对模型的贡献是相等的(这相当于由更多样本组成的更大节点贡献更多，正如加权方法所实现的那样)。当模型只暴露于每个训练样本一次时，就认为完成了一个epoch。模型共训练了50个epoch，每个epoch后学习率根据Eq. 1衰减。方法M2b如图3所示。

图3

批处理顺序学习方案(M2b):在节点上的小批量上训练未训练的模型，并将其传递到下一个节点，直到所有小批量都被使用(1 epoch)。这个过程总共重复了50个时期

2.4.7 M3a:联邦学习

在M3a中，模型以更新周期进行训练，如图4所示。这些循环中的每一个都重复了第1章中描述的步骤:(1)分发中心模型，(2)在节点处局部训练，(3)平均训练模型的权重，(4)用新参数更新中心模型。然后将步骤4中新更新的模型作为步骤1中的中心模型重新分发，用于下一个更新周期。该方法遵循了联邦学习的原始提议[39]。

图4

联邦学习方案(M3a):第一步，将一个初始的、未经训练的模型分布到所有节点，在这些节点上训练1 epoch，之后对模型的参数进行平均。随后，这个平均模型被重新分发到所有节点，开始一个新的更新周期。执行了其中50个更新周期

完成了50个更新周期。将一个周期的epoch号设置为1。学习率根据Eq. 1衰减，其中t为当前更新周期迭代。

2.4.8 M3b:加权联邦学习

在联邦学习(M3a)的基础上，实现了加权联邦学习(M3b)。根据模型M1b的节点内部性能和数据集大小(如Eq. 2所示)，使用加权平均值计算步骤3中的新参数。

食品科学与工程就业

我们用中心数据集、局部数据集和分散方案来训练模型。在训练期间，各自方案中可供训练的唯一数据提供给各自的模型。为了找出所有这些模型的表现如何，每个模型都应用于一个“全局”测试数据集，其中包含来自10倍交叉验证方案中所有节点的数据。

在每个fold N的训练过程中，每个数据集的90%被应用到各自的学习方案中。根据学习方案的不同，可以根据单个节点的数据进行训练，也可以根据学习方案章节中描述的所有节点的数据进行训练。

虽然根据学习方案使用不同的数据集进行fold N的训练，但fold N中的所有结果模型都使用一个相同的测试集N进行评估。因此，每个数据集中各自10%的数据份额被聚合成一个公共测试数据集N / fold。以下各章描述的所有模型和分散方案都在N折内的这个测试集N上进行了测试。

将每种ECG的预测分类与已知参考分类进行比较，并使用六个标准指标对每种模型进行评估，以完整评估分类性能:准确性、受试者操作曲线下面积(AUROC)、Jaccard评分、F1评分、特异性和敏感性。为了正确解决多标签分类问题，度量(除了准确性)是根据测试集中出现的频率加权平均得出的[50]。

为了将每个评价指标所获得的结果以具有代表性的方式结合起来，我们根据六个评价指标中的每一个对模型进行排名，并计算每个模型所有指标的平均排名，即最好的模型最终具有最低的平均排名。

下载原文档：https://link.springer 信阳学校/content/pdf/10.1007/s41666-023-00142-5.pdf