探秘生物标志物检测的数据高效基础模型

人工智能(AI)系统的使用在医学领域展现出前景,其表现取决于人工智能的训练成效。

一种新的多任务人工智能训练方法能够更快、更经济高效地训练基础模型,而且所需数据量更少。研究人员正在采用这种方法来弥补医学成像中数据的短缺——并最终拯救生命。

据世界卫生组织(WHO)称,全球癌症病例显著增加。清晰的指标,也就是所谓的生物标志物,是实现可靠诊断和成功治疗的关键。人工智能系统可以帮助在病理图像中识别这类可测量的参数。

弗劳恩霍夫数字医学研究所 MEVIS 的研究人员与亚琛工业大学、雷根斯堡大学和汉诺威医学院合作开发了一个用于此的基础模型。这个资源高效的模型仅凭借通常训练数据的一小部分,就能快速且可靠地分析组织样本。

标准的基础模型,像用于 ChatGPT 的大型语言模型,是通过大量多样化的数据集来训练的,并且在学习过程中进行自我监督。但对于医学图像分析,数据通常稀缺,事实上,临床研究中可用的少量数据对人工智能的使用构成了重大挑战。

此外,临床中心在病理制剂的处理方式以及患者群体方面存在差异——甚至在考虑疾病的具体形式和特征之前就是如此。

所有这些因素都使得可靠检测现有模式以及与之相关的具有诊断意义的特征变得更加困难。为了有效地训练人工智能,这通常意味着需要来自不同来源的大量训练图像。但每个组织的横截面图像通常大小达几个千兆字节,包含数千个不同的细胞,但仅反映了存在的变异性的一小部分。

弗劳恩霍夫 MEVIS 基于监督式预训练设计出了一种解决方案。“我们正在为基础人工智能开发一种训练策略,其模式是病理学家所接受的训练。他们在每种情况下都不必重新学习细胞核是什么。这是教科书知识。一旦涵盖了这些概念,它们就作为基础存在,并可以应用于各种疾病,”弗劳恩霍夫 MEVIS 的专家约翰内斯·洛茨博士解释说。

以大致相同的方式,他们的人工智能模型接受基础训练,从通过各种任务创建的大量组织切片图像中学习被称为组织概念的一般特征和规律。将这些任务结合起来,产生了训练强大的大型人工智能模型所需的大量数据。

随后,在第二步里,把学到的组织概念运用到特定任务当中。

通过这种方式,算法能够识别出能区分不同类型肿瘤的生物标志物,比如说——所有这些所需的数据量都少得多。

在我们的解决方案里,每个数据集都由经过专门培训的人员依据需要学习的信息做了标注,

我们给我们的模型提供图像,同时也提供答案。并且我们运用多任务方法,同时为众多不同的任务这么操作。

这种方法能够让从组织研究(比如免疫组织化学染色)中自动生成带有注释的训练数据成为可能,进而使用标记抗体来将蛋白质或其他结构可视化。

为了达成这个目的,该方法整合了来自多个组织病理学图像的信息。专家们把这些自动生成的注释纳入到模型的训练当中,这加快了数据收集的速度。

与不涉及监督训练的模型相比,弗劳恩霍夫研究人员的方法仅用 6%的训练数据就取得了类似的结果。“由于在深度学习中,训练数据量与训练所付出的努力以及处理能力相关,我们发现只需要约为通常所需资源的 6%即可。

“此外,我们只需要大约 160 小时的训练,这是一个关键的成本因素。这意味着我们能够以少得多的努力来训练一个等效模型,”洛茨解释道。

弗劳恩霍夫的专家参加国际 SemiCOL(用于结直肠癌检测的半监督学习)癌症分类和分割竞赛,充分展示了这些预训练模型具有多么良好的通用性。

该团队在无需对其模型进行昂贵调整的情况下赢得了挑战的分类部分,最终在九个参赛团队中排名第二。

交互式图像分割测试(即对图像中的组织结构进行自动检测和测量)也表明,这种方法具有很大的潜力。该模型仅需几个样本图像切片,就能拓展其已学到的概念。

但不止于此。“基于我们的解决方案的模型使开发新的交互式医疗人工智能培训工具成为可能,这些工具让专家能够直接与人工智能解决方案互动,并快速训练相关模型,即使没有任何技术背景知识,”舍费尔说。

研究人员在各类平台上发布了预训练模型以及用于进一步学习的代码。这使得专家能够将其用于非商业目的,开发自己的解决方案。该团队还与临床合作伙伴合作,使该解决方案获得医疗应用的批准,并对其进行系统验证。

弗劳恩霍夫 MEVIS 的专家确信,一旦在日常临床实践中使用,涉及他们基础模型的系统将减少病理学的工作量,并提高治疗的成功率。