谷歌已宣布推出DeepSomatic,这是一款人工智能(AI)工具,能够更精准地识别肿瘤基因序列中与癌症相关的突变。 癌症始于调控细胞分裂的机制出现故障。找出驱动肿瘤生长的特定基因突变,对于制定有效的治疗方案至关重要。
如今,医生会定期对活检获取的肿瘤细胞基因组进行测序,以便为针对特定癌症生长和扩散方式的治疗提供参考。 这项发表在《自然生物技术》杂志上的研究,展示了一种运用卷积神经网络识别肿瘤细胞中基因变异的工具,其准确性高于现有方法。谷歌已将DeepSomatic及其为该工具创建的高质量训练数据集公开。 体细胞变异带来的挑战 癌症遗传学极为复杂。
尽管基因组测序能够检测出癌症相关的基因变异,但要区分真实变异和测序错误却十分困难,而这正是人工智能工具可以发挥作用之处。大多数癌症是由出生后获得的“体细胞”变异引发的,而非从父母那里遗传的“生殖系”变异。 当环境因素(如紫外线)损伤DNA,或者DNA复制过程中出现随机错误时,就会发生体细胞突变。当这些变异改变正常细胞的行为时,可能会导致细胞不受控制地复制,从而推动癌症的发生和发展。
识别体细胞变异比发现遗传变异更为困难,因为它们在肿瘤细胞中的存在频率可能很低,有时甚至低于测序错误率。 DeepSomatic的工作机制 在临床环境下,科学家会对活检获取的肿瘤细胞以及患者的正常细胞进行测序。DeepSomatic会找出差异,识别肿瘤细胞中并非遗传而来的变异。这些变异揭示了促使肿瘤生长的因素。 该模型会将肿瘤样本和正常样本的原始基因测序数据转换为代表各种数据点的图像,这些数据点包括测序数据及其在染色体上的排列情况。
卷积神经网络会对这些图像进行分析,以区分标准参考基因组、个体的正常遗传变异以及引发癌症的体细胞变异,同时过滤掉测序错误。输出结果是一份与癌症相关的突变列表。 当无法获取正常细胞样本时,DeepSomatic也能以“仅肿瘤”模式运行,这种情况在白血病等血液癌症中较为常见。这使得该工具能够应用于众多研究和临床场景。 训练更精准的人工智能癌症研究工具 训练精准的人工智能模型需要高质量的数据。谷歌及其合作伙伴加州大学圣克鲁兹基因组学研究所和美国国家癌症研究所,为其人工智能工具创建了一个名为CASTLE的基准数据集。
他们对四个乳腺癌样本和两个肺癌样本中的肿瘤细胞和正常细胞进行了测序。 他们使用三个领先的测序平台对这些样本进行分析,通过整合测序结果并消除各平台特有的错误,创建了一个单一、准确的参考数据集。数据显示,即便同属一种癌症类型,其突变特征也可能截然不同,这些信息有助于预测患者对特定治疗的反应。 在所有三个主要测序平台上,DeepSomatic模型的表现均优于其他现有方法。该工具在识别被称为插入和缺失的复杂突变(即“Indels”)方面表现优异。针对这些变异,DeepSomatic在Illumina测序数据上的F1分数达到了90%,而次优方法的F1分数为80%。
在Pacific Biosciences测序数据方面,改进更为明显,DeepSomatic的得分超过80%,而次优工具的得分不到50%。 人工智能在分析具有挑战性的样本时表现出色。测试对象包括一个采用福尔马林固定石蜡包埋(FFPE)法保存的乳腺癌样本,这是一种常见的保存方法,但可能会导致DNA损伤,从而增加分析的难度。它还对全外显子测序(WES)的数据进行了测试,这是一种更为经济的测序方法,仅对基因组中编码蛋白质的1%进行测序。
在这两种情况下,DeepSomatic的表现均优于其他工具,这表明它在分析低质量样本或历史样本方面具有实用性。 适用于各类癌症的人工智能工具 该人工智能工具已证明,它能够将所学知识应用于未经过训练的新型癌症。在用于分析胶质母细胞瘤样本(一种侵袭性脑癌)时,它成功找出了已知导致该疾病的少数变异。在与堪萨斯城儿童慈善医院的合作项目中,它对八个儿科白血病样本进行了分析,尽管仅使用了肿瘤样本,但仍发现了先前已知的变异,并识别出10个新变异。
谷歌希望研究实验室和临床医生采用这一工具,以便更好地了解个体肿瘤。通过检测已知的癌症变异,它有助于指导现有治疗方案的选择。通过识别新的变异,它有可能催生新的疗法。其目标是推动精准医学的发展,为患者提供更有效的治疗方案。