文献解读 | 利用机器学习精准识别肿瘤外泌体的蛋白质组特征

2024-07-29 02:52:30 108

  肿瘤的早期诊断对于提高患者生存率至关重要,液体活检技术,如循环肿瘤DNA、循环肿瘤细胞和外泌体,为肿瘤的早期诊断和监测提供了新的途径。外泌体是由细胞分泌的膜结构囊泡,携带了反映其来源细胞的DNA、RNA和蛋白质,因其在生物体液中的高浓度而被视为理想的生物标志物候选。

  本研究拟基于机器学习方法,通过分析与外泌体相关的蛋白质组签名,以非侵入性检测方式,提高肿瘤诊断的灵敏度和特异性。


  01研究方法

  研究者利用了已有的外泌体蛋白质组学数据,对收集数据进行对数转换和标准化处理,以减少不同研究间的差异,对蛋白重叠进行分析,以确保所选蛋白标志物的普遍性和可靠性。

  使用主成分分析(PCA)来评估不同样本间蛋白表达的异质性,以及肿瘤和对照细胞系之间的差异;使用互信息(MI)得分,以评估蛋白与肿瘤状态的相关性,选择最有可能区分肿瘤和非肿瘤外泌体的蛋白特征。

  使用随机森林分类构建机器学习模型,使用五折交叉验证方法来评估模型的性能,并将随机森林模型与其他机器学习模型(如支持向量机、K近邻分类和高斯朴素贝叶斯)进行比较,以确定最佳模型;

  根据AUROC(接收者操作特征曲线下面积)、准确度、精确度和召回率等指标对模型进行优化,使用独立测试集来验证模型的预测性能,确保模型在未知数据上也能保持高准确性。


  02研究结果

  研究者确定了一组高丰度的蛋白质标志物,包括Clathrin Heavy Chain(CLTC)、Ezrin(EZR)、Talin-1(TLN1)、Adenylyl cyclase-associated protein 1(CAP1)和Moesin(MSN)。

  利用随机森林模型构建了一个能够区分肿瘤外泌体和非肿瘤外泌体的分类器,可基于血浆、血清或尿液的外泌体蛋白质组数据,展现出优异区分能力。

  进一步使用随机森林模型对五种常见的肿瘤类型(乳腺癌、结直肠癌、胶质瘤、肺癌和胰腺癌)进行分类,模型能够以高准确度区分不同的肿瘤类型;使用独立测试集对模型进行了验证,模型展现出稳健能力。

  研究中识别到的蛋白质标志物具有临床相关性,比如ITIH3在胃癌样本的分期相关,进一步证实了机器学习结合外泌体蛋白质组学数据,可以为肿瘤检测分类提供重要辅助。


  03研究结论

  研究人员开发了一种机器学习方法,通过分析外泌体蛋白质组学数据,可以实现对多种肿瘤灵敏诊断。研究揭示了血浆、血清和尿液中外泌体中蛋白作为肿瘤生物标志物的巨大潜力,为非侵入性肿瘤筛查和诊断提供了新的策略。

  此外,该研究还强调了进一步标准化外泌体分离和分析方法的必要性,以推动这些发现在临床实践中的应用。


  04研究结果展开


  

图1.展示了课题研究相关思路

  数据来源于228个肿瘤临床样本(组织、血液、尿液)和57个细胞系的外泌体蛋白质组学研究数据,以鉴定能够区分肿瘤和非肿瘤的外泌体蛋白标志物。


  


  图2.展示了四项研究的外泌体蛋白质组学特征分析


  (A)四项不同研究中细胞系外泌体的重叠蛋白质。

  (B)肿瘤和对照细胞系外泌体的主成分分析(PCA)图。

  (C)各种细胞系中八种常用外泌体蛋白生物标志物的阳性率。

  (D)在超过90%的样本中检测到的蛋白质的注释。

  (E)对在超过90%的样本中检测到的蛋白质进行GO和KEGG通路富集分析。

  (F)在超过90%的样本中检测到的质膜蛋白。


  


  图3.展示了肿瘤及细胞系的外泌体蛋白质组学特征分析


  (A)在细胞系外泌体中检测到频率较高的蛋白质。

  (B)在肿瘤中11种常用外泌体蛋白质生物标志物的阳性率。

  (C)细胞系和肿瘤外泌体之间重叠的蛋白质(频率>90%)。

  (D)在90%以上的细胞系和肿瘤外泌体中检测到的五种质膜蛋白的阳性率。


  


  图4.展示了血浆或血清外泌体蛋白标记物筛选及随机森林分类器的评估


  (A)在来自五项研究的205个肿瘤和51个对照样本的血浆和血清中,所检测到的外泌体蛋白重叠部分。

  (B)肿瘤与对照样本中46种重叠外泌体蛋白质的热图。颜色深浅表示蛋白表达的相对水平。

  (C)在包含不同数量蛋白质特征时,随机森林分类的AUROC(接收者操作特征曲线下面积)得分。

  (D)比较不同模型的AUROC得分。

  (E)使用随机森林分类器对75%的训练集进行分类,并对18种选定蛋白质的分类误差矩阵进行展示。每个方框内指示了样本数量。

  (F)使用75%的数据集训练随机森林分类器后的AUROC得分。其他评估指标显示在右侧。

  (G)使用随机森林分类器对25%的测试集进行分类,并对18种选定蛋白质的分类误差矩阵进行展示。每个方框内指示了样本数量。

  (H)使用25%的数据集测试随机森林分类器后的AUROC得分。


  


  图5.展示了血浆或血清外泌体标志性蛋白用于分类五种常见肿瘤类型,以及随机森林分类器的评估


  (A)来自五种类型肿瘤的血浆或血清外泌体的主成分分析(PCA)图。

  (B)包含不同数量蛋白质特征时,随机森林分类器的AUROC得分。

  (C-D)使用随机森林分类器对五种选定蛋白质进行分类,60%的数据作为训练集,40%的数据作为测试集,以此来分类五种类型肿瘤。

  (E)在五种肿瘤类型的158个样本中五种蛋白质的相对丰度。


  


  图6.展示尿液外泌体所表达的标志性蛋白筛选及随机森林分类器的评估


  (A)在来自四项研究的261个肿瘤和124个对照样本的尿液中检测到外泌体蛋白重叠部分。

  (B)肿瘤和对照组尿液外泌体的主成分分析(PCA)图

  (C)包含不同数量蛋白质特征时,随机森林分类器的AUROC得分。

  (D)在261个肿瘤和124个对照尿液外泌体中,17种选定蛋白质特征的丰度。

  (E)使用随机森林分类器对17种选定蛋白质进行分类,以75%的数据作为训练集的分类误差矩阵。

  (F)使用75%的数据集训练随机森林分类器后的AUROC得分。其他评估指标显示在右侧。

  (G)使用随机森林分类器对25%的测试集进行分类,17种选定蛋白质的分类误差矩阵。每个方框内指示了样本数量。

  (H)使用25%的数据集测试随机森林分类器后的AUROC得分。


  05总结与启发

  该篇文献发表于eLife.(IF>8.7),研究展示了如何利用外泌体蛋白质组学数据,通过机器学习算法,开发出一种新的肿瘤诊断方法。

  研究通过分析血液和尿液样本中的外泌体蛋白质,鉴定出能够区分肿瘤和非肿瘤样本的生物标志物。课题设计巧妙地整合了多源数据,并应用了随机森林分类器等先进统计工具,以提高分类的准确性和可靠性。这种方法不仅为肿瘤的早期发现提供了可能性,也体现了跨学科研究在解决复杂医学问题中的力量。

  此外,该研究还强调了在生物医学领域中应用机器学习技术的重要性,为未来的精准医疗和个性化治疗提供了新的思路和工具。


  参考文献

  Li B,Kugeratski FG,Kalluri R.A novel machine learning algorithm selects proteome signature to specifically identify cancer exosomes.eLife.2023;12:RP90390.doi:10.7554/eLife.90390.

免费获取更多专业咨询
我已阅读并同意 《CTI华测检测隐私政策》 《会员注册协议》

*新号码将自动注册

立即咨询
相关资讯
热门服务 更多 >
  • 热线电话
  • 业务咨询
  • 快速询价
  • 在线客服
  • 报告验证