肿瘤的早期诊断对于提高患者生存率至关重要,液体活检技术,如循环肿瘤DNA、循环肿瘤细胞和外泌体,为肿瘤的早期诊断和监测提供了新的途径。外泌体是由细胞分泌的膜结构囊泡,携带了反映其来源细胞的DNA、RNA和蛋白质,因其在生物体液中的高浓度而被视为理想的生物标志物候选。
本研究拟基于机器学习方法,通过分析与外泌体相关的蛋白质组签名,以非侵入性检测方式,提高肿瘤诊断的灵敏度和特异性。
01研究方法
研究者利用了已有的外泌体蛋白质组学数据,对收集数据进行对数转换和标准化处理,以减少不同研究间的差异,对蛋白重叠进行分析,以确保所选蛋白标志物的普遍性和可靠性。
使用主成分分析(PCA)来评估不同样本间蛋白表达的异质性,以及肿瘤和对照细胞系之间的差异;使用互信息(MI)得分,以评估蛋白与肿瘤状态的相关性,选择最有可能区分肿瘤和非肿瘤外泌体的蛋白特征。
使用随机森林分类构建机器学习模型,使用五折交叉验证方法来评估模型的性能,并将随机森林模型与其他机器学习模型(如支持向量机、K近邻分类和高斯朴素贝叶斯)进行比较,以确定最佳模型;
根据AUROC(接收者操作特征曲线下面积)、准确度、精确度和召回率等指标对模型进行优化,使用独立测试集来验证模型的预测性能,确保模型在未知数据上也能保持高准确性。
02研究结果
研究者确定了一组高丰度的蛋白质标志物,包括Clathrin Heavy Chain(CLTC)、Ezrin(EZR)、Talin-1(TLN1)、Adenylyl cyclase-associated protein 1(CAP1)和Moesin(MSN)。
利用随机森林模型构建了一个能够区分肿瘤外泌体和非肿瘤外泌体的分类器,可基于血浆、血清或尿液的外泌体蛋白质组数据,展现出优异区分能力。
进一步使用随机森林模型对五种常见的肿瘤类型(乳腺癌、结直肠癌、胶质瘤、肺癌和胰腺癌)进行分类,模型能够以高准确度区分不同的肿瘤类型;使用独立测试集对模型进行了验证,模型展现出稳健能力。
研究中识别到的蛋白质标志物具有临床相关性,比如ITIH3在胃癌样本的分期相关,进一步证实了机器学习结合外泌体蛋白质组学数据,可以为肿瘤检测分类提供重要辅助。
03研究结论
研究人员开发了一种机器学习方法,通过分析外泌体蛋白质组学数据,可以实现对多种肿瘤灵敏诊断。研究揭示了血浆、血清和尿液中外泌体中蛋白作为肿瘤生物标志物的巨大潜力,为非侵入性肿瘤筛查和诊断提供了新的策略。
此外,该研究还强调了进一步标准化外泌体分离和分析方法的必要性,以推动这些发现在临床实践中的应用。
04研究结果展开
图1.展示了课题研究相关思路
数据来源于228个肿瘤临床样本(组织、血液、尿液)和57个细胞系的外泌体蛋白质组学研究数据,以鉴定能够区分肿瘤和非肿瘤的外泌体蛋白标志物。
图2.展示了四项研究的外泌体蛋白质组学特征分析
(A)四项不同研究中细胞系外泌体的重叠蛋白质。
(B)肿瘤和对照细胞系外泌体的主成分分析(PCA)图。
(C)各种细胞系中八种常用外泌体蛋白生物标志物的阳性率。
(D)在超过90%的样本中检测到的蛋白质的注释。
(E)对在超过90%的样本中检测到的蛋白质进行GO和KEGG通路富集分析。
(F)在超过90%的样本中检测到的质膜蛋白。
图3.展示了肿瘤及细胞系的外泌体蛋白质组学特征分析
(A)在细胞系外泌体中检测到频率较高的蛋白质。
(B)在肿瘤中11种常用外泌体蛋白质生物标志物的阳性率。
(C)细胞系和肿瘤外泌体之间重叠的蛋白质(频率>90%)。
(D)在90%以上的细胞系和肿瘤外泌体中检测到的五种质膜蛋白的阳性率。
图4.展示了血浆或血清外泌体蛋白标记物筛选及随机森林分类器的评估
(A)在来自五项研究的205个肿瘤和51个对照样本的血浆和血清中,所检测到的外泌体蛋白重叠部分。
(B)肿瘤与对照样本中46种重叠外泌体蛋白质的热图。颜色深浅表示蛋白表达的相对水平。
(C)在包含不同数量蛋白质特征时,随机森林分类的AUROC(接收者操作特征曲线下面积)得分。
(D)比较不同模型的AUROC得分。
(E)使用随机森林分类器对75%的训练集进行分类,并对18种选定蛋白质的分类误差矩阵进行展示。每个方框内指示了样本数量。
(F)使用75%的数据集训练随机森林分类器后的AUROC得分。其他评估指标显示在右侧。
(G)使用随机森林分类器对25%的测试集进行分类,并对18种选定蛋白质的分类误差矩阵进行展示。每个方框内指示了样本数量。
(H)使用25%的数据集测试随机森林分类器后的AUROC得分。
图5.展示了血浆或血清外泌体标志性蛋白用于分类五种常见肿瘤类型,以及随机森林分类器的评估
(A)来自五种类型肿瘤的血浆或血清外泌体的主成分分析(PCA)图。
(B)包含不同数量蛋白质特征时,随机森林分类器的AUROC得分。
(C-D)使用随机森林分类器对五种选定蛋白质进行分类,60%的数据作为训练集,40%的数据作为测试集,以此来分类五种类型肿瘤。
(E)在五种肿瘤类型的158个样本中五种蛋白质的相对丰度。
图6.展示尿液外泌体所表达的标志性蛋白筛选及随机森林分类器的评估
(A)在来自四项研究的261个肿瘤和124个对照样本的尿液中检测到外泌体蛋白重叠部分。
(B)肿瘤和对照组尿液外泌体的主成分分析(PCA)图
(C)包含不同数量蛋白质特征时,随机森林分类器的AUROC得分。
(D)在261个肿瘤和124个对照尿液外泌体中,17种选定蛋白质特征的丰度。
(E)使用随机森林分类器对17种选定蛋白质进行分类,以75%的数据作为训练集的分类误差矩阵。
(F)使用75%的数据集训练随机森林分类器后的AUROC得分。其他评估指标显示在右侧。
(G)使用随机森林分类器对25%的测试集进行分类,17种选定蛋白质的分类误差矩阵。每个方框内指示了样本数量。
(H)使用25%的数据集测试随机森林分类器后的AUROC得分。
05总结与启发
该篇文献发表于eLife.(IF>8.7),研究展示了如何利用外泌体蛋白质组学数据,通过机器学习算法,开发出一种新的肿瘤诊断方法。
研究通过分析血液和尿液样本中的外泌体蛋白质,鉴定出能够区分肿瘤和非肿瘤样本的生物标志物。课题设计巧妙地整合了多源数据,并应用了随机森林分类器等先进统计工具,以提高分类的准确性和可靠性。这种方法不仅为肿瘤的早期发现提供了可能性,也体现了跨学科研究在解决复杂医学问题中的力量。
此外,该研究还强调了在生物医学领域中应用机器学习技术的重要性,为未来的精准医疗和个性化治疗提供了新的思路和工具。
参考文献
Li B,Kugeratski FG,Kalluri R.A novel machine learning algorithm selects proteome signature to specifically identify cancer exosomes.eLife.2023;12:RP90390.doi:10.7554/eLife.90390.
【精彩回顾】华测艾普受邀参加北方结直肠肿瘤整合医学论坛
4月8日,华测艾普医学检验所受邀参加北方结直肠肿瘤整合医学论坛会,在北京整合医学学会的领导和支持下,依托国家癌症中心/中国医学科学院肿瘤医院,中国医学科学院肿瘤医院结直肠外科发起并成立北京整合医学学会结直肠肿瘤分会和经自然腔道取标本手术(NOSES)分会,来自京、津、冀、晋、蒙五省市地区从事结直肠肿瘤专业的区域医疗中心、市级医疗中心的400余位中青年骨干热情参加本次大会,涵盖了外科、肿瘤内科、放疗科、影像、病理等领域。
2023-05-12 07:10:01
重磅喜讯!实力见证|华测艾普医学再次满分通过高标准TMB室间质评CTI MEDLAB
近日,国家卫生健康委临床检验中心(NCCL)公布了《全国实体肿瘤高通量测序(大 Panel)肿瘤突变负荷检测室间质量评价预研结果报告》,华测艾普医学实验室满分通过此次室间质评!
2022-09-09 09:34:50
质评满分 | CTI华测艾普首批通过全国肿瘤突变负荷检测生物信息学分析流程室间质量评价
近日,国家卫生健康委临床检验中心发布《肿瘤突变负荷检测生物信息学分析流程室间质量评价预研活动结果报告》,CTI华测检测集团旗下子公司华测艾普在参评机构中脱颖而出,成为首批通过质评的实验室。
2022-02-28 09:50:55