一、什么是影像组学?
“组学”的概念已经流传了几十年,包括大家过去常听到的基因组学、蛋白组学、转录组学等等。而在医学影像方面,影像组学(Radiomics)的概念相对较新,最早由荷兰马斯特里赫特大学精准医学系PhilippeLambin教授于年提出。影像组学指从放射影像(CT、MR,也包括PET等)的感兴趣区域(RegionofInterest,ROI)中高通量地提取影像特征进行自动化分析,通过机器学习方法从其中提取关键的信息(也可以理解为biomarker),对病灶进行精准量化评估,并最终用于疾病的辅助诊断、分类或分级。与活检相比,影像组学继承了放射影像无侵入、可重复的技术优势,为患者病情随访和预后提供了更安全、更可靠的技术途径。
Radiomics开篇之作
它引已超过次
二、怎样开展组学项目?
如下图所示,影像组学的步骤流程,大体上可以归纳为:1)影像数据准备;2)感兴趣区勾画;3)特征提取与降维选择;4)建模分析。
影像组学课题全流程
1、影像数据获取
不同设备厂商、同一厂商不同型号的影像设备在图像扫描和重建协议上往往存在着很大的差异,迄今为止仍然缺乏统一的采集标准规范。这就可能给包含影像组学在内的众多医工结合项目造成了潜在的影响。尽管对数据存储传输、图像勾画和算法运行速度带来诸多不便,但为了最后的建模评估步骤能达到更好的效果,仍然推荐入组分辨率更高、信息量更为丰富的薄层数据。这些数据最好具有相同(或相近)的采集参数,以尽可能降低数据质量被各种成像因素的干扰。目前,医院都开展过肿瘤的影像组学相关项目,比如肺癌、肝癌、结直肠癌等等。但随着组学科研在全国乃至世界范围内发生“内卷化”,课题总数据量和多中心研究都已经成为审稿中的决定性因素。这时,医院数据中,既要严控数据入组条件,同时也要满足项目所需的样本数量,只有兼顾两者才可能取得最优的效果。
仅年,PubMed上搜索
标题/摘要含Radiomics的论文就已达篇
此外,多模态影像组学时代的开启给医工两方面的研究者都提出了更大的挑战。数据量的成倍增加、算法工程师的影像专业背景,都可能成为项目推进的阻力。这里有非常重要的一点,要求影像医生做好数据筛选:所有的影像医工交叉项目,数据量的一大原则都是“贵精不贵多”——除了保留与病灶相关的必要序列外,不要有任何冗余的图像,否则会成为后续工作中非常不利的因素。至于质量不过关(如包含伪影、扫描序列不完整)、缺乏完整临床指标的样本,都是应该被排除在项目之外。
2、感兴趣区分割
影像准备完毕,接下来的重要步骤是病灶ROI的勾画,从而对照影像序列,进一步开展后续的特征提取。医学图像分割经过几十年的发展,目前仍然保持了两大类别:手动/半自动分割,以及全自动分割。
由于病灶的特质性和不规则性,手动/半自动分割仍然是现有条件下的最佳选择,即使手动分割耗时较大,它仍然是金标准获取的唯一途径。课题中既可以采用3DSlicer、ITK-SNAP等传统分割软件,也可以尝试像Pair等新兴工具,甚至可以使用工作站日常诊断中的三维重建结果。全自动分割算法包括阈值/区域生长、分水岭、水平集等,也有近年来非常火热的深度学习算法。但很遗憾,尽管学术界和工业界都付出了相当大的努力,但迄今为止,仍然没有高精度、全自动的通用分割模型可以完美地应用于影像科研的日常流程和基础IT架构中,自动分割后ROI还是要医生手动调整确认以保证项目的精度效果。在此做一个额外的推荐,组学课题ROI勾画之余,可以将它们保存下来,这就可能会形成下一个AI图像分割课题的数据来源,也许又是几篇论文发表的增长点。
绕不开的Slicer和SNAP
3、特征提取与降维选择
影像组学特征由一系列传统图像特征的合集构成,既包含了一阶梯度特征(区域内统计信息)、形状特征(如形态学参数、圆形度等)、纹理特征(灰度共生矩阵、灰度区域大小矩阵、灰度游程矩阵),也包含了各种图形滤波变换后的特征,比如高斯-拉普拉斯变换、小波变换、平方根滤波等。这些特征都曾经在医学图像分析中有过较为成功的运用,而影像组学正是把高阶的图像特征聚集在一起、进一步提高分析结果质量的方法。每个影像组学特征都有着独立的计算公式,现在在网上已经可以找到丰富的特征提取工具直接调用,而无需自行学习理解公式、手动编程计算。
时下流行的PyRadiomics组学工具包
提取完毕的影像组学特征,少则成百上千;有些“噱头”概念也会在多模态+各种图像预处理后形成高达十万数量级的特征维度;目前还有一种流行的方法是将组学特征和临床数据相互结合,以便最大化综合各种层面的信息优势。这个时候就需要采用一些特征降维和筛选的手段来对特征数目进行一定的限制,避免冗余数据影响机器学习模型的精确和稳定性。常见的降维和筛选方法有主成分分析、相关性分析以及基于L1惩罚项的特征选择法等——其实当维度达到一定级别的时候,再增加特征对最终的结果影响已经降到很低,反而严重增加了完成组学流程的时间和空间复杂度。
4、建模分析
课题中需要将样本分为训练集和测试集(遵循着7:3或8:2的原则),如果是多中心课题,医院区分样本,医院的数据做外部验证的测试集,评价建模的鲁棒性。
建模时首先使用训练集,通过学习一个函数,找到各类样本的最佳区分“界面”。常用的分类器包括了决策树、逻辑回归、随机森林、支持向量机(SVM)等。在建模过程中,为了减少过拟合和选择偏差、保证更好的模型性能,常常会引入交叉验证(CrossValidation)的方法。交叉验证将数据的训练集样本切割成若干较小子集,然后先在一个子集上做分析,而其它子集则用来做后续对此分析的验证,并确定一些模型的参数。
模型训练完毕后,再采用测试集进行组学预测结果和临床标签的对比,进行性能评估。常用于展现影像组学结果的图或数值有ROC曲线、(95%置信区间下的)AUC值、敏感度、特异度、特征贡献度、相关系数热图等。
ROC曲线与热力图
三、有哪些成功的案例?
刚刚提出影像组学概念时,Lambin教授在最早期的两篇影像组学论文中采用了肿瘤组织为示例。此后,影像组学迅速在肿瘤相关研究领域拓展落地,例如:鉴别正常组织与癌症组织,进一步揭示图像特征与基因表达的内在联系,如基于CT图像的原发性肝细胞肝癌、肺癌、头颈部肿瘤识别,基于MR图像的脑胶质瘤、肝囊肿和肝血管瘤识别,基于PET图像的食道癌新辅助化疗疗效评估,以及各种肿瘤内部增强、坏死、水肿等区域识别。此外,影像组学也大量应用在肿瘤表型差异分析、良恶性诊断、预后评估与生存期预测等方向。随着研究者对组学理论和应用认识的不断加深,目前它也外延到其它各类疾病的分类、良恶性预测和疗效评估中,比如神经系统病灶、血管斑块的预后等。
这两幅图想必大家都非常熟悉了
四、影像组学走向何方?
虽然目前影像组学的处理流程已经日益完善,但很多环节仍存在着优化空间。1)在国内的大环境下,它往往需要医工双方人员的密切配合,如何能让双方更好地理解对方的工作流程和专业背景,安全、省时、高效地推进合作,是项目成功的首要前提。2)像上文中所说,在深度学习算法的不断迭代出新后,开发全自动、高精度和高鲁棒性的分割算法,是降低影像科医生人工负担的重中之重。3)影像组学其实是一个“新瓶装旧酒”的概念,因此继续挖掘各层信息的手段(比如设计新的特征或者引入新的滤波)是组学科研今后的突破难点。4)而在科研中取得进展后,筛选特征结果的可解释性也成为了临床