百度硅谷AI Lab发表新的深度学习算法NCRF(Neural Conditional Random Field),据称可改善目前活体组织切片检查WSI(Whole Slide Image)分析的结果,协助病理学家提升肿瘤辨识效率与正确性。百度并以开源方式,在GitHub释出该算法。
据报导,WSI是数GB大的影像档,通常包含数十亿画素(pixel),病理学家必须仔细检视病理切片影像寻找肿瘤细胞,但微转移(micrometastases)的小群肿瘤细胞直径可小到1,000画素,因此要从巨大的病理切片影像中有效分析辨识犹如大海捞针。即使运用深度学习算法,也仅能检验WSI影像的一部分。
目前许多WSI的深度学习算法,选择将影像分割为如256x256画素较小的尺寸独立进行分析,但肿瘤周围特别是肿瘤与正常细胞交界处的影像会影响预测结果,由于这些算法的深度卷积神经网络(CNN)无法将周围的影像一并纳入分析,反而增加从分割影像预测肿瘤的难度,经常导致伪阳性误判。
百度的NCRF算法运用CRF建立分割后相邻影像之间空间相关性(spatial correlation)模型,不需经过前置或后续处理,即可以标准back-propagation算法进行端对端训练。CNN会从影像撷取特征,然后运用机率图形模式(probabilistic graphical model)聚合相邻影像的信息纳入分析,因此能改善肿瘤预测、减少伪阳性误判。
以Camelyon16资料集(dataset)测试百度的NCRF算法,肿瘤定位准确度(FROC)平均分数可达0.8096,优于专业病理学家的0.7240与Camelyon16挑战赛的前记录0.8074。不过百度研究人员认为,NCRF最合适的应用方式还是做为人类专家的辅助工具,让病理学家有更多时间专注于算法标记出的肿瘤区域。
NCRF算法为通用技术,但受限于训练用资料集的数量与规模,目前主要使用乳癌的公共资料,百度希望大陆医院能提供更多更大型的资料集,进行近一步的临床研究,以彻底评估算法,并验证在其它类型肿瘤的应用。然而要将NCRF算法集成至现有病理切片分析仪器需要配套法规,但目前尚缺具体指导原则,实际应用于临床病例还要一段时间。