[DL-医疗-综述] 002 综合指南及实例（中）

dreamGong 发布于2019-06-26 18:16 / 2603人阅读

摘要：折交叉验证集，每折包含约张训练图像和张测试图像，正样本边界负样本其他负样本，训练集中共图像块。浸润性导管癌是乳腺癌中最长出现的亚种。

Deep learning for digital pathology image analysis: A comprehensive tutorial with selected use cases

Deep learning for digital pathology image analysis: A comprehensive tutorial with selected use cases
Andrew Janowczyk, Anant Madabhushi

5 USE CASES

本文共考察了7个数字病理学的实例，具体见表1。

5.2 Nuclei Segmentation Use Case

Challenge
细胞核形态是多数癌症定级中重要的依据，所以需要进行细胞核分割。近期研究发现检测细胞核的技术趋于成熟，
但是发现它们的精确边界或者分离开有重叠区域的细胞核还是比较困难。生成训练图像块也要注意，一般用标识好的图像生成二值掩码，然后从正/负区域随机剪切产生正/负样本，但是负样本中可能包含未标记的正样本区域。
Patch selection technique
图像块选取的一种标准方法是在正样本掩码区域选取正样本，在负样本掩码区域使用阈值化的color-deconvolved图像选取负样本（如图2所示）。这主要是依据非细胞核区域很少吸收染色剂的原理。图2显示了这种方法提取的样本所属类别都是正确的，但是负样本（图2a）对于训练该任务网络不会提供太多有用信息。结果（图3d）显示用上述方法选取的样本训练的模型性能并不好，无法描绘出细胞核的正确轮廓，这是因为在训练集中没有强调边界信息。

本文在上述方法的基础上进行改进，选取更多更有挑战性的负样本以增强训练集中的边界信息。图3a展示了一张示例图像，图3b是其掩码图像，需要注意的是只有部分细胞核被标识，使用为改进的样本选取方法所获得的训练集来训练模型的预测结果如图3d所示，可以看到网络没有准确确定出细胞核边界。为了增强边界信息，使用形态学方法处理图3b中所示掩码图像，得到如图3c中所示的边界掩码图像。依据图3c掩码图像选取负样本（如图2c所示），这些样本与正样本相似，所以学习难度提升。另外也保留一定比例的图2a样式的负样本，以确保这部分样本在训练集中也有很好的表示。使用改进方法选取的样本所训练的模型的预测结果见图3e，可以看出模型对边界的确认更准确。

Results and Discussions
5折交叉验证集，每折包含约100张训练图像和28张测试图像，正样本:边界负样本:其他负样本=1:1:0.3，训练集中共130k图像块，在20倍和40倍分辨率上进行度量，使用的度量方法有F-score、true positive rate (TPR)、positive predictive value (PPV)，DL生成的概率图0.5阈值化后得到二值结果。
定性来看，图4显示了一个可视化结果，可以看出网络在40倍分辨率上的边界比在20倍上更加准确。

定量来看，从表4中可以看出，网络在40倍分辨率上的各项度量指标都优于20倍。Dropout在这个实例上存在消极影响。

5.3 Epithelium Segmentation Use Case

Challenge
癌细胞一般出现在上皮组织，而基质的组织模式有助于预测乳腺癌患者的生存期，所以上皮组织-基质（epithelium-stroma）分离就尤为重要。但是该任务一般不太明确，因为标记数据比较抽象并且都是低放大倍数，图5显示了标记和预测的对比，这种差异使得训练和评估都更加困难，本文也考虑用额外的专家评价指标来评估结果。

Patch selection technique
首先确定放大倍数，基本的原则是相应分辨率的图像块中有足够的环境信息，人类专家可以做出正确的判断，所以要根据先验知识来确定合适的放大倍数。本文使用10倍放大倍数，如果网络接受的输入尺寸较大，可能需要更高的放大倍数。首先在灰度图使用0.8阈值去除脂肪或背景区域，不在这些区域选取训练样本，然后使用上节的改进方法提取样本。
Results and Discussion
5折交叉验证集，每折包含约34张训练图像和8张测试图像，正样本:边界负样本:其他负样本=5:5:1.5，训练集中共765k图像块。
定量分析结果如表5，使用F-score作为度量指标。在度量之前(a)阈值化去掉背景区域(b)去除面积<300的区域。

定性来看，病理学家将这个任务视为更高等级的抽象，而并不是像素级的分类，如图5所示。病理学家一般不会将背景分离标识出来，有时也会忽略掉小区域。

5.4 Tubule Segmentation Use Case

Challenge
细管的形态可以体现癌症的侵略性，癌症后期病人的细管形态逐渐呈无组织状态，如图6所示。识别和分割细管有两个方面用处：(a)自动进行面积估算，减少inter-/intra-reader差异；(b)提供更大的特异性，可能更好的制订预后指标。

细管被认为是迄今为止发现的最复杂的结构，它包含多种成分（如细胞核、上皮组织、内腔），这些组成成分的组织结构确定了细管的边界。不同阶段的癌症不同的潜在侵略性的细管的形态有很大差异。良性（如图6a）整体有组织性，每个细管的尺寸和形态特征比较相似，比较容易进行分割；但患癌（如图6c）时细管就没有组织性，也不容易精确确定它们的边界。另外细管整体比其中的组成成分要大得多，所以需要在更大的视野中进行观察以保证有足够的环境信息来确保评估的准确性。
Patch selection technique
引入一种经济的预处理方法来确定较难训练的图像块，使用这些样本可以增加信息和多样性。首先在每张图像中随机选取一些像素点（如15000个）作为训练集，这些像素点应该覆盖所有类别，并计算一些简单的纹理特征（如对比度、相关性、能量、同质性等）；然后使用朴素贝叶斯分类器来确定同一张图像中所有像素点的类别。经过上述处理，可以确定哪些像素点可能容易判断错误（假阳/阴），选取这些像素点可以增加样本的表示能力。可以根据误分类像素的置信度来选取，例如偏向于选取预测概率趋向于1的假阳样本。这种方法不需要相关领域的知识，能很好的去除重要性低的样本。
良性组织中的细管要比患癌的更容易分割，那么不均衡的多选患癌样本可以提高模型的泛化性能。
Results and Discussion
5折交叉验证集，每折包含约21张训练图像和5张测试图像，恶性样本数量是良性的2倍，并且包含一些旋转处理（180、270）的恶性样本，共320k个训练图像块。阈值0.5时的平均F-score为0.827±0.05，使用最优阈值时0.836±0.05。

5.5 Invasive Ductal Carcinoma Segmentation Use Case

Challenge
浸润性导管癌（Invasive Ductal Carcinoma, IDC）是乳腺癌中最长出现的亚种。病理学家一般都是根据包含IDC区域的组织状态来判断侵略性等级，所以对侵略性定级的一个常见的预处理就是提取包含IDC的区域。
Patch selection technique
使用已有的数据集，将放大倍率40的原图像降采样1/16，以提供更丰富的环境信息，图像块尺寸为50x50，本文网络输入尺寸32x32，分别做以下不同处理：
Resizing：直接将50x50的图像缩放为32x32。
Cropping：剪切50x50图像的中心32x32区域。
Cropping+additional rotations：为了解决数据不均衡问题，将正样本进行旋转增加数量，最终正负样本数量基本一致。
Results and Discussion
图7显示了不同处理方式对训练模型的影响。

表6定量评估了不同样本处理方式的影响。值得注意的是resizing的性能是最好的，cropping可能是因为损失了部分环境信息，另外dropout对泛化性能并没有提升，数据均衡处理也没有明显效果。

注：对于文中医学相关的名词翻译可能不准确，如有异议请指正。

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/19646.html

[DL-医疗-综述] 001 综合指南及实例（上）

摘要：摘要背景深度学习是一种表示学习方法，非常适合用来处理数字病理学中的图像分析问题。优质的注释样本是深度学习重要的先决条件，但是处理数字病理学中最大的挑战就是获取高质量的注释样本。本文使用的深度学习主要由四个模块组成。 Deep learning for digital pathology image analysis: A comprehensive tutorial with sele...

isaced 2019-06-26 18:17 评论0 收藏0
[DL-医疗-综述] 003 综合指南及实例（下）

摘要：淋巴细胞是白细胞的一个亚种，在免疫系统中很重要。患病或有异物的区域淋巴细胞数量会极大增加，所以通过确认和定量淋巴细胞的密度和位置有助于评估疾病。本节目标是确定淋巴细胞的中心，是一个检测任务。常见的假阳性和真实正例见图。 Deep learning for digital pathology image analysis: A comprehensive tutorial with se...

史占广 2019-06-26 18:18 评论0 收藏0
ApacheCN 人工智能知识树 v1.0

摘要：贡献者飞龙版本最近总是有人问我，把这些资料看完一遍要用多长时间，如果你一本书一本书看的话，的确要用很长时间。为了方便大家，我就把每本书的章节拆开，再按照知识点合并，手动整理了这个知识树。 Special Sponsors showImg(https://segmentfault.com/img/remote/1460000018907426?w=1760&h=200); 贡献者：飞龙版...

刘厚水 2019-06-26 19:00 评论0 收藏0