利用深度学习重建细胞周期和疾病进展

我们将展示深度卷积神经网络结合非线性降维技术，可以根据原始图像数据重建生物过程。我们通过重建人类白血病细胞的细胞周期和糖尿病视网膜病变的疾病进展来证明这一点。在对白血病细胞的进一步分析中，我们以无监督的方式检测并分离出死亡细胞的亚群，在对离散细胞周期阶段进行分类时，与最近基于图像特征增强的方法相比，我们的错误率降低了六倍。与以前的方法相比，基于深度学习的预测速度足够快，可以在成像流式细胞仪中进行动态分析。

成像流式细胞术非常适合于深度学习，因为它可以从多个通道提供非常高的样本数和图像数据，即高维、空间相关的数据。因此，与传统的流式细胞术中的IFC数据相比，深度学习能够处理信息量的急剧增加。与传统的机器学习方法相比，深度学习能够改进高通量显微镜的数据分析。这主要是由于深度学习与传统机器学习相比有三个普遍的优点：不需要繁琐的预处理和手动定义特征，提高了预测精度，并且可以可视化学习的特征来揭示其生物学意义。

当目标是理解一个特定的生物学过程时，人们通常只对一些定性阶段，例如细胞周期或疾病阶段有粗略的标记。虽然连续标签可以有效地用于基于回归的方法，但定性标签更好地用于基于分类的方法。特别是，如果不知道当前类别标签的顺序，基于回归的方法将失败。此外，连续标记所需的详细定量信息通常只有在已经在分子水平上理解了一种现象，并且可以获得定量描述该现象的标记时才可用。虽然这对于细胞周期来说是可能的，当进行详细的实验时，这些标记是被测量的，但在许多其他情况下，这是太冗长，有严重的副作用和不必要的影响的现象本身，或根本不可能，因为标记的具体现象是不知道的。因此，我们提出了一种基于深度卷积神经网络的分类方法。

总览分析流程，来自高通量显微镜所有通道的图像都被统一地调整大小，并直接输入到使用分类标签进行训练过的神经网络中。学习到的特征用于分类和可视化。

为了展示神经网络的学习特征如何被用于可视化、组织和生物学解释单细胞数据，我们研究了神经网络最后一层的结果。该方法的动机在于神经网络努力以线性可分离的方式组织最后一层的数据，因为它后面直接跟着一个softmax分类器。在这个空间中，与分离超平面之间的距离可以解释为细胞之间根据网络提取的特征的相似性。具有相似特征表示的单元彼此靠近，具有不同类赋值的单元彼此相距很远。与用于标记训练集的类标签相比，这提供了一个更细粒度的生物学相似性概念。显然，它会自动地泛化到验证数据集中看不见的新数据。我们网络最后一层的激活空间太高了，人类无法理解。我们使用非线性降维技术将数据可视化到低维空间，特别是t分布随机邻域嵌入（tSNE）。（将神经网络抽取到的高维特征使用tSNE算法降维之后的可视化）

重建细胞过程

我们将该方法应用于32266个不同步生长的永生化人类T淋巴细胞（白血病细胞）的IFC图像，可将其分为7个不同的细胞周期阶段（图2），包括间期阶段（G1、S和G2）和有丝分裂阶段（前期、后期、中期和末期）。我们观察到白血病细胞数据被组织在一个长的拉伸圆柱体中，细胞周期的各个阶段按照时间顺序排列（图3 a）。这是值得注意的，因为网络既没有提供类标签内的结构，也没有类之间的关系。学习的特征显然允许从原始IFC数据重建连续的时间进程，并由此定义不同细胞周期阶段表征之间的连续距离。

在亮场、暗场和荧光通道中测量的细胞周期阶段的具有代表性的图像。七个细胞周期阶段定义了七个类别。我们只展示了G1，S，G2界面层的一张代表性图像，用肉眼是很难分辨的。

细胞周期重建和异常细胞检测。
a 使用 tSNE降维可视化神经网络最后一层激活空间表示的验证数据集。所有间期类（G1、S、G2）和代表性最多的两个有丝分裂期（前期：红色，中期：蓝色）。末期和后期由于其代表性低而不可见。
b 活化空间中界面类（G1，S，G2）数据的tSNE可视化。现在彩色地图显示了细胞的DNA内容。箭头表示了受损细胞的聚类。
c 从大量未受损的细胞中随机挑选的代表数据。
d 从受损细胞群中随机挑选的代表数据

我们分别观察了那些被注释为处于间期类（G1，S，G2）的细胞（图3b），并用从IFC的一个荧光通道获得的DNA内容对它们进行染色。DNA内容反映了G1、S和G2细胞在更精细的水平上的持续进展。它与tSNE发现的圆柱体纵向方向的对应关系表明，神经网络学习到的细胞在时间顺序甚至比类别标签更精确。

无监督检测异常细胞

两个tSNE可视化（图3a，b）产生了一个小的，单独的集群，在图3b中用箭头突出显示。这个集群是以一种无监督的方式学习的（tSNE是一个无监督算法），因为细胞周期阶段标签没有提供关于它的信息：它包含来自所有三个间期类的细胞。虽然体积中的细胞具有高度的圆度和清晰的边界（图3c），但小簇中的细胞具有形态异常的特征，如细胞壁破裂和外生，表明细胞死亡（图3d）。

深度学习自动执行图选分割

我们观察到对由细胞边界厚度引起的特征（图4，Map1），对基于区域的特征（图4，Map2）以及跨通道特征的强烈响应。例如，图4中的Map4示出了对来自亮场信道的信息差的高响应，如Map2所示，和散射强度的差，如Map3所示。神经网络对Map2中基于区域的特征有很强的响应，这表明神经网络学会了执行分割任务。(这里可以使用UNet等算法做图像分割)

绘制了四个不同阶段的单个细胞在第二个卷积模块后的激活情况：a G1、b G2、c后期和d末期。反应图标记了高激活区域。Map1对应于单元格边界。Map2对应于细胞的内部区域。Map3提取局部散射强度。Map4构成了一个跨通道的特征，这与Map2和Map3的差异有关。

深度学习优于细胞分类提升

红色数字表示混淆矩阵中每一项的绝对单元数，即对角线元素对应于精度。

重建疾病过程

为了证实我们研究结果的普遍性，现在考虑一个与糖尿病视网膜病变相关的数据集，糖尿病视网膜病变是发达国家工作年龄人群致盲的主要原因。我们研究了30000张彩色眼底照片，将其分为健康、轻度、中度和严重四种疾病状态。在验证数据集中，我们观察到8000个样本的重建疾病进展（图6），即四种疾病状态按照疾病严重程度排序，即使网络没有提供排序信息。与细胞周期示例类似，排序确保只有相邻的类重叠，如从tSNE图中可见的那样（图6 a）。

论文链接:
https://www.nature.com/articles/s41467-017-00623-3