生成对抗网络(Generative Adversarial Network,GAN)是深度学习的新热点,是医学影像重建和过程优化方面常用的共性技术。与其他深度学习框架不同的是,GAN一般由生成网络与判别网络组成。生成网络用于把多种多样的输入映射到真实样本空间,生成能模拟真实数据的样本;判别网络用于分辨生成样本的真伪。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。GAN的研究最早由Ian Goodfellow提出[1],在图像处理领域、医学影像领域被不断应用和优化。GAN及其后续演化已经被成功应用于多种任务。
在医疗器械领域,GAN可以用于医学图像的重建算法、过程优化、图像分割等环节。
1 技术演变GAN的早期架构包括生成器、判别器和由真实样本组成、具有隐藏概率分布的训练集。生成器是多网格结构,用于建立隐藏随机变量(比如随机噪声向量)与真实样本之间的映射关系;判别器被训练成能最大限度区分真假样本的状态。判别器与生成器的训练可以看做极小极大博弈问题的求解(Minimax Game)[2]。在每一轮的迭代中,判别器针对当前固定的生成器进行优化,而全局问题是寻求生成器的最优,把问题转化为求解生成样本的分布与真实样本的分布之间的J-S散度[Jensen-Shannon(JS)Divergence][3]。这种优化过程有可能产生生成器的梯度消失问题,导致两大问题:1)模式坍塌:生成器把所有的随机变量映射成相同的真实数据;2)不稳定性:相同输入产生不同输出。
为解决早期架构的不稳定问题,各国研究人员从算法架构、损失函数、连接关系等角度入手,不断提出新的方法。Radford等人提出了深卷积生成对抗网络(Deep Convolutional Generative Adversarial Networks,DCGAN)的概念[4]。DCGAN的生成器和判别器都是深度卷积神经网络。这些网络使用过采样和欠采样的方式学习和提取图像分层特征,用于生成新的图像,在稳定性方面有所改善,但仍然存在模式坍塌问题。
条件生成对抗网络(Conditional Generative Adversarial Nets,cGAN)[5]是较早使用先验条件的GAN算法。与早期GAN算法不同,生成器的输入包括随机噪声和先验条件,判别器的输入包括先验条件和由真假样本组成的训练集。先验条件的引入有助于提高稳定性和生成样本的逼真程度。
作为cGAN思想后续发展的产物,马尔科夫生成对抗网络(Markovian GAN,MGAN)是另一种使用先验条件的算法[6]。它的特点是能迁移图像风格。该算法大量使用预训练后带有固定权重的VGG19网络,为迁移图像风格和保存图像内容提取高水平的图像特征。在先验信息的处理上,有辅助分类器的生成对抗网络(Auxiliary Classifier GAN,AC-GAN)[7]提供了一种替代思路,不再同时向生成器和判别器输入先验信息,而是在判别器端重建先验信息。判别器的结构进行了调整,在几层之后分成了一个标准的样本判别器和一个辅助的分类器。这种做法能够启用预训练过的判别器,并在训练过程中保持算法稳定。
在GAN的原始架构中,生成样本的概率分布会与真实样本的概率分布进行比对,而这种比对可能带来梯度消失和最优点无法触及等问题,从而导致出现模式坍塌和不稳定。该问题可以通过合理估计两种样本分布之间的距离来解决。瓦瑟斯坦生成对抗网络(Wasserstein-GAN,WGAN)方法[8]应运而生,其使用Wasserstein-1距离估计生成样本与真实样本分布之间的距离。该方法中的生成器和判别器都符合DCGAN的架构,能够找到分布之间的关系,鲁棒性较好,学习过程更合理。缺点是优化速度相对较慢。
最小二乘生成对抗网络(Least Square GAN,LSGAN)是另一种解决GAN不稳定性的方法,其思路是在罚函数中增加一些参数,以避免梯度消失问题。被判别器判为真实样本的假样本将因为远离真实样本的密集分布而被算法惩罚。当且仅当生成样本与真实样本的分布完全一致时,梯度为零。
综上,DCGAN是一个重要里程碑,因为它引入了主要的架构变化来解决训练不稳定、模式崩溃和内部协变量转换等问题。此后,在DCGAN体系结构的基础上引入了大量的GAN体系结构。cGAN及其后续发展的MGAN都是使用先验条件的算法。与此同时,为了解决GAN原始架构中可能出现的不稳定,应运而生了WGAN方法和LSGAN方法。
2 临床应用 2.1 图像重建2019年4月,美国FDA以510k(上市前许可)的形式批准通用电气医疗系统(GE Medical Systems)的深度学习图像重建(Deep Learning Image Reconstruction,DLIR)产品上市,其使用深度神经网络技术生成头部、躯干、心脏和血管CT图像,是人工智能图像重建方面的代表性产品[9]。该产品给生成的图像打上特殊标签,以区分生成图像和真实图像,并且允许用户选择深度学习功能的使用程度。其临床试验使用了60个回顾式的临床病例原始数据,分别用DLIR和迭代重建技术(ASiR-V)进行重建,由9名放射影像医生对各项图像质量指标进行打分,结果论证了DLIR和ASiR-V的等效性。
2.2 图像合成Gong等人提出使用深度学习合成影像的方法降低MRI造影剂使用的剂量[10]。60位患者在未添加造影剂、添加10%正常剂量造影剂和添加100%正常剂量造影剂三种情况下进行MRI脑部成像,其中未添加造影剂和添加10%正常剂量造影剂的图像作为算法训练的输入,而添加100%正常剂量造影剂的图像作为金标准。算法采用编码器-解码器(Encoder-decoder)设计,合成100%剂量造影剂的图像。该算法使用另外50位患者的数据进行了测试,由2名放射影像医生对合成图像和真实患者图像进行了判读,结果表明合成图像的质量相对于低剂量图像在结构相似性、峰值信噪比等图像指标上得到了显著提升。
2.3 图像降噪一般的深度学习降噪算法通过求解降噪图像与金标准图像之间的均方误差(Mean Square Error,MSE)达到最优,可以提升峰值信噪比(Peak Signal-to-noiseratio,PSNR),但同时会降低重要结构细节的能见度。Yang等人提出使用前文介绍的WGAN方法实现低辐射剂量CT的图像降噪[11]。其主要思想是把WGAN与超分辨率测试序列(Visual Geometry Group,VGG)网络的感官损失(Perceptual Loss,比较降噪后的图像与金标准图像在感官上的差别)相结合,通过GAN把数据噪声的分布由强变弱从而实现降噪,通过VGG的感官损失来维持图像细节信息不丢失。该方法使用10位匿名患者的正常剂量腹部CT和模拟的四分之一剂量CT图像进行了训练和验证,结果表明,WGANVGG方法产生的图像在平均CT值、图像标准差和视觉印象方面的确优于其他参比方法,比如卷积神经网络-均方误差(CNN-MSE)。
在产品方面,2018年11月,美国FDA以510k形式批准了Subtle Medical公司生产的SubtlePET图像处理软件,是人工智能用于医学图像降噪的里程碑产品[12]。该产品适用于氟去氧葡萄糖、淀粉状蛋白的PET图像(包括PET/MR、PET/CT),使用残差学习技术根据图像像素生成周边像素的灰度值,推测噪声模式和图像结构特征,最终将噪声与有用信号分离,达到降噪的目的。
2.4 图像分割用于图像分割的深度学习算法容易受到原始图像采集设备、流程的影响,在不同医院和地区应用时可能发生鲁棒性方面的问题,这是因为产品训练集的图像域跟实际处理的图像域有区别。图像域变换(Domain Adaptation,DA)方法作为迁移学习(Transfer Learning)的一种,在多种图像域上对算法进行训练,以改善算法在不同图像域上的表现。GAN与DA结合之后,可以在训练样本量缩小的情况下保证训练质量和算法性能,是图像分割领域的进步。
目前,基于GAN的图像分割还没有产品获批,但研发活动比较活跃。在大脑影像的分割方面,Kamnitsas等人基于对抗神经网络提出了一种无监督的域转化方法(Unsupervised Domain Adaptation,UDA)[13],使用多连接的对抗网络结构,包含由三维全卷积神经网络构成的分割器和由另一个三维全卷积神经网络构成的域判别器。分割器的作用是判断各体素属于健康组织还是病灶,域判别器的作用是识别输入数据的图像域,对不同图像域启用不同的激活函数。域判别器的梯度反向传播到分割器,形成联合训练。经验证,UDA方法训练后的算法测试结果在Dice系数、精确度、召回率三个关键指标方面优于其他方法训练出的算法。
GAN算法的应用还包括基于CT的胸部轮廓分割、基于眼底图像的血管/视盘/视杯分割、腹部脏器分割、显微图像分割和超声心动图上的左心室分割等场景[14]。
2.5 图像映射GAN的另一重要应用是根据一种模态的图像预测同一物体在另一种模态下的图像,比如通过MRI图像来推测CT,这样做的意义是可以减少患者进行CT检查的次数,降低辐射剂量。Nie等人提出了一种方法[15],使用对抗神经网络训练全连接网络,实现由MRI图像预测CT图像。该方法的损失函数使用了图像的梯度差,以减轻图像合成带来的CT模糊问题。为加强GAN对图像周境的感知,该方法还使用了自动周境模型(Auto-context Model,ACM)对GAN进行改善。临床试验结果表明,该方法在平均绝对差、峰值信噪比两项主要指标上超过了其他的参比方法。
2.6 图像配准GAN在图像映射方面展现的技术优势,同样可以用于图像配准。Hu等人提出了对抗变形正则化方法[16],用于将术前MR图像和术中经直肠超声图像(Transrectal Ultrasound,TRUS)进行配准。该问题的难点在于手术过程中组织发生形变和位移。该方法通过生物力学有限元分析模拟组织的运动,对于配准网络起到了正则化的作用。训练输入是带解剖学标签的MR-TRUS图像配对,对抗生成器损失函数是组织形变预测值与仿真值之差的散度;判别器网络的作用是将算法预测的组织位移与生物力学有限元分析推测的组织运动进行区分。结果表明,在仅使用前列腺分割作为解剖学标签的情况下,该方法的配准误差显著小于其他参比方法。
3 讨论综上,GAN作为近几年深度学习的新热点,在国际上已进行了较为深入的研究,并通过大量的临床试验,其代表性产品上市初步应用于医疗器械领域。目前,在我国还没有基于AI的过程增强与图像重建医疗器械产品获批上市,但学术研究较为活跃,国内人工智能医疗器械企业在图像重建、分割、配准、映射等方面也在进行积极探索。希望本文所介绍的GAN及其演化的相关深度学习方法能够对国内人工智能医疗器械企业同仁有所借鉴和帮助。
[1] |
Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative Adversarial Nets[C]//International Conference on Neural Information Processing Systems, Switzerland: Springer International Publishing, 2014: 2672-2680.
|
[2] |
Yang Q, Yan P, Zhang Y, et al. Low-dose CT Image Denoising Using a Generative Adversarial Network with Wasserstein Distance and Perceptual Loss[J]. IEEE Transactions on Medical Imaging, 2018, 37(6): 1348-1357. DOI:10.1109/TMI.2018.2827462 |
[3] |
Wolterink J M, Leiner T, Viergever M A, et al. Generative Adversarial Networks for Noise Reduction in Low-dose CT[J]. IEEE Transactions on Medical Imaging, 2017, 36(12): 2536-2545. DOI:10.1109/TMI.2017.2708987 |
[4] |
Sanchez Puccini M, Loram I, Holmes P, et al. Working Towards an Objective Segmental Assessment of Trunk Control in Children with Cerebral Palsy[J]. Gait & Posture, 2018, 65: 45-50. |
[5] |
Lin X, Jie L, Zeng H, et al. Font Generation Based on Least Squares Conditional Generative Adversarial Nets[J]. Multimedia Tools & Applications, 2018, 78(7): 1-15. |
[6] |
Li C, Wand M. Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks[C]//European Conference on Computer Vision, 2016: 702-716.
|
[7] |
Yang Z, Liu H, Cai D. On the Diversity of Conditional Image Synthesis with Semantic Layouts[J]. IEEE Transactions on Image Processing, 2019(99): 1-1. |
[8] |
Zhao Y, Takaki S, Luong H T, et al. Wasserstein GAN and Waveform Loss-based Acoustic Model Training for Multispeaker Text-to-speech Synthesis Systems Using a Wave Net Vocoder[J]. IEEE Access, 2018(99): 1-1. |
[9] |
GE Healthcare. 510(k)Summary of Safety and Effectivness K183202[S]. Waukesha: GE Medical Systems, LLC, 2018.
|
[10] |
Gong E, Pauly J M, Wintermark M, et al. Deep Learning Enables Reduced Gadolinium Dose for Contrast-enhanced Brain MRI[J]. Journal of Magnetic Resonance Imaging, 2018, 48(2): 330-340. DOI:10.1002/jmri.25970 |
[11] |
Yang Q, Yan P, Zhang Y, et al. Low-dose CT Image Denoising Using a Generative Adversarial Network With Wasserstein Distance and Perceptual Loss[J]. IEEE Transactions on Medical Imaging, 2018, 37(6): 1348-1357. DOI:10.1109/TMI.2018.2827462 |
[12] |
Center for Devices and Radiological Health. Premarket Approval(510k)Summary K182336[S]. Food and Drug Administration, 2018.
|
[13] |
Wang X, Wang X, Ni Y. Unsupervised Domain Adaptation for Facial Expression Recognition Using Generative Adversarial Networks[J]. Computational Intelligence & Neuroscience, 2018, 1-10. |
[14] |
Salome Kazeminia, Christoph Baur, Arjan Kuijper, et al. GANs for Medical Image Analysis[M]. New York: Arxiv org, 2018.
|
[15] |
Yu B, Zhou L, Wang L, et al. Ea-GANs:Edge-aware Generative Adversarial Networks for Cross-modality MR Image Synthesis[J]. IEEE Transactions on Medical Imaging(99): 1-1. |
[16] |
Miyato T, Maeda S I, Ishii S, et al. Virtual Adversarial Training:A Regularization Method for Supervised and Semi-Supervised Learning[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017(99): 1-1. |