文档结构  
翻译进度:已翻译     翻译赏金:5 元 (?)    ¥ 我要打赏

我实在对这个难题感到很困惑。它让我每天都处于六神无主的状态,好像我就是无法找到将它解决掉的可靠办法。不,我所谈论的与其说是关于世界政治或现任美国总统,倒不如说是关于和人类休戚相关的事,更具体地说,就是关于我们身为工程师和研究人员该如何生存和工作。我说的是关于…深度学习的难题

虽然你可能会发现我的以上描述相当夸夸其谈,言过其词,但深度学习确实给我们提出了几个必须解决的关键问题。在以下的段落中,我希望给大家曝光源于此领域的出现才滋生出的一个关键的对抗,该对抗又与图像处理领域的研究人员紧密相连。

第 1 段(可获 1.44 积分)

首先,只需深度学习的寥寥数语就能让我们正确看待这场讨论。人们获悉神经网络的存在已有几十年了,由此一套放之四海而皆准的学习技巧也应运而生,该技巧原则上可以适用于人们去学习所有的数据源。在其前馈结构里,多层感知器——也被称为神经元——首先运行输入量的加权平均,其次是非线性,如S状曲线或纠正线性曲线。人们可以修整这个超级简单的系统,用其将既定的输入量调整到其所需的输出量,并服务于各种监督回归和分类问题。

第 2 段(可获 1.1 积分)

所有这一切听起来都很好,但不幸的是,这一理念在20世纪80年代和90年代并没有获得普及——只因它没能表现出十足的竞争力。此外,对学习任务采用支持向量机的应运而生,伴随着坚实的理论基础和凸优化配方,该理念更是被宣告大势已去。最终,神经网络进入了漫长的蛰伏期。只有几位坚持不懈的研究人员——Yann LeCun(纽约大学和脸谱网),Geoffrey Hinton(多伦多大学)、Yoshua Bengio(蒙特利尔大学),和 Jürgen Schmidhuber(从事人工智能研究的Dalle Molle学院——仍停留在这个舞台上,坚持试图说服大家说这个看似注定无可救药的方法一定能够起死回生。好几个重要的体系结构构建成功,如卷积码和冗长的的短期记忆网络,都和他们的努力是分不开的,但它们的适用范围仍很有限。接着神经网络又突然卷土重来,而且来势汹涌。

第 3 段(可获 1.85 积分)

在2000年代初发表的一系列论文都建议这种结构应被成功应用起来,势必造就对差不多所有指派的任务都能出色完成的效果。要做出这些贡献所需掌握关键方面包括:一层层诸多网络的使用,这也更好地说明什么叫“深度学习,“ 即深度学习是用来修整大量数据库的;大量的计算通常运行在计算机集群或图形处理单元里;明智的优化算法,即采用有效的初始化和渐进的随机梯度学习法。不幸的是,要取得所有这些伟大的经验成果,却几乎没有任何在理论上可以理解的基本范本可以用来照葫芦画瓢。此外,在学习过程中所采用的优化又是从理论上看来高度非凸的和棘手的。

第 4 段(可获 1.4 积分)

此应用程序的尝试始于书面数字识别(见图1),然后慢慢地,小心翼翼地转向更具挑战性的视觉和语音识别和自然语言处理任务,并从那里人们几乎可以投入几乎所有的监督学习任务。谷歌、脸谱网和微软等公司很快就意识到了这一领域的潜力,它们都已经投入了大量的人力和预算,以便掌握这些工具并在他们的产品中将其加以利用。在学术前沿,有关信号处理,图像处理和计算机视觉的各项会议已成为深度学习的园地,这也有助于这个工作行当逐渐占据主导地位。

第 5 段(可获 1.29 积分)

图1。 神经网络已显示出巨大的潜力,首先用于字符识别,随后用于许多其他的作业。图片来源:Michael Elad。

这段发展史将我们带到今天。为了简洁起见,考虑一下对经典的图像处理作业采用去噪法——即从图像中去除噪声(见图2)。多年来,有数千篇关于这项基本作业的论文得以发表。研究人员用偏微分方程当工具开发出了既美丽又深邃的数学思想,譬如各向异性扩散和总变差,能量最小化观点,对流形图像采用几何解释,利用贝尔特拉米流等等。谐波分析和逼近理论也用来完成去噪任务,使得微波理论和稀疏表示得以取得重大突破。其他的奇思妙想包括低秩近似,非本地手段,贝叶斯估计,稳健统计。因此,在过去的三年中,我们获得了大量的图像处理知识,对许多其他的图像处理作业产生了影响,并在数学上有效地提升这一领域到一更高水准。

第 6 段(可获 2.05 积分)

图2.去噪的例子.  左图。原始图像(公共领域)。 中图。 该图像为受标准= 100的加性高斯噪声所败坏后。右图。由一种领先的算法得出的去噪结果——即BM3D [ 1 ]了。图片来源:Michael Elad。

在2012年,Harold Burger,Christian Schuler和Stefan Harmeling三人决定把深度学习投入到这个问题的解决中。这个想法从概念上来讲很简单:去拿一大组干净的图像,给它们添加合成噪声,然后将它们局限在学习过程中,其目的就是把一张张嘈杂的图像转变成一张张干净的图像。而这一过程不但是繁琐的和令人沮丧的,而且是漫长的——为找出最佳效果而调整这种方法的各项参数可能要花费很长的一段时间——最终的结果是形成了一个网状图像,该网状图像比当时任何经去噪算法处理过的已知图像所表现的效果都要好些。

第 7 段(可获 1.66 积分)

以上做法不是个案。今天,人们用深度学习来满足处理许多其他图像的需要,已经取得无与伦比的效果。该效果更是千真万确的,譬如用其处理单幅图像超分辨率,插值,复原、分割、图像标注和人脸识别等。

我们应该对这种趋势感到高兴吗?那么,如果我们正在着手解决实际问题,如去除噪音,那么结果肯定是如果哪里有噪音,那么那里的噪音就会被去除干净。对吗?因此,寻求到如此解决方案的公司应该会感到很满意。但是我们科学家又能做些什么呢?我们对图像去噪问题背后所付出的巨大努力,其真正目标又是什么呢?是的,我们的目标就是相当有效的噪声去除算法,但这只构成了我们动机的一小部分,因为我们还有一个更广泛和更深层的日常安排。在我们领域的研究人员旨在了解我们操作所依赖的数据。这是通过建模信息,得以破译其真实的维数和表现的现象。这样的模型在图像处理中对去噪和诸多其他问题都很有用,但它们的用处远远不止于此,它们允许识别新的方法来从数据中提取相关知识,使我们获得全新的视野。

第 8 段(可获 2.26 积分)

现在再次回到主题上:我们对基于深度学习而得出的解决方案应该感到高兴吗?我们遭受的挫折是合理的吗?深度学习在成像科学中的作用是什么?当各社区的研究人员在会议上碰头时,这些问题就都露了出来,答案是千奇百怪的,令人不知其所以然。事实胜于雄辩;在大多数情况下,基于深度学习而获得的解决方案,不但缺乏数学的优雅,而且会出现对已经发现的解决办法提供很少的解释性或对底层缺乏理解的现象。然而,从积极的方面来看,取得的成绩是惊人的。这显然不是我们一直所传授的研究学派,也不是我们想付诸实践的那种科学。我们是否应该坚持更严格的方法,即便付出的成本远远落后于产量质量方面?或者我们应该反击,并寻求方法融合深度学习理念到我们日常实践中呢?

第 9 段(可获 1.89 积分)

为了进一步将这件事情弄复杂些,某些基于深度学习而取得的成果具有一些典雅美,该典雅美是谁都无法抹杀的。对于风格转移的问题来说,目前情形就是这样,因为它已经产生了令人惊讶的美丽效果,而对于学习网络的反演想法以往常被用于凭空合成图像,正如谷歌的深度梦想项目所做的一样。就在几年前,对于如何制定这样的复杂作业,我们往往手足无措;现在若碰到这些复杂作业我们只是将它们作为一种深度神经网络的副产品很快就迎刃而解了,因为该深度神经网络曾为如何应对视觉分类的完全无关作业接受过专门训练。

第 10 段(可获 1.13 积分)

从我个人的角度来看,图像处理研究人员对最近的这种深入学习的趋势感到厌恶和嫉妒,不断把自身推向我们的圈子。 我们中的一些人现在已经选择了做旁观者,而另外一些人相互协调并转移他们的研究议程。 我属于后者,有一些限制。 在我看来,想象这波通过并对我们的领域没有明显的影响是不可能的。 因此,我允许深入学习来影响我的研究团队的想法和行动,但是我们继续坚持要求数学优雅,清楚地了解我们开发的想法。 时间会告诉我们是否瞄准了不可能的事情。

第 11 段(可获 1.49 积分)

总而言之,绕回到我的有关深度学习对人类产生巨大影响的开场白,在将来的几十年里人类的生活可能会发生翻天覆地的变化。类人机器人和智能系统可能会占据我们的日常生活,影响我们从事的许多活动,连就业和工作可能已经成为过往,人与人之间的关系可能会发生剧烈变革。坦率地说吧,你的孙子很可能会找一个机器人当配偶。这是句双关语:在这个稀奇古怪的未来后面许多技术很可能会从深度学习和它的后续领域中浮出水面。

第 12 段(可获 1.2 积分)

虽然这项技术的前进步伐日新月异,我们却没有停下来思考一下这是否就是我们自己想要的未来。工程师和研究人员的好奇心和惊人天赋正势不可挡地推着我们走向未来,正如各类公司紧盯利润当做自己的主要目标一样。我们为什么很少参与讨论,去规范或控制这一进程的发生,并引导它朝着一个理想的未来挺进呢?这是另一篇文章所涉及的问题。

你对深度学习用于图像处理和人性的影响有什么想法吗?向我们发送一封信给编辑或者博客在 sinews@siam.org来分享你的反馈,或在下面的评论里发张帖子。

第 13 段(可获 1.41 积分)

应答: 作者要感谢Alex Bronstein和Ron Kimmel提出的宝贵意见,这有助于我调整文章的内容。

引用

[1]Dabov,K。Foi, A., Katkovnik,V。和 Egiazarian,k(2007年)。凭借在亮度色度空间中采用分组约束的稀疏三维协同滤波而获得的去噪彩色图像。Proc. IEEE Int. Conf. Image Process., 1, I-313-I-316.

Michael Elad是以色列技术学院理工分院计算机科学系的一名教授。他也是《暹罗成像科学杂志》的主编。

第 14 段(可获 1.04 积分)

文章评论