用物理学突破深度学习理论瓶颈? Google-斯坦福发布《深度学习统计力学》综述论文,30页pdf阐述深度学习成功机制

转自 专知

地址:
https://www.annualreviews.org/doi/abs/10.1146/annurev-conmatphys-031119-050745

最近,深度神经网络在机器学习领域取得了惊人的成功,这对它们成功背后的理论原理提出了深刻的疑问。例如,这样的深度网络可以计算什么?我们如何训练它们?信息是如何通过它们传播的?为什么它们可以泛化?我们如何教它们想象?我们回顾了最近的工作,其中物理分析方法植根于统计力学已经开始提供这些问题的概念上的见解。这些见解产生了深度学习与各种物理和数学主题之间的联系,包括随机景观、自旋玻璃、干扰、动态相变、混沌、黎曼几何、随机矩阵理论、自由概率和非平衡统计力学。事实上,统计力学和机器学习领域长期以来一直享有强耦合交叉作用的丰富历史,而统计力学和深度学习交叉领域的最新进展表明,这些交叉作用只会进一步深化。

概述

具有多层隐含层(1)的深度神经网络在许多领域都取得了显著的成功,包括机器视觉(2)、语音识别(3)、自然语言处理(4)、强化学习(5),甚至在神经科学(6、7)、心理学(8、9)和教育(10)中对动物和人类自身的建模。然而,用于获得成功的深度神经网络的方法仍然是一门高度熟练的艺术,充满了许多启发,而不是一门精确的科学。这为理论科学提出了令人兴奋的挑战和机会,以创建一个成熟的深度神经网络理论,该理论强大到足以指导在深度学习中广泛的工程设计选择。虽然我们目前离这样成熟的理论还有很长的距离,但是最近在统计力学和深度学习交叉领域出现的一批研究已经开始为深度网络的学习和计算提供理论上的见解,有时还会提出新的和改进的方法来推动这些理论的深入学习。

在这里,我们回顾了建立在统计力学和机器学习相互作用的悠久而丰富的历史基础上的这一工作体系(11-15)。有趣的是,正如我们下面所讨论的,这些工作在统计力学和深度学习之间建立了许多新的桥梁。在本介绍的其余部分中,我们将为机器学习的两个主要分支提供框架。第一个是监督学习,它涉及到从例子中学习输入-输出映射的过程。第二种是无监督学习,它涉及到学习和挖掘数据中隐藏的结构模式的过程。有了这两个框架,我们将在1.3节中介绍本综述中讨论的几个深度学习的基本理论问题,以及它们与与统计力学相关的各种主题的联系。


总结

我们希望这篇综述能够传达出一种对深度学习在理论层面上的成功的理解。不可避免的是,我们目前的理论理解只是未来几年将出现的更加统一的图景的冰山一角。然而,令人兴奋的是,即使是这一可见的小领域,也揭示了深度学习这一新领域与统计力学和凝聚态物理这一相对古老的领域之间的丰富联系。实际上,这些领域的基本主题,如随机景观、相变、混沌、自旋玻璃、干扰、随机矩阵、相互作用粒子系统、非平衡统计力学,以及更多的数学主题,如自由概率和黎曼几何,都开始揭示深度学习中有趣的现象。

我们有很多机会,可以明智地将深度网络上的受控科学实验与更现实的训练数据和神经网络的玩具模型相结合,以加深我们现有的理解。这种实验与理论的结合一直是推动物理学概念进步的动力,我们相信,深度学习将为物理学家提供更多这样的研究机会。更有趣的是,这一研究领域可能为物理学家提供一个与计算机科学家和神经科学家联系的机会,同时也为非线性分布的神经回路(无论是人工的还是生物的)如何计算、交流、学习和想象提供一个统一的理论(190)。