“几何深度学习”受爱因斯坦启示:让AI摆脱平面看到更高的维度!

转自 新智元

现在,计算机可以驾驶汽车,在象棋和围棋中击败世界冠军,甚至撰写散文。人工智能的革命很大程度上源于一种特殊类型的人工神经网络的力量,其设计灵感来自哺乳动物视觉皮层中神经元的连接层。事实证明,这些“卷积神经网络”(CNN)擅长于学习二维数据中的模式,尤其是在计算机视觉任务中得到了广泛应用。

但是,如果将卷积神经网络用于没有内置平面几何形状的数据集(如3D计算机动画中使用的不规则形状的模型,或者自动驾驶汽车生成的点云来绘制周围环境),这种强大的机器学习架构的效果就要受到影响。2016年前后,出现了一种称为几何深度学习的新学科,其目标是将CNN拓展到平面之外。

现在,研究人员提供了一个新的理论框架,可用于构建可以学习任何几何表面上的图案的神经网络。由阿姆斯特丹大学和高通AI研究中心的Taco Cohen,Maurice Weiler,Berkay Kicanaoglu和Max Welling开发的“等规卷积神经网络”,不仅可以检测2D像素阵列中的模式,而且还可以检测在球体和不对称弯曲的物体上的模式。Welling表示:“这个框架是对曲面上深度学习问题的绝对确定的答案。”

在模拟全球气候数据的学习模式中,这种新架构的性能已大大超过了其前辈。该算法还可能改善可视3D目标的无人机和无人驾驶汽车的视觉效果,对于心脏、大脑或其他器官的不规则曲面上收集的数据,分析能力也能大为提升。


研究人员要让深度学习模型摆脱平面的束缚,也与物理学有着深厚的联系。描述世界的物理理论,比如爱因斯坦的广义相对论和粒子物理学的标准模型,都表现出一种称为“规范等变”的性质。这意味着世界上的量及其关系不依赖于任意的参照系。

无论观察者是移动还是静止不动,无论标尺上的数字有什么不同,这些量和关系都是一致的。在不同的量度上进行的测量要想进行转换,必须要能够相互保留彼此之间这些不变的潜在关系。

举个例子,测量一个足球场的长度,首先以码为单位,然后再以米为单位进行测量,得到的数字是不同的,但这是一种可预测的不同。同样,两位摄影师从两个不同的有利位置拍摄同一个对象的照片会产生不同的图像,但是这些图像可以彼此关联。量表的等方差可确保物理学家的现实模型保持一致,无论他们的观测点或测量单位如何变化。

纽约大学物理学家凯尔·克兰默(Kyle Cranmer)说:“他们希望将这种思想其、引入神经网络,要将机器学习应用于粒子物理学数据上,而且成功实现了。”

规范等变卷积神经网络:“逃离平面,看懂3D”

伦敦帝国理工学院的计算机科学家迈克尔·布朗斯坦(Michael Bronstein)在2015年提出“几何深度学习”一词,用以描述为神经网络摆脱平面束缚而进行的新努力,并设计了可以学习非平面数据模式的神经网络。这个词和相关研究工作很快流行起来。

Bronstein明白,要想超越欧几里德平面,需要重新构想一种基本的计算程序,该程序首先使神经网络能高效实现2D图像识别。此过程称为“卷积”,它使神经网络的一层对输入数据一小批执行数学运算,然后将结果传递到网络中的下一层。

“基本上可以将卷积视为滑动的窗口,” Bronstein解释说。卷积神经网络将许多这些“窗口”滑动到数据上,例如过滤器,每一个都旨在检测数据中的某种模式。如果是猫的照片,经过训练的CNN可能会使用过滤器来检测原始输入像素中的低级特征,例如边缘。

这些特征会传递到网络中的其他层,执行其他卷积,并提取更高层的特征,如眼睛,尾巴或三角形的耳朵。用于识别猫的CNN最终将使用这些分层卷积的结果,为整个图像分配标签(“是猫”或“不是猫”)。

但这种方法仅适用于平面。韦林说:“如果要分析的表面是弯曲的,那么基本上会遇到麻烦。”

在曲面上进行卷积(在几何学上称为“流形”),就像在地球上拿着一小块半透明的方格纸,然后试图准确地追踪格陵兰岛的海岸线一样困难。不可能在不使纸张起皱的情况下,将正方形按在格陵兰岛上,也就是说,当再次把这张纸展平时,图形将会出现变形。

如果流形不是球形的这样的整齐球体,而是瓶子的形状,或是折叠的蛋白质等更复杂、更不规则的物体,则在这些