ICLR 2020 | Bengio 一作论文:因果机制元学习与模型泛化如何产生关联?

转自 机器之心

Yoshua Bengio 等人基于学习器适应新分布的速度提出一种元学习因果结构,这些新分布由干预、智能体动作以及其它非稳态(non-stationarity)导致的稀疏分布变化引起。这项研究证明,在此假设下,正确的因果结构选择会使学习器更快地适应修改后的分布,因为在所学知识经过适当模块化后,分布变化将集中在一或多个机制中。这导致稀疏的预期梯度,以及在适应此类变化时需要重新学习的有效自由度的数量较少。因而,该研究将适应修改后分布的速度作为元学习的目标,表明这可用于决定两个观测变量之间的因果关系。

分布变化无需对应标准干预,学习器不具备关于干预的直接知识。该研究证明,因果结构可通过连续变量进行参数化,并以端到端的形式学得。研究者还探索了如何将这些想法用于学习编码器来映射低级观测变量与导致更快速分布外适应的未观测因果变量,进而学得一个表示空间,使之满足独立机制以及动作和非稳态导致的机制内微小稀疏变化的假设。


论文链接:https://arxiv.org/pdf/1901.10912.pdf

机器学习方法的泛化难题

目前的机器学习方法在训练分布以外的数据上泛化效果较弱,而泛化在实践中又是必然的。因此在与训练数据来自同一分布的测试集上取得优秀的泛化效果还不够,我们还希望在一个数据集上学得的内容可以在其它相关分布上实现很好的泛化。这些分布可能包含学习器见过的概念,而变化通常源于智能体的动作。一般而言,我们希望先前学得的知识能够形成坚实的基础,使学习器很快地适应新型相关分布,即获得优异的迁移结果。学习器可能仍需学习一些新概念,但是由于大部分其它相关概念(及其构成)已经被学习器捕捉,因此在迁移分布上的学习将非常迅速。
在缺乏假设的情况下,在无关的分布上实现成功的迁移是不可能的。这项研究假设在以适当的模块化方式表示知识时,分布变化是稀疏的,只有一个或少量模块发生变化。当分布变化由一或多个智能体的动作引起(如因果关系文献中探讨的干预)时尤其如此,即因果变量被限定为某个特定值。通常,智能体很难同时影响多个底层因果变量,尽管该研究并未过多涉及智能体学习,但它利用了智能体学习环境来帮助发现这些变量及其彼此之间的因果关系。
要想激发对因果结构推断的需求,你需要考虑真正实施或在想象中实施干预。若要以考虑干预的方式进行适当规划,那么你需要想象干预导致的变量联合分布的变化,即使之前从未见过这种变化。这超出了良好迁移学习的范畴,需要因果学习和因果推理。因此,仅学习观测变量的联合分布还不够。你还应当充分学习底层高级变量及其与恰当推断干预效果的因果关系。例如,A=Raining causes B=Open Umbrella(反之则不然)。改变 Raining 的边缘概率(如由于天气发生变化)不会改变 A 和 B 之间的关联机制(P(B|A)),但这会对 P(B) 产生影响。反过来,智能体对 B (Open umbrella) 的干预不会影响到 A (Raining)。这种不对称仅从 (A, B) 训练对中通常是无法看到的,除非分布发生变化,比如干预引起的分布变化。
这是该研究的动机,即学习器基于未必已知的干预带来的一组分布进行学习,不仅能够捕捉联合分布,还能发现一些底层因果结构。

Yoshua Bengio 等人的新思路

机器学习方法通常利用某种形式的数据分布假设(没有免费午餐定理告诉我们不要对泛化抱有信心)。该研究不仅考虑数据分布假设,还考虑分布的变化(如由于智能体的某些动作,训练分布转变为迁移分布)。该研究依赖这一假设:当关于分布的知识得到恰当表示时,分布的变化较小。这得益于底层假设(不过该假设很难直接验证):由于干预的某种泛化形式导致分布变化,因此仅有一个或少量真值机制发生改变。
如何才能利用这一假设呢?该研究进行了理论和实验验证,发现如果拥有正确的知识表示,则在训练分布上经过良好训练的模型能够快速适应迁移分布。这得益于该研究的假设:真值数据生成过程是独立机制的组成部分,当训练分布变成迁移分布时,仅有少量真值机制和参数需要改变。因此,捕获对应知识分解的模型仅需要少量更新和示例即可适应迁移分布。下文将展示,在未经更改的参数上预期梯度接近于 0(前提是模型在训练分布上得到很好的训练),因此在适应迁移分布的过程中有效搜索空间将大大缩小,从而实现快速适应。
因此,基于「正确的知识表示空间带来微小的分布变化」这一假设,研究者定义了度量适应速度的元学习目标,从而优化知识的表示、分解和结构化方式。这是该研究的核心想法。注意,在存在更多非稳态(即分布出现很多变化)时获得的信号也会更强,就像元学习中更多的元示例会带来更好的结果一样。
通过这种方式,研究者将机器学习领域通常认为的麻烦事(非稳态、不受控制的干预等导致的分布变化)转换成训练信号,从而找到一种恰当的方式将知识分解为匹配微小变化这一假设的组件和机制。因此,研究者最终以端到端的方式对在分布变化上的快速迁移及其稳健性进行优化。如果数据真的基于独立因果机制的组成部分生成,则存在模拟该结构的知识分解。如果在每个时间步中,现实世界智能体只能改变一个或少量高级变量(或生成这些高级变量的相关机制),则该研究关于(正确知识表示的)微小变化的假设得到验证。此外,除了实现快速迁移以外,该研究或许还能将对真实因果分解的近似恢复为独立机制(达到观测和干预能够揭示这些机制的程度)。


何为因?何为果?


学习具备两个离散变量的因果图


假设 A 和 B 是可以取 N 个可能值的离散变量,则考虑使用以下公式(A → B 模型和 B → A 模型)来估计其联合分布:


关于适应迁移分布的实验

研究者进行了多次实验,来对比正确的因果模型和不正确模型在迁移分布上的学习曲线。在来自不同但具备相关性的迁移分布的数据上仅执行少量梯度步的适应对于获得元学习算法可用的信号至关重要。为了展示适应的效果,促进对来自迁移分布的少量数据的利用,研究者在离散随机变量上对模型进行试验,变量可取 N = 10 个可能值。

研究者进行了多次实验,来对比正确的因果模型和不正确模型在迁移分布上的学习曲线。在来自不同但具备相关性的迁移分布的数据上仅执行少量梯度步的适应对于获得元学习算法可用的信号至关重要。为了展示适应的效果,促进对来自迁移分布的少量数据的利用,研究者在离散随机变量上对模型进行试验,变量可取 N = 10 个可能值。