【技术干货分享】AI反欺诈算法:图神经网络(GNN)

转自 同盾反欺诈服务 https://mp.weixin.qq.com/s/3J4riS6R_UrE_5rn2lnCBA

图神经网络(GNN)最早是Franco Scarselli和Marco Gori等人在论文《The Graph Neural Network Model》中提出的,它拓展了已有的神经网络模型,用于处理图或者网络结构的数据。图神经网络已经是一个AI未来重要的发展方向。

它的算法思想是基于节点的局部邻居及其自身特征信息对节点进行表示学习(Node Representation Learning)。本质上是通过神经网络对聚合节点及其邻居节点的特征信息做非线性变换。图神经网络有很多变种,可以从图的类型、训练方法和传播步骤等多方面进行变种分类。

示例图如下:

GCN图卷积神经网络

1.算法创新

卷积神经网络CNN主要应用于图像领域,但CNN处理的数据是具有显著标准的空间结构的,而网络拓扑图的数据并不具有标准空间结构。GCN 是对CNN在图论上的自然推广,GCN理论基础是谱图理论。

本质上,GCN 是谱图卷积的局部一阶近似,可以用于对局部图结构与节点特征信息进行编码生成节点Embedding。GCN适用性极广,能适用于任意网络拓扑结构图。

模型结构图如下图所示:

论文中为了简化处理,使用了一个两层的GCN进行节点分类。将节点的特征信息与邻接矩阵相乘,然后经过ReLU激活函数处理,最终输出层是softmax函数提供分类,即可得到每个节点的预测label概率。

在半监督分类场景下,可以用有label节点上的交叉熵误差(cross-entropy error)作为损失函数

具体参见《Semi-Supervised Classification with Graph Convolutional Networks》

2.算法原理

GCN算法原理主要包括传播、聚合和非线性变换,具体解释如下:

传播

传播是指图中的每一个节点将自身的特征信息发送给相邻的邻居节点。

聚合

聚合是指图中每个节点将邻居节点的特征信息汇聚的过程,是对节点的局部结构信息进行融合。局部结构信息可以理解为CNN的感知域,共享卷积核权重,正比于神经网络的层数;迭代开始时,每个节点包含了直接连接邻居的特征信息,当计算神经网络第二层时就能把邻居的邻居节点的特征信息聚合进来,从而使参与运算的信息就更多更充分。

层数越多,感知域就更广,参与运算的节点信息就越多。

非线性变换

对聚合之后特征信息做非线性变换,增加模型的表示能力。

GraphSAGE通用归纳框架

1.算法创新

《Inductive Representation Learning on Large Graphs》论文提出了GraphSAGE (SAmple and aggreGatE),是一种归纳框架。

它可以利用节点特征信息来高效地为未出现过的节点生成Node Embedding。它不是为每个节点专门训Embedding,而是训练得到一个函数,这个函数功能是从节点的局部邻居节点采样并聚合特征信息。

图一是采样Sampling,以节点为中心进行广度优先遍历方式采样邻居节点,得到包含中心节点和它的邻居节点的子集。使用采样一定程度上解决了计算资源压力的问题,使图神经模型可以在大规模图数据集上训练;

图二是训练一组聚合函数,这些函数学习如何从一个节点的局部邻居节点聚合所有的特征信息。

图三是连接中心节点特征信息和聚合来自邻居节点特征信息,预测图的上下文环境和节点的标签类别。

2.算法原理

在每次算法迭代,节点聚合来自邻居节点的特征信息。随着迭代的加深,将会获取越来越远处节点的特征信息。 

k表示外循环,也就是迭代的次数或者搜索的深度。v表示内循环,也就是循环图中每一个节点。在第k次迭代过程中,对图中的任意节点v,

具体算法如下:

图神经网络在反欺诈上应用

在反欺诈领域,根据业务场景构建图,再结合图神经网络技术,挖掘欺诈团伙。比如反垃圾注册场景,我们可以共用设备来构图,也可以构建账号和设备的异构图,这里的设备主要包括设备的deviceid、mac、imei和imsi等信息,算法采用图神经网络GCN对图中结构信息和自身的特征进行有效的信息抽取和分析,挖掘垃圾注册团伙,能够大幅提高识别效果。

以电商反薅羊毛场景为例,我们同样可以构建以事件、设备、购买金额、收获地址和ip等结合异构图,然后再图神经网络GraphSAGE挖掘欺诈团伙。为客户创造价值。