分类目录归档:最新动态

多模态情感分析简述

转自 机器学习算法与自然语言处理

介绍

随着社交网络的快速发展,人们在平台上的表达方式变得越来越丰富,如通过图文和视频表达自己的情绪和观点。如何分析多模态数据(本文指声音,图像和文字,不涉及传感器数据)中的情感,是当前情感分析领域面临的机遇和挑战。
一方面,以往情感分析聚焦于单个模态。如文本情感分析着眼于分析,挖掘和推理文本中蕴含的情感。现在需要对多个模态的数据进行处理和分析,这给研究人员带来了更大的挑战。另一方面,多模态数据与单模态数据相比,包含了更多的信息,多个模态之间可以互相补充。例如,在识别这条推文是否为反讽,“今天天气真好!”。如果只从文本来看,不是反讽。而如果其附加一张阴天的图片,可能就是反讽。不同模态信息相互补充,可以帮助机器更好地理解情感。从人机交互角度出发,多模态情感分析可以使得机器在更加自然的情况下与人进行交互。机器可以基于图像中人的表情和手势,声音中的音调,和识别出的自然语言来理解用户情感,进而进行反馈。
综上来讲,多模态情感分析技术的发展源于实际生活的需求,人们以更加自然的方式表达情感,技术就应有能力进行智能的理解和分析。虽然多模态数据包含了更多的信息,但如何进行多模态数据的融合,使得利用多模态数据能够提升效果,而不是起了反作用。如何利用不同模态数据之间的对齐信息,建模不同模态数据之间关联,如人们听见“喵”就会想起猫。这些都是当前多模态情感分析领域感兴趣的问题。为了能够更好的介绍多模态情感分析领域的相关研究,本文梳理了目前多模态情感分析领域相关任务并总结了常用的数据集及对应的方法。

相关任务概览

本文通过不同模态组合(图文:文本+图片,视频:文本+图片+音频)来梳理相关的研究任务,对于文本+音频这种组合方式少有特意构建的相关数据集,一般通过对语音进行ASR或者使用文本+图片+音频中的文本+音频来构造数据集。对于文本+音频,语音方向的研究工作较多,所以本文暂未涉及。如表1所示,面向图文的情感分析任务有面向图文的情感分类任务,面向图文的方面级情感分类任务和面向图文的反讽识别任务。面向视频的情感分析任务有面向评论视频的情感分类任务,面向新闻视频的情感分类任务,面向对话视频的情感分类任务和面向对话视频的反讽识别任务。本文总结了与任务对应的相关数据集及方法,具体内容见第三部分。

表1 多模态情感分析任务概览

数据集和方法

本文总结了13个公开数据集,其中包括8个视频数据集和5个图文数据集。本文还总结了与面向图文的情感分类任务,面向图文的方面级情感分类任务,面向图文的反讽识别任务,面向评论视频的情感分类任务和面向对话视频的情感分类任务五个任务对应的相关研究方法。

面向图文的情感分类任务

数据集

Yelp数据集来自Yelp.com评论网站,收集的是波士顿,芝加哥,洛杉矶,纽约,旧金山五个城市关于餐厅和食品的Yelp上的评论。一共有44305条评论,244569张图片(每条评论的图片有多张),平均每条评论有13个句子,230个单词。数据集的情感标注是对每条评论的情感倾向打1,2,3,4,5五个分值。

继续阅读

CCCF专题 | 基于图神经网络的知识图谱研究进展

转自 专知

近几年来,人工智能技术得到了飞速发展,其进展突出体现在以知识图谱(Knowledge Graph)为代表的知识工程和以图神经网络(Graph Neural NetWorks, GNN)为代表的深度学习等相关领域。融合知识图谱与图神经网络已然成为研究人员进一步完善知识图谱学习与提升图神经网络模型推理能力的重要技术思路。

知识图谱是以图的形式表现客观世界中的实体及其之间关系的知识库,实体可以是真实世界中的物体或抽象的概念,关系则表示了实体间的联系。因此,知识图谱能够以结构化的形式表示人类知识,通过知识表示和推理技术,可以给人工智能系统提供可处理的先验知识,让其具有与人类一样的解决复杂任务的能力[1~3]。如何更好地构建、表示、补全、应用知识图谱,已经成为认知和人工智能领域重要的研究方向之一。

图 神 经 网 络 的 概 念 最 早 于 2005 年 由 戈 里(Gori)等人[4] 提出,是一种专门用于处理图结构数据的神经网络模型。使用图可以更准确和灵活地对现实应用中的数据建模,如在电子商务领域中的用户 – 产品交互图、化学领域的分子图、医药领域的药物副作用图等。因此,研究者们设计了多种图神经网络模型,包括图卷积网络(Graph Convolu-tional Network,GCN)[5~7]、图注意力网络(Graph Attention Network,GAT)[8] 等。此外,由于异质图具有更灵活的建模和融合信息的能力[9],研究者们还尝试设计和应用基于异质图的图神经网络模型[10~12]。如何设计更合理的图神经网络模型,使信息沿着图结构更合理地传播,从而提升模型对图结构数据的拟合能力,是人工智能领域的一个热点问题。

近年来,描述常识和事实的知识图谱成为了学术界和工业界广泛使用的知识表示方式,图神经网络在信息传播、关系归纳偏置上也展现了优秀的性能[13]。考虑到知识图谱本身恰好就是一种图结构数据,因此采用图构建知识和数据之间的关联,同时应用图神经网络技术,有望结合知识和数据实现更好的可解释和可信人工智能技术。一方面,利用图神经网络在学习节点、边表示上的优势,可以更好地学习知识图谱的实体、关系的嵌入表示,改善关系抽取等任务,帮助构建知识图谱,以及提高链接预测等任务,帮助补全知识图谱 ;另一方面,利用图神经网络在信息传播和推理上的优势,可以更有效地在应用任务中引入知识图谱中的信息,从而改善如文本挖掘、推荐系统、计算机视觉等领域中的应用效果,提供可解释的模型。

本文将对知识图谱与图神经网络模型相融合的方法及应用进行综述。主要包括以下内容:

继续阅读

微软旷视人脸识别100%失灵!北京十一学校校友新研究「隐身衣」,帮你保护照片隐私数据

转自 量子位

左图,右图,你能看出区别吗?

其实,算法已经悄悄给右边的照片加上了微小的修改。

但就是这样肉眼根本看不出来的扰动,就能100%骗过来自微软、亚马逊、旷视——全球最先进的人脸识别模型!

所以意义何在?

这代表着你再也不用担心po在网上的照片被某些软件扒得干干净净,打包、分类,几毛钱一整份卖掉喂AI了。

这就是来自芝加哥大学的最新研究:给照片加上一点肉眼看不出来的修改,就能让你的脸成功「隐形」。

如此一来,即使你在网络上的照片被非法抓取,用这些数据训练出来的人脸模型,也无法真正成功识别你的脸。

继续阅读

深度学习之父Hinton:下一代神经网络

转自 AI科技评论

SIGIR是一个展示信息检索领域中各种新技术和新成果的重要国际论坛 ,2018年图灵奖得主Geoffrey Hinton带来了主题为《The Next Generation of Neural Networks》的讲座。

在讲座中,Hinton指出:人工神经网络最重要的未解难题之一,是如何像大脑一样有效地进行无监督学习。当前有两种主要的无监督学习方法:第一种方法,以BERT和变分自编码器为例,使用了深度神经网络来重建其输入。这种方法对于图像来说是有问题的,因为网络的最深层需要对图像的精细细节进行编码。

第二种方法是Becker和Hinton在1992年提出的:当给定相同图像的两个不同片段作为输入时,训练深度神经网络的两个副本以产生具有高互信息的输出向量。设计此方法的目的是使表征形式不受输入无关细节的束缚。

Becker和Hinton使用的优化互信息的方法存在缺陷(出于一个微妙的原因,讲座中会解释),因此Pacannaro和Hinton将其替换为判别性目标函数,在该目标函数中,一个向量表征必须从许多替代方案中选择相应的向量表征。表征的对比学习(contrastive learning of representations)被证明非常有效,但是它存在一个主要缺陷:要学习具有N位互信息的成对的表征向量,我们需要将正确的对应向量和大约2^N个错误的替代方案进行对比。Hinton将描述解决这种局限性的新颖有效方法,并且表明这将导致在皮质中实现感知学习的简单方法。以下是演讲全文,

无监督学习的历史

1、自编码器

继续阅读

“几何深度学习”受爱因斯坦启示:让AI摆脱平面看到更高的维度!

转自 新智元

现在,计算机可以驾驶汽车,在象棋和围棋中击败世界冠军,甚至撰写散文。人工智能的革命很大程度上源于一种特殊类型的人工神经网络的力量,其设计灵感来自哺乳动物视觉皮层中神经元的连接层。事实证明,这些“卷积神经网络”(CNN)擅长于学习二维数据中的模式,尤其是在计算机视觉任务中得到了广泛应用。

但是,如果将卷积神经网络用于没有内置平面几何形状的数据集(如3D计算机动画中使用的不规则形状的模型,或者自动驾驶汽车生成的点云来绘制周围环境),这种强大的机器学习架构的效果就要受到影响。2016年前后,出现了一种称为几何深度学习的新学科,其目标是将CNN拓展到平面之外。

现在,研究人员提供了一个新的理论框架,可用于构建可以学习任何几何表面上的图案的神经网络。由阿姆斯特丹大学和高通AI研究中心的Taco Cohen,Maurice Weiler,Berkay Kicanaoglu和Max Welling开发的“等规卷积神经网络”,不仅可以检测2D像素阵列中的模式,而且还可以检测在球体和不对称弯曲的物体上的模式。Welling表示:“这个框架是对曲面上深度学习问题的绝对确定的答案。”

在模拟全球气候数据的学习模式中,这种新架构的性能已大大超过了其前辈。该算法还可能改善可视3D目标的无人机和无人驾驶汽车的视觉效果,对于心脏、大脑或其他器官的不规则曲面上收集的数据,分析能力也能大为提升。


研究人员要让深度学习模型摆脱平面的束缚,也与物理学有着深厚的联系。描述世界的物理理论,比如爱因斯坦的广义相对论和粒子物理学的标准模型,都表现出一种称为“规范等变”的性质。这意味着世界上的量及其关系不依赖于任意的参照系。

无论观察者是移动还是静止不动,无论标尺上的数字有什么不同,这些量和关系都是一致的。在不同的量度上进行的测量要想进行转换,必须要能够相互保留彼此之间这些不变的潜在关系。

举个例子,测量一个足球场的长度,首先以码为单位,然后再以米为单位进行测量,得到的数字是不同的,但这是一种可预测的不同。同样,两位摄影师从两个不同的有利位置拍摄同一个对象的照片会产生不同的图像,但是这些图像可以彼此关联。量表的等方差可确保物理学家的现实模型保持一致,无论他们的观测点或测量单位如何变化。

纽约大学物理学家凯尔·克兰默(Kyle Cranmer)说:“他们希望将这种思想其、引入神经网络,要将机器学习应用于粒子物理学数据上,而且成功实现了。”

继续阅读

大脑只需单个神经元就可进行XOR异或运算,Science新研究揭开冰山一角,引发热议

转自 量子位

在机器学习中,异或(XOR)这样的非线性问题一直需要多层神经网络来解决。科学家一直以为,即使在人类大脑中,XOR运算也需要多层神经元网络才能计算。

但是大脑远比人类想象得“高能”。

最新研究发现:人类大脑只需要单个神经元就可以进行XOR运算。这项研究登上了最新一期的Science杂志。

来自德国洪堡大学的学者们在论文中表示:我们的发现,对构成细胞功能算法的生理基础提供了洞见,这些基础模块最终引发了大脑皮层网络的行为。

一直热爱给AI泼冷水的马库斯也非常关注,甚至觉得这个研究可能重塑对神经网络的看法。

在推特上,这一研究已经收获700多次转发,近2000赞。在reddit谈论上,也已经引发了100多条讨论。

继续阅读

集大成者!可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

转自 专知

地址:https://www.zhuanzhi.ai/paper/e9f05516bbee0d997460bfb961b18d3a

摘要

在过去的几年里,人工智能(AI)取得了显著的发展势头,在不同领域的许多应用中它可能会带来最好的预期。当这种情况发生时,整个社区都面临可解释性的障碍,这是人工智能技术的一个内在问题,它是由次象征主义(模型例如集成算法或深层神经网络)带来的,而这些在人工智能的最上一次高潮中是不存在的。这个问题背后的范例属于所谓的可解释AI (XAI)领域,它被认为是AI模型实际部署的一个关键特性。本文综述了XAI领域的现有文献,并对未来的研究方向进行了展望。我们总结了在机器学习中定义可解释性的前期工作,建立了一个新的定义,它涵盖了先前的概念命题,主要关注可解释性所关心的受众。然后,我们提出并讨论了与不同机器学习模型的可解释性相关的最近贡献的分类,包括那些旨在建立第二种体系的深度学习方法。这篇文献分析为XAI面临的一系列挑战提供了背景,比如数据融合和可解释性之间的十字路口。我们构建了负责任的人工智能的概念,即一种以公平、模型可解释性和问责性为核心的在真实组织中大规模实施人工智能方法的方法。最终目标是为XAI的新来者提供参考资料,以促进未来的研究进展,同时也鼓励其他学科的专家和专业人员在他们的活动领域拥抱AI的好处,而不是因为它缺乏可解释性而事先有任何偏见。

关键词: 可解释人工智能,机器学习,深度学习,数据融合,可解释性,可理解性,透明性,隐私,公平性,可问责性,负责任的人工智能。

继续阅读

2019->2020必看的十篇「深度学习领域综述」论文

转自 机器学习算法与自然语言处理

辞九迎零,我们迎来2020,到下一个十年。在2019年机器学习领域继续快速发展,元学习、迁移学习、小样本学习、深度学习理论等取得很多进展。在此,小编整理了这一年这些研究热点主题的综述进展,共十篇,了解当下,方能向前。

1、A guide to deep learning in healthcare(医疗深度学习技术指南)

Google 斯坦福 Nature Medicine

作者:Andre Esteva, Alexandre Robicquet, Bharath Ramsundar, Volodymyr Kuleshov, Mark DePristo, Katherine Chou, Claire Cui, Greg Corrado, Sebastian Thrun & Jeff Dean


摘要:我们介绍了医疗保健的深度学习技术,重点讨论了计算机视觉、自然语言处理、强化学习和广义方法的深度学习。我们将描述这些计算技术如何影响医学的几个关键领域,并探讨如何构建端到端系统。我们对计算机视觉的讨论主要集中在医学成像上,我们描述了自然语言处理在电子健康记录数据等领域的应用。同样,在机器人辅助手术的背景下讨论了强化学习,并综述了基因组学的广义深度学习方法


网址
https://www.nature.com/articles/s41591-018-0316-z


继续阅读

深度学习”这十年:52篇大神级论文再现AI荣与光

转自 新智元

随着2020年的到来,人类进入了一个崭新的十年。回顾过去10年,深度学习领域取得的巨大进步。随着计算能力的不断提高和大数据可用性的不断提高,深度学习已经成功地解决了许多以前难以解决的问题,特别是在计算机视觉和自然语言处理领域。深度学习也开始在现实世界中应用,从自动驾驶汽车和医学成像到虚拟助手和deepfake,或多或少都在影响我们。

2011年:Yoshua Bengio等人提出ReLU激活函数,为更深层次网络铺平了道路

Deep Sparse Rectifier Neural Networks (被引4071次)

继续阅读

解读计算机视觉论文投稿到接收,不可不知的关键环节

转自 北京智源人工智能研究院

2020年3月17日,在超千人同时在线的“智源论坛·论文写作专题报告会”上,三位智源青年科学家分别进行了精彩的在线分享,题目分别为:

他们通过丰富的实战示例,分别从论文写作的润笔和修改技巧、论文写作的常用步骤与方法、论文投稿和审核中的关键注意事项等多种角度,详细解析了如何写好一篇优秀的国际学术论文,收到了直播间观众的热烈反响。我们将他们的演讲整理成文字,陆续发布。

今天,我们将介绍智源青年科学家、北大计算机系数字媒体研究所研究员施柏鑫的报告《计算机视觉会议论文从投稿到接收》。

本次报告,施柏鑫从作者、审稿人、领域主席、期刊编委等视角,围绕计算机视觉领域,为我们讲述了该领域顶级会议论文从写文章、投文章(包括Rebuttal)、审文章、扩期刊各环节的经验心得和关键注意事项。可以说,这个报告提供了覆盖整个论文写作闭环的精彩干货,相信会令大家开卷有益。

继续阅读