数据科学家必读5篇情感分析研究论文

图源：unsplash

情绪剖析用场广泛，能够识别感情与想法的AI模型广泛运用于诸多家当。
因此，创造出可智能识别感情的机器日益成为热门。
自然措辞处理（NLP）的研究也是如此。
本文将先容5篇关于情绪剖析和情绪分类的主要论文。

1.利用深度学习检测推特上的仇恨辞吐（Deep Learning for Hate Speech Detection inTweets）

情绪分类模型的最主要用场之一是检测仇恨辞吐。
最近有很多关于内容审核职员事情之艰辛的宣布，随着自动仇恨辞吐检测和其他内容审核模型的发展，审查职员有望卸下审核图像内容的重担。

数据科学家必读5篇情感分析研究论文

在这篇论文中，研究小组将他们的仇恨辞吐检测任务定义为对特定的推特帖子进行分类，区分其是否存在种族主义或性别歧视。

为此，研究职员基于包含16000条推文的数据集进行实验。
在该数据集中，1972条推文标记为具有种族歧视内容。
3383条推文标记为具有性别歧视内容。
别的的推文归类为既没有种族主义情绪，也没有性别歧视情绪。

研究表明，某些深度学习技能能够比现有的N-gram方法更高效地检测仇恨辞吐。

发布/最近更新日期：2017年6月1日

作者和贡献者：Pinkesh Badjatiya（国际信息技能研究所-海得拉巴，以下简称IIIT-H）、ShashankGupta（IIIT-H）、Manish Gupta（微软）、Vasudeva Varma（IIIT-H）

文章地址：https://arxiv.org/pdf/1706.00188v1.pdf?ref=hackernoon.com

2.depechemod++：双语情绪词典（DepecheMood++: a Bilingual Emotion Lexicon）

创建词典的紧张路子有两种：直接创建（常日利用众包注释器），或者从现有注释语料库派生。

研究职员的实验目的是：考验文档过滤、降落频率或文本预处理等大略的技能能否用于改进DepecheMood这一最新词典。
这本词典由带注释的新闻文章组成，最初由Staiano和Guerini于2014年创建，用于情绪剖析。

在这篇论文中，研究职员阐明了他们是如何创建该词典的。
这项研究发布的新版本DepecheMood++有英语和意大利语两种版本。

发布/最近更新日期：2018年10月8日

作者和贡献者：Oscar Araque（马德里理工大学）、Lorenzo Gatti（特温特大学）、Marco Guerini（布鲁诺·凯斯勒研究所）、JacopoStaiano（Recital AI）

文章地址：https://arxiv.org/pdf/1810.03660v1.pdf?ref=hackernoon.com

图源：unsplash

3.粗鄙之语：粗俗辞吐的社会动力（Expressively Vulgar: The Socio-dynamics ofVulgarity）

大多数思想的表达形式随韶光不断演化，而粗俗的措辞却并非如此，利用粗俗的措辞每每包含表达确切信息的强烈指向。

在这项研究中，德克萨斯大学和宾夕法尼亚大学的研究职员对推特帖子中的粗俗词汇进行了大规模的数据驱动剖析。
更详细地说，他们的研究剖析了推特中粗俗措辞的社会文化和语用方面的内容。

研究小组试图回答以下问题：粗俗辞吐的表达办法和功能是否因该辞吐揭橥者的人口特色而不同？粗俗辞吐是否会影响对情绪的感知？对粗俗辞吐进行建模是否有助于情绪预测？

研究职员网络了6800条推文的数据集。
接下来，他们让9位评审员用5分制对这些推文进行了情绪标注。
值得把稳的是，数据还包括发布推文者的人口统计数据（性别、年事、教诲程度、收入、宗教背景和政治意识形态）。

这个数据集是唯一一个既包括推文又包括其发布者详细信息的开放数据集。
此外，这也是第一次对低俗词建模如何提高情绪剖析性能的研究之一。

发布/最近更新日期：2018年8月

作者和贡献者：Isabela Cachola，Eric Holgate，Junyi Jessy Li（均来自德克萨斯大学奥斯汀分校）Daniel Preotiuc Pietro（宾夕法尼亚大学）

文章地址：https://www.aclweb.org/anthology/C18-1248.pdf?ref=hackernoon.com

4.多措辞推特情绪分类：人类注释者的浸染（Multilingual Twitter SentimentClassification: The Role of Human Annotators）

在本文所列举的关于情绪剖析的研究中，这是唯一一个强调人类注释者主要性的研究。
在这项自动推文情绪分类实验中，来自Jožef Stefan研究所的研究职员剖析了一个用多措辞推文标注情绪的大型数据集。

详细来说，研究小组标注了160万条包含13种不同措辞的推文。
利用这些注释的推文作为演习数据，团队构建了多个自动情绪分类模型。

他们的实验得出了一些有趣的结论。
首先，研究职员指出，在统计学上，顶级分类模型的性能没有显著差异。
其次，当运用于有序三类情绪分类问题时，分类模型的基本准确性与性能无关。
末了，研究职员表示该当关注演习集的精确度，而非所利用的演习模型。

发布/最近更新日期：2016年5月5日

作者和贡献者：Igor Mozeti，Miha Grčar和Jasmina Smailovičč（均来自Jožef Stefan研究所知识技能部）

文章地址：https://arxiv.org/pdf/1602.07563v2.pdf?ref=hackernoon.com

5.MELD：一种用于情绪识别的多模式多方数据集

图源：unsplash

在这篇论文中，作者就目前会话情绪识别领域日益增多的研究进行理解释。
同时，他们指出，该领域缺少大规模的会话情绪数据库。
为了填补这一点，研究职员提出了多模式情绪线数据集（MELD），它是对原始情绪线（EmotionLines）数据集的扩充和增强。

MELD包括了来自电视剧《老友记》的1433段对话中的13000段语音。
数据集紧张集中于两个以上说话者的对话。
此外，每一句话都有情绪和情绪标签。
而EmotionLines这一原始数据集则只包含对话的文本。
因此，它只能用于文本分析。
数据集的紧张改进是增加了音频和视频模式。
MELD包括所说的词、说话的语调和说话人的面部表情。

发布/最近更新日期：2019年7月4日

作者和贡献者：Soujanya Poria（新加坡科技设计大学）、Devamanyu Hazarika（新加坡国立大学）、NavonilMajumder（墨西哥国立理工学院）、Gautam Naik（南洋理工大学）、Erik Cambria（南洋理工大学）、Rada Mihalcea（密歇根大学）

文章地址：https://arxiv.org/pdf/1810.02508v6.pdf?ref=hackernoon.com

创造情绪智能机器是一个年夜志勃勃的目标。
为此，情绪剖析和情绪识别是必要的步骤。
希望这些论文有助于加强你对该领域目前所做事情的理解。

留言点赞关注

我们一起分享AI学习与发展的干货

如转载，请后台留言，遵守转载规范

美批呀资讯

数据科学家必读5篇情感分析研究论文

职场人必备丨英语商务写作的3原则与4技巧

奇葩说辩题揭露工作原形职场精致穷你怕了吗