点击右上角微信好友
朋友圈
请使用浏览器分享功能进行分享
作者:雷红、汪顺玉(西安外国语大学外国语言学及应用语言学研究中心)
情感分析指使用自然语言处理技术系统检测、提取、分析文本中的态度、立场、观点和看法,是语义分析、人工智能、认知科学等领域备受关注的研究方向。进入21世纪以来,社交媒体蓬勃发展,公众在各社交媒体平台发表意见、进行交流,大量富含情感信息的数据促进了情感分析的诞生和发展。情感分析通常被等同于情感分类,即根据文本中的语言特征对文本进行情感分类。具体而言,情感分类是对文本中的情感极性(积极、消极)和强度进行评价,也可以对各种具体情感进行多维度分析,如愤怒、快乐、悲伤等。广义的情感分析任务,包括主观性分类、情感分类、方面与实体提取、观点摘要、垃圾评论检测等。情感分析主要在三个层次进行:文档级、句子级和方面级。文档级情感分析旨在确定整个文档表达的是积极的还是消极的情感。句子级情感分析则更加细致,是对文档中每个句子表达的情感进行分类。基于情感目标而不是语言单位(文档、段落、句子等)的情感分析,被称作基于方面或特征的情感分析,情感目标可以是实体或其某方面的特征、事件、话题等。
主要方法
情感分析的传统方法主要有两类:机器学习法和情感词典法。机器学习法又分为有监督学习法、无监督学习法、半监督学习法。它们之间的区别在于,是否基于大量有标注的数据训练模型。在有监督学习法中,学习过程基于有标注的训练数据集进行,试图通过将输入映射到输出,学习输入和输出关系函数,用于推断新数据集的情感分类。其中,常用的情感分类器有朴素贝叶斯、支持向量机、最大熵等。但是,这些分类器只能通过有标注的数据集来进行训练,而这样的数据集通常需要有经验的标注者进行人工标注,耗时耗力,不易获得。无监督学习法可以解决这个问题,它借助种子词等启发式信息,通过聚类在未分类的数据集中找到潜在的结构,不需要人工参与。常用的聚类方法有分层聚类、划分聚类等。此外,也可以采用半监督学习法,使用少量有标注的数据和大量无标注的数据训练分类器。
基于情感词典的分析法,又称情感词典法,是指基于情感词典将文本中的非结构化特征提取出来的过程。情感词典是包含情感词和短语的词表,这些词被编码为积极、消极或中立,以及相应的强度水平。该方法的基本原理是,首先对目标文本进行分句、分词,再与词典中的词项进行匹配,然后根据文本中情感词的数量和权重计算出该文本的情感分数。情感词典可以通过人工标注、基于词典和基于语料库的方法来构建。通过人工标注构建情感词表,通常费时费力。目前,该方法主要用于检查自动标注法的准确度。基于词典构建情感词典时,会先利用现有的词典资源,如WordNet,提取一组情感词,在词典中检索它们的同义词和反义词,并添加到这组词中,然后进行迭代,直到不再有新的情感词出现,经过人工检查后,这组词就可以扩展为情感词典。基于语料库构建情感词典时,主要是使用一组已标注的情感词来识别语料库中新的情感词,依据词汇共现原则,构建情感词表。目前,得到广泛应用的情感词典有很多,如SentiWordNet、MPQA Subjectivity Lexicon、NTUSD等。有些词典是通用的,而有些则针对特定领域。在具体研究中,要根据研究领域选择合适的情感词典,使用不当会导致无法识别某些特定领域的文本特征,降低分析结果的准确度。
近年来,基于深度学习的句子表征、文档表征、知识表征等技术,引起了情感分析领域的关注。比如,基于神经网络的词嵌入技术,能够在向量空间中对词汇进行表征,对语义和句法特征同时进行编码,从而能够有效弥补传统方法(如词袋、TFIDF等词频表征方案)的不足。再比如,迁移学习技术可以利用已有领域预训练好的模型,对目标任务相关的参数进行微调,将其扩展至新的数据集和新的领域,从而节省大量人工标注的时间和精力,是跨领域情感分类的有效方法之一。
具体应用
近20年来,社交媒体的普及极大促进了参与性文化的发展。从中了解到的群体和公众情感,是各种社会决策的重要参考依据。消费者在购买产品和服务前,希望了解其他消费者对产品和服务的看法;而企业也希望了解消费者或公众对产品和服务的意见。公众在社交媒体发表对政府政策和举措的看法,各级政策决策者可以据此确定公众的意见,应对快速变化的社会、经济和政治事态。公众意见已越发成为人文社会科学领域的核心议题,而大数据时代的研究者也有待突破传统,应用自然语言处理方法有效推动学科进步。目前,情感分析已在人文社会科学的诸多领域初见端倪。
在经济金融领域,用于情感分析的文本主要来自公司年度报告、公司发布会、新闻报道、深度评论、分析报告、社交媒体帖文等。情感分析系统可以利用这些不同来源的资讯,找到相关上市公司的数据信息,进行情感分析并汇总成分数,从而预测公司股票走势。此外,情感分析还可用于预测公司未来的业绩。已有研究发现,年度报告中风险情绪的增加与未来收益的降低显著相关,公司收益新闻发布中的异常积极语气也与未来收益欠佳相关。
在管理领域,用于情感分析的文本主要来自用户的在线评论。大量研究关注消费者在线评论和产品销量之间的关系,建议企业使用有效的网络数据监测和分析技术检测在线评价中的情感,尤其是负面情绪,以避免影响产品销售。情感分析作为一种大数据分析技术,被广泛应用于诸多行业的产品和服务管理中。在旅游业中,酒店的在线评论对潜在客户的酒店住宿决策起到关键作用,在餐饮和航空领域亦是如此。在医疗机构中,情感分析常用于研究病人对疾病、医疗服务、药品等的意见和感受。在娱乐业中,情感分析主要关注对电影的评价,包括演员、导演、音乐等具体方面,了解评论的总体趋势可有效预测电影的票房表现。
在政治领域,用于情感分析的数据包括社交媒体帖文、政治人物的采访和演讲、新闻报道等。情感分析被广泛应用于了解公众对某个政治问题或政治人物的看法,从而预测现实世界政治事件的走向,预测候选人在选举中的受欢迎程度,继而预判选举结果。更重要的是,随着社交媒体成为普通民众发表意见的流行渠道,监测社交媒体,及时发现公众的情绪和关切,可以成为政府洞察民意和制定政策的依据。
未来展望
在过去的20年里,情感分析在人文社会科学领域的影响力不断提升,除了上述主要应用领域外,其身影也陆续出现在文学作品赏析、社会关系分析、学术写作等越来越多的研究中。两者的融合具有广阔的发展空间,是值得系统探究的议题,以下两个方面的努力至关重要。
第一,自然语言处理技术有待持续创新和发展,为大数据文本分析提供有力支撑。现有的情感分类方法准确率还不够高,算法无法完全处理情感词及对其简单解析之外的复杂语言现象,如复指与共指消解、语义消歧等问题。而涉及情感的问题往往复杂多样,因为人们似乎能用无限多的方式来表达积极和消极情感。比如,讽刺是常见的日常表达,而其复杂性和模糊性使得讽刺识别极具挑战性。再比如,事实性的表述也可能蕴含情感,而目前的情感分析方法通常针对的是主观陈述,从而忽视了这种客观陈述。此外,目前大多数情感分析技术的开发主要针对英文数据。由于不同语言的差异,对英文数据验证可行的技术不一定适用于其他语种数据。因此,构建用于情感分析的多语语料库至关重要。
第二,情感研究是一个跨学科问题,未来可以在多个领域(尤其是计算机科学与技术和人文社会科学)的研究者之间开展合作。这样不仅能推动情感分析技术的创新和发展,也会对不同领域的研究乃至整个社会作出重大贡献。一方面,当前许多人文社会科学领域研究者,尤其是语言学研究者,已经意识到社交媒体分析和大数据情感分析的潜力。情感是自然语言语义的一个重要方面,从自然语言处理的角度来发展语义学理论,可以有效补充和推进传统语言学研究。另一方面,自然语言处理技术的开发也需要人文社会科学的视角(如心理学家、社会学家关于情感概念的阐释,语言学家关于语言结构的理论),为基于算法的情感和语义分析提供必要的补充。
(本文系国家社科基金重点项目“基于文本挖掘的中国政治话语国际传播研究”(18AYY006)阶段性成果)