上海代写论文网专业提供代写毕业论文、代写本科论文服务

相关文章推荐

联系方式
您现在的位置:首页 > 计算机论文 > 人工智能论文 >
终身学习的情感分析系统主题模型研究
发布时间:2019-06-01

摘要

  主题模型(TopicModel,TM)作为一种非监督学习方法被广泛应用于主题抽取任务当中,然而它是一种仅以词共现为基础的数据驱动模型,抽取的主题缺乏可解释性和相关性。为了解决这个问题,很多领域知识(如情感词典)被运用到主题模型当中。在大数据时代下,数据规模越来越大,数据的来源领域越来越广泛,数据的更新速率越来越频繁,特别是在电子商务和微博平台中,各种领域的评论数据随着交易的进行或者热点事件的发生而不断产生,导致仅靠外部的静态领域知识已经不能满足挖掘高质量主题任务的需求。

  在文本主题抽取过程中,鉴于外部静态的领域知识未能很好应对更新频繁文本的主题抽取任务,本文提出,引入终身学习的方法动态地挖掘内部先验知识,提升主题挖掘质量,同时为了提升终身学习方法的学习效率,本文将结合变分贝叶斯(VariationalBayesian,VB)和知识正则项(KnowledgeRegularizationTerm,KRT)的方法运用内部先验知识。本文的主要工作和贡献如下:

  (1)提出采用终身学习的方法挖掘内部先验知识,使用变分贝叶斯的方法进行主题模型的参数求解,同时利用KRT的方法来应用内部先验知识,即正则化终身主题模型(RegularizedLifelongTM,RLTM)。(2)基于RLTM模型,引入情感词向量知识,并且利用自学习KRT的方法来应用内部先验知识,提高模型的精确度和效率,即正则化终身高斯主题模型(RegularizedLifelongGaussianTM,RLGTM)。

  (3)基于RLTM模型,引入情感极性,利用外部的情感词典知识,同时采用自学习KRT的方法来应用内部先验知识,提高模型的精确度和效率,即正则化终身情感主题混合模型(RegularizedLifelongJSTM,RLJSTM)。

  (4)对比了RLGTM和RLJSTM在引入情感知识过程中的区别和联系,并在多个领域的数据集上对模型进行了相应的实验,评估各个模型的主题抽取质量和训练效率。

  (5)设计并实现了以RLJSTM等模型为基础的文本情感分析系统(TextSentimentAnalysisSystem,TSAS)。

  关键词:终身学习,主题模型,情感分析,变分贝叶斯

人工智能

Abstract

  Topic Model (TM), as an unsupervised learning method, is widely used in the task of topicextraction. However, it is a data-driven model just based on word concurrence, which resultsin topics lacking interpretability and relevance. In order to solve this problem, many domainknowledge, such as sentimental lexicon, are applied to topic models. In the era of big data, thescale of data is getting larger and larger, the domain of data is more and more diverse, and therate of data updating is more and more frequent. Especially in electronic commerce and microblog platform, great volume of review texts in multi-domains emerge as long as the trades arefinished or hot events happen, which causes that the external static domain-knowledge is farfrom meeting the needs of mining high-quality topics.

  In the process of text topic extraction, in view of the fact that the external static domainknowledge cannot deal with the topic extraction task of updating frequent text, in this thesis, it isproposed that lifelong learning method is introduced to dynamically excavate the internal prior knowledge to improve the quality of topic mining. Meanwhile, in order to improve the learningefficiency of lifelong learning method, Variational Bayesian is combined with the knowledgeregularization term to utilize the prior knowledge. The main contributions of this thesis are asfollows:

  (1) Proposing a new topic model, Regularized Lifelong TM (RLTM), which adopts thelifelong learning method for mining internal prior knowledge, uses the VB method for solving parameters, and utilizes the self-learning regularization term for applyingthe internal prior knowledge.

  (2) Based on the RLTM model, proposing a new topic model, Regularized Lifelong Gaussian TM (RLGTM), which combines the external sentimental word vector knowledgewith the internal prior knowledge, and utilizes the self-learning regularization term for applying the internal prior knowledge.

  (3) Based on the RLTM model, proposing a new joint sentiment topic model, Regularized JSTM (RLJSTM), which combines the external lexicon knowledge with the internalprior knowledge, and utilizes the self-learning regularization term for applying theinternal prior knowledge.

  (4) Making a comparison between RLGTM and RLJSTM which represent different methods of combine topic and sentiment, and doing contrastive experiments on the datafrom multi-domains to evaluate the topic quality and the model training efficiency.(5) Designing and implementing Text Sentiment Analysis System (TSAS) based on somemodels such as RLJSTM and so on.

  Keywords: Lifelong Learning, Topic Model, Sentiment Analysis, Variational Bayesian

目录

  第一章绪论

  1.1研究背景

  大数据时代的快速发展为数据的积累带来了重大契机,同时也产生了新的问题。互联网的各种分享平台使得人们可以随心所欲地发布数据,网络用户和评论文本数据均呈爆发式增长,根据《中国互联网络发展状况统计报告》显示,仅中国的网民规模就达到7.51亿,互联网的普及率达到54.3%,这对数据的收集无疑是一个强大助力。与此同时,数据的领域众多,规模庞大,导致处理数据所花费的代价越来越高,过程越来越复杂。特别是在情感分析应用最广泛的电子商务和社交媒体领域中,其中的评论数据包含了大量大众对于产品,事件等现实实体的情感信息,数据的更新极为频繁。这些情感信息不但体现用户本人对外界的反馈,而且还会影响其他人对实体的分析和判断。情感分析主要是研究信息发布者对某个话题,文档或者事件的态度,作为一个专注于人们对实体(如商品、服务、组织等)的情感,评价,态度,情绪等的研究领域[1],在挖掘文本的主题信息和情感信息过程中发挥着重要作用。

  现如今,情感分析任务面临的数据量更加庞大,领域更加广泛,更新速度更加迅速,特别是语料库的改变随之导致情感信息和主题信息的改变,使得模型需要重新训练,这导致了计算资源的严重浪费,给情感分析任务带来了很大的挑战[2,3].同时,这些文本中的主题和情感信息蕴含着巨大的价值。比如,电子商务里的评论信息、消费者和商家的交互信息,如何抓住这些信息里包含的情感主题对商家和消费者的作用都是非常巨大的[1],对于消费者,获得其他消费者对商品的情感信息之后,就可以避免人工浏览大量的文本信息或者去询问他人的意见来决定是否购买该商品,对于商家而言,情感和主题信息可以减少诸如调查问卷、海量评论文本阅读等工作,快速定位商品的短板,便于商业决策和改进,如图1.1所示是一家电商网站的一则商品评论。鉴于电商领域评论文本中的巨大潜在价值,很多研究人员还专门进行相关工作验证其有用性[4,5].再比如微博信息中的情感信息也是非常丰富的,基于社交媒体的评论文本中,情感分析工作也受到广泛的研究[6–8].高凯等人[9]认为微博信息是一种挖掘民意的有效平台,从像微博这样的社交数据中可以获得大量舆论信息。而文本中的情感和主题信息作为舆论信息的重要构成部分,具有极高的价值[10–13].

  如图1.2所示,是微博上的一则消息,内容是某高校内的一处景色亮点,引起各校学子的羡慕。由于数据的规模日益庞大,数据的领域日益增加,给情感分析任务中的主题和情感抽取造成了时间和质量方面的困难,杨立公等人[14]认为目前的情感分析系统的效果并不是令人非常满意的。为了缓解时间效率问题,同时抽取出质量更好的主题和情感信息,众多研究人员提出了自己的看法:针对于现实中大规模数据的处理,Hoffmand等人[15]提出要对数据进行分割,把一个整体的大规模训练任务分解成多个小规模训练任务,这样可以迅速的获得模型的中间训练结果,从而实时的分析处理情感信息;同时Chen等人[16]认为目前的一些模型中缺乏内部先验知识挖掘的机制,可以利用终身学习的方法收集数据的内部先验知识,这些先验知识可以对语料的训练加以引导和限制,提升模型的精确度。以上观点中是针对于不同的角度去处理现实情感分析任务中遇到的一些问题,对情感分析应用具有极大的参考价值。鉴于巨大的应用价值,目前的模型存在效率和精确度上的限制,以及情感分析效果不够理想,如何在情感分析任务中高效地进行模型训练,同时挖掘内部先验知识并加以应用,提高模型的效果具有重大的研究价值。

  1.2相关研究现状情感分析

  主要是研究表达正面或者负面情感的观点,将文本中的实体,实体属性,实体属性情感等元素挖掘出来[1].根据粒度的不同可以分为三种:文档级别,句子级别,实体和属性级别。前两者的主要任务是对句子或者文档整体进行分析,得到句子或者文档整体的情感极性(正面、负面、中性)。针对于不同的场景和任务,现有的情感分析模型中既有监督学习方法,也有非监督学习方法。在监督学习方法中情感分析的难点是找出有效的特征。对于这类任务,Pang等人[17]在2002年第一次使用监督学习的方法将影评文本分成两类(Positive,Negative);Soo和Eduard等人[18]在2004年提出在一种基于词典的算法实现情感分类,其中,词典中的情感词是来自于WordNet1;Jiang等人[19]使用了一系列的实体依赖规则来进行分类任务。对情感分析进行更细粒度的拆解,Hu和Liu[20]认为情感分析主要分析的是文档中的五类元素:实体,属性,属性的情感,情感的持有者,时间。相应地衍生出多个子任务:实体类型抽取和分类、实体属性抽取和分类、属性情感分类等任务。

  对于这些细粒度任务,仍然可以采用监督学习的方法,例如:对于实体的抽取任务,可以使用一些信息抽取的方法来解决该类问题[21],将其当作序列标注任务来处理,目前比较流行的序列标注方法主要有条件随机场[22](ConditionalRandomField,CRF),隐马尔科夫模型[23](HiddenMarkovModels,HMM),长短期记忆网络[24](LongShortTermMemory,LSTM)等。以上的工作均采用一些监督学习的方法来进行情感分析的工作,随着数据的增多,标注工作的成本较高,这类方法的使用缺乏潜力。

  在日益复杂的大数据环境下,寻找有效的特征变得更加困难,同时基于监督学习的情感分析模型扩展性不够好[1],越来越多的人更青睐于非监督学习模型。近年来,非监督学习模型中的主题模型被广泛的运用于情感分析任务中,其中最经典就是Hofmann提出的PLSA模型[25](ProbabilisticLatentSemanticAnalysis,PLSA)和Blei等人提出的LDA(LatentDirichletAllocation,LDA)模型[26].二者都是对一段文本的生成过程进行假设,然后用概率分布去模拟文档生成过程。然而,主题模型作为一种以词共现为基础的数据驱动模型,一些研究人员发现挖掘的主题并不符合人们的判断,其中一个很重要的原因是主题模型仅仅依赖于词共现的一个目标函数[27],并不能紧密的与人类的思维判断一致[28].为了解决这些问题,很多引入知识的方法被提出,例如:DF-LDA[29](DirichletForestLDA)、GK-LDA[30](GeneralKnowledgeLDA)、AKL[31](AutomatedKnowledgeLDA)、LTM[16](LifelongTopicModel)等。另外,也有人对LDA模型结构进行扩展,同时加入一些知识,辅助模型训练,使得模型的功能更为强大。Lin和He[32]提出情感主题混合模型(JointSentimentTopicModel,JSTM),在LDA模型中加入情感因素,后来又在原有模型上加入词典,作为知识,对模型进行优化[33].Jo和Oh[34]提出与JSTM同样结构的情感主题模型:属性情感统一模型(AspectandSenttimentUnificationModel,ASUM),其模型中假设每一个句子中的所有词共享同一主题和情感。

  类似的,Mohamed等人[35]提出主题情感(TopicSentiment,TS)模型,该模型与JSTM模型不同的之处在于情感和主题的依赖关系不同。Chen和Liu在2014年提出终身学习主题模型[16],该模型强调了利用和学习内部先验知识对高质量主题抽取的重要作用。Rajarshi等人[36]在2015年提出高斯主题模型,该模型把外部的词向量当作知识加以利用,同时把离散的词分布迁移到连续的高斯分布。以上的工作对知识的使用和管理、情感和主题的联合建模均有涉及,但是仍然存在一些不足之处:外部知识和内部先验知识运用不够充分,在知识使用的过程中并未考虑模型的效率优化问题。

  1.3研究内容

  研究的主要内容是准确地联合建模主题和情感,解决外部知识和内部先验知识学习和运用不够充分的问题,优化模型的训练效率,并设计一个情感分析系统,具体的研究内容包含如下:

  (1)基于终身学习的情感分析框架设计。研究在情感分析场景下,基于终身学习的主题模型框架。

  (2)基于终身学习的主题模型及其变种模型的研究。研究如何利用更多的知识来提升模型的精确度,同时改变模型的训练方式提升模型的训练效率。

  (3)情感分析系统的架构设计及评估。设计部分主要包括语料的选取,先验知识的获取,知识的更新,主题模型和主题情感混合模型的选取等。评估部分则主要是通过相应的实验对各个模型的效率和主题质量进行对比,评估。基于以上的研究内容,本文将分别从改善模型知识挖掘方式和运用方式,改进模型训练效率,以及情感主题模型建模的框架设计等方面做相关工作。

  1.4本文结构安排

  本文一共分为6个部分,具体的安排如下:

  第1章介绍论文的研究背景,研究现状,以及论文的研究内容

  第2章介绍论文的背景知识,包括主题模型,终身学习,以及一些典型的主题模型变种模型。

  第3章介绍基于终身学习模型的主题模型以及加入情感的混合模型

  第4章讲述了实验的相关情况。

  第5章讲述了情感分析系统的框架设计以及实现。第6章是对论文的总结,以及对今后工作的规划。

【由于本篇文章为硕士论文,如需全文请点击底部下载全文链接】

  第二章背景知识
  2.1主题模型
  2.2变分贝叶斯方法与吉布斯采样方法
  2.2.1吉布斯采样方法求解主题模型
  2.2.2变分贝叶斯方法求解主题模型
  2.2.3变分贝叶斯和吉布斯采样的优缺点

  2.3终身学习
  2.3.1终身学习概述
  2.3.2终身主题模型
  2.4主题模型的变种模型
  2.4.1高斯主题模型
  2.4.2情感主题混合模型
  2.4.3主题模型的变种模型对比
  2.5主题模型的评估方法
  2.6本章小结

  第三章基于终身学习的主题模型及其情感混合模型
  3.1RLTM模型
  3.1.1RLTM模型概述
  3.1.2RLTM模型结构
  3.1.3RLTM模型算法

  3.2RLGTM模型
  3.2.1RLGTM模型概述
  3.2.2RLGTM模型结构
  3.2.3RLGTM模型算法

  3.3RLJSTM模型
  3.3.1RLJSTM模型概述
  3.3.2RLJSTM模型结构
  3.3.3RLJSTM模型算法
  3.4RLTM、RLGTM、RLJSTM模型的区别与联系
  3.5本章小结

  第四章实验与评估
  4.1实验环境
  4.2实验评估指标

  4.3实验设计
  4.3.1实验数据
  4.3.2RLTM实验设计
  4.3.3RLGTM实验设计
  4.3.4RLJSTM实验设计

  4.4实验设结果分析
  4.4.1RLTM实验结果分析
  4.4.2RLGTM实验结果分析
  4.4.3RLJSTM实验结果分析
  4.5RLTM、RLGTM、RLJSTM模型的对比
  4.6本章小结

  第五章系统设计与实现
  5.1系统分析
  5.2系统框架设计
  5.2.1视图层
  5.2.2模型层
  5.2.3控制层

  5.3系统实现
  5.3.1系统开发环境
  5.3.2文本清洗模块实现
  5.3.3情感分析模块实现
  5.3.4模型维护模块实现

  5.4系统效果
  5.4.1用户请求界面展示
  5.4.2管理员维护模型页面展示
  5.5本章小结

第六章总结与展望

  本章将对本文做一个全面的工作总结,同时指出本文工作中仍然存在的不足之处,对未来的工作出展望。

  6.1工作总结

  随着大数据时代的到来,数据的规模日益剧增,特别是一些社交网站和电子商务平台中无时不刻都在更新文本数据,这些数据中反映了各网民的主观意见,具有巨大的商业价值。然而,由于数据规模庞大,数据更新频繁,现有的一些仅依靠外部静态知识的情感分析模型已经不能满足情感分析中抽取高质量主题任务的需求。为了解决这个问题,本文展开了对终身学习的研究,旨在利用终身学习的方法挖掘动态的内部先验知识,提高主题抽取质量,同时为了加快终身学习的学习效率,本文还以提高模型训练效率为目标做了相关工作。为目前模型中外部知识和内部先验知识运用不够充分的问题,以及在知识使用的过程中并未考虑模型的效率优化问题提供了一个解决方法。具体的主要工作如下:

  (1)提出采用终身学习的方法挖掘内部先验知识,使用变分贝叶斯的方法进行主题模型的参数求解,同时利用KRT的方法来应用内部先验知识,介于此提出了RLTM模型。

  (2)基于RLTM模型,引入情感词向量知识,并且利用自学习KRT的方法来应用内部先验知识,提高模型的精确度和效率,由此提出RLGTM模型。

  (3)基于RLTM模型,引入情感极性,利用外部的情感词典知识,同时采用自学习KRT的方法来应用内部先验知识,提高模型的精确度和效率,提出RLJSTM模型。

  (4)对比了RLGTM和RLJSTM在引入情感知识过程中的区别和联系,并在多个领域的数据集上对模型进行了相应的实验,评估各个模型的主题抽取质量和训练效率。

  (5)基于B/S架构,以RLTM、RLGTM、RLJSTM模型作为算法的核心,构建了一个文本情感分析系统TSAS.

  6.2未来展望

  本文研究了以主题模型为基础,通过终身学习的方法学习内部先验知识,借助正则化项的方法运用知识,采用变分贝叶斯方法加速模型训练的相关模型,例如:通过引进内部的先验知识和外部的词典知识,提出正则化终身主题情感混合模型;通过外部情感词向量知识,引入连续的向量空间,提出正则化终身高斯主题模型。在未来的工作中,可以主要从以下两个方面加以改进

  (1)目前,本文提出的模型中,通过终身学习获得内部先验知识形式均是词对的形式,形式过于单一,未来的工作中可以从诸如词向量等语义相似性上挖掘内部知识。

  (2)目前,本文提出的模型中虽然在训练的效率上有所提升,但是还有提升的空间,比如说如何改造模型使其更适用于分布式环境。

  参考文献

【由于硕士论文篇幅较长,此页面不展示全文,如需全文,请点击下方下载全文链接】

点击下载全文
对应分类:
版权所有:上海论文网专业权威的论文代写、论文发表的网站,秉承信誉至上、用户为首的服务理念,服务好每一位客户
本站部分论文收集于网络,如有不慎侵犯您的权益,请您及时致电或写信告知,我们将第一时间处理,邮箱:shlunwen@163.com