上海代写论文网专业提供代写毕业论文、代写本科论文服务
联系方式
您现在的位置:首页 > 管理学论文 > 图书馆论文 > 探讨我国网络舆情数据分析的运用和疫病监控的发展
探讨我国网络舆情数据分析的运用和疫病监控的发展
发布时间:2019-04-04

图书情报硕士论文范文第四篇:探讨我国网络舆情数据分析的运用和疫病监控的发展

摘要
  
  随着“两微一端”(微博、微信、新闻客户端)的不断普及,人们获得信息的途径不断拓宽,可查阅资源的数量在不断上升,生活方式也在不断发生改变。人们不单单可以通过网络来获取它们所感兴趣的资讯,也可以用文字、图片、视频等方式与其它用户进行互动。传统疫病监控系统依赖于医疗单位及各地疾病预防控制中心上传的临床数据,具有在全国范围通报疾病的特征,这不但可以帮助医护人员识别各类病症,也可以在一定程度上预测疾病传播范围的变化。可是,该系统的数据反馈与预警信号的发布有一定的滞后性,其采集数据方式的成本和维护费用都相当高昂,因此笔者设计采用互联网社交平台收集舆情数据来作为传统疫病监控决策的补充。由于社交网络的兴起,人们可以在网上快速地获取许多有关居民日常生活习惯和生活方式的信息。用户们往往会在社交网络如Twiter、Weibo和Foursquare上发布并上传自己的日常行为的照片、健康状况的数据和自身所处的地理位置。笔者发现通过爬虫软件可以有效采集大量的微博舆情数据。在针对关键词进行筛查并制定相应条件剔除掉干扰信息后得到的有效信息可以有助于公共卫生部门监控和跟踪疫区群众在疫情期间的舆情实时反应并确定相对的舆论引导策略。在此基础上对这些数据进行进一步的分析不但能掌握疫病突发的地点,甚至可以用相对应的地理定位数据追踪社交网络用户出行路线以预测疫病的发展趋势。本文设计并应用了收集、筛选和分析社交媒体文本内容的方案并应用这个方案对H7N9流感季的微博舆情进行了采集。同时本文也采用了支持向量回归(SupportVectorRegression)来对之前采集到的微博舆情数据与疾病预防控制中心公布的20个疫区城市病例数据进行回归分析,从而寻找与流感疫情趋势最为相关的变量。在本文的模型中,笔者设置了人口流动量、2012年流感趋势相似度和空间距离三组作为支持向量回归的变量,试验表明人口流动量与流感趋势的相关性与平方系数最高。因此笔者得出结论,采集疫区人口流动的信息对于预测疫病下一阶段的发展趋势会有十分显着的作用。
  
  本文的创新点在于将网络舆情和疫病监控相结合,为我国网络舆情数据分析的运用和疫病监控的发展提供了新思路。笔者也相信本文模型设计的方法和模拟结果能够对我国疫病监控系统的改进提供一定参考。

  关键词:微博舆情数据;疫病监控;甲型H7N9流感
图书情报

目录

  第1章引言
  
  1.1研究背景与研究意义

  
  1.1.1研究背景

  
  世界卫生组织(WorldHealthOrganization简称WHO)和世界银行(WorldBank简称WB)在2001年提出:疫病监控是公共健康系统必不可少的一环,它能有效切实的提升公共服务的效率性和准确性。在这则宣言中疫病监控的重要性不言而喻,在1975年,世界疾病控制与防疫中心(theCenterforDiseasesControlandPrevention简称CDCP)以及WHO在超过三十个以上的国家地区进行了防疫监控系统的改造,其改造考虑了不同国家地区的基础设施覆盖、疫病分布状况,改造后的监控系统具备灵活性、可持续性、地方特色性等多项优势,解决了三十多个地区久治未决的生问题。卫生问题的解决不仅凸显监控系统之必要,更凸显监控之必要。在1993年,WHO在非洲成立了综合疫病监控与反应中心(theIntegratedDiseaseSurveillanceandResponsestrategy简称为HDSR)?,这个中心收集了非洲大多数国家的医学实验室数据和疫病特征信息并汇总建立了一个立体型、多层次的卫生监控系统。这个监控系统主要的功能是在注册地区之中检测并监控不同地区的疑似病症感染,然后对这些疑似病症进行数据收集、分析并向WHO做出报告。这些报告对于中期的疫病爆发期调查和传播路径追踪都起到了重要的作用并大幅降低了注册地区居民黄热病与登革热的感染人数,由此看来监控具有充分的现实意义。在19世纪80年代中期,菲律宾的6000万居民虽然处于卫生部(PhilippineDep_entofHealth's简称PDOH)?的国民卫生监控体系高密度的监控环境下,但是几乎每年都会遭到传染病的肆虐。为破解此困境,PDOH加入WHO和CDCP的合作体系并引入了WHO推广的国家传染病监测管理系统(NationalEpidemicSentinelSurveillanceSystem)。NESSS是一个基于当地医院信息、资源共享平台的监测体系,但与常见检测系统不同的是它是通过采集不同地区医院的信息流、医护人员反馈的资料来进行数据分析,从而更准确地反映疫区的现实情况。NESSS被引入并实施之后,菲律宾当地不仅疫病肆虐的状况得到了有效控制,还拓展了类如HIV疟疾等基于高危感染性病症的综合监控体系。截至1995年,这个系统在印尼群岛地区监测并汇报了超过80例可能导致大型疫病爆发的潜在感染者并由此为其印尼群岛的疫病防治做出了突出的决策贡献。鉴于此类案例,世界各国开始对监控系统进行本土化改进与升级。巴西与阿根廷采用WHO的系统来改进他们的卫生体系;而我国则开展了符合我国国情的现场流行病学科研项目(iFirstFieldEpidemiologyTrainingProgram(FETP))研宄来加强我国的疫病监控。随着各国疫病监控系统的建立,越来越多国家加入到WHO和CDCP的合作体系中来,它们推广的NESSS系统也得到了广泛的使用。这种趋势使得越来越多的数据通过不同的途径汇总到WHO的总数据库,而数据库系统的扩容升级自然也迫在眉睫。对于此,WHO?美国国家发展署(theU.S.
  
  AgencyforInternationalDevelopment(USAID))@合作改进了疫病监测技术以便不同的地区机构能够方便地共享它们彼此提供的数据和WHO对数据的分析结果,并以此来改进公共卫生的介入手段与措施。各国在此基础之上改进后的疫病监控系统也能更加适应本国实际卫生状况。例如新危地马拉和它邻国卫生系统合作共享的监测数据就为当地疫病防治策略的执行与实施做出了不菲的贡献;基于印度分权邦联的政治体系的WHO新监测系统也在解决印度的疫病卫生这一严峻问题上发挥重要作用。自2005年后,全球大多数国家都建立了符合本国国情的疫病监控系统用以保卫本国居民的生命健康。在迈入了21世纪后,全球开始进入互联网爆炸时代,人们获得信息的方式产生了全新的变化,这也为各国的疫病监控系统带来了冲击和挑战。在信息技术和家用计算机、手持智能终端日益普及的背景下,人们获得信息的途径不断拓宽、可查阅资源的数量不断上升、生活方式发生了翻天覆地的变化。生物污染的范围、流行性感冒的传播、和烈性传染病的爆发这些原本只能通过官方渠道知悉的各种威胁,人们现在可以通过网络触手可及。当“两微一端”(微博、微信、新闻客户端)进入人们视角,人们借助“两微一端”不仅可以通过网络来获取他们感兴趣的资讯,还可以用文字、图片、视频等方式与其它用户进行互动交流彼此的观点、传递其具体的个人诉求。由此来看,网络信息的传输通道开始具备信息透明化、传播多向化、内容多元化等新特征。但值得注意的是,新信息技术在带来信息传输透明的同时,也形成当前复杂的网络舆情,这些网络舆情既是网民通过互联网平台表达自己对社会发生的热点事件所持有的看法,也是网民态度、认知、行为和情感倾向的集合气学者Thacker和Berkelman在1998年提出:“运行中的舆情监控系统应当可以自动地收集、整理和分析信息。在整合信息资源的同时,及时地提供有效建议为防治和监控疫病的决策做出贡献。”?两位学者着重强调了监控系统对网络舆情控制的重要性。与此同时,他们认为,这样的公共健康监控系统需要由政府来投入资源进行维持(例如:国家卫生署)以便获得实时的居民健康状态反馈和疫病的传播行为数据,在该数据分析基础上对症下药。以此来提升疫病防治、管理决策的针对性和有效性。这类系统能切实的评估民众的整体健水平并预估介入强制管理疫病的有效时机,公共健康监控系统最主要的作用就是捕捉有效、实时的舆情数据,对此做出分析并为官方介入管理提供有效的决策信息。由此来看,这个系统的设计、运行都是围绕这个核心目标来开展的。不同的公共舆情监控目标对于监控系统也提出了不同的要求,什么时候应当介入监管、介入监管的时间长度、什么类型的信息应当纳入监管体系、介入的具体措施是什么,这些都要依赖于具体的监控系统要求。例如:如果想要防治类似SARS的烈性传染病,这个监控系统就需要提供有效的早期预警信号以便决策者可以快速地介入并采取相应的措施来控制疫病的传播。相反,若是监控肺结核之类的己知慢性传染病,由于它有低致命性和较慢的传染速度,系统完全可以通过人口统计或者其它的周期性调查(每年到每季)来完成病例反馈且不会占用珍贵的信息资源渠道。因此,在当前的信息时代,设计基于互联网数据的疫病监测平台变成了当前切的要求。
  
  1.1.2研究意义
  
  网络舆情的数据分析具有相当重要的理论研究和实际应用价值,本文研宄的理论意义在于提供一个具有可操作性、完整科学的微博舆情分析体系来加强我国的疫病监控系统。而从实践的角度出发,宏观来看,首先本文的研宄有利于我国公共卫生部门对我国重大突发性疫病基于GPS定位、微博舆情数据来开展有效的疫病实时监控;其次本文的研究有利于政府了解疫病发展的动态状况,从而提高在我国疫病控制领域提供的政府服务水平。及时点对点、面对面的控制疫情,保护好人民的健康安危;最后,本文的研宂有利于医学研宄人员利用微博舆情数据对疾病的发展演变进行动态跟踪分析,从而把握了解疾病的传播规律。
  
  从微观来看,首先本文研宄的数据采集和筛选的方法可以被运用到各种突然热点舆情事件的监控中;其次,本文研宄的微博文本可以为有效认知热点网络舆情演化过程提供参考;最后,本文的研宄可以对我国疫病监控机构作出有益补充并为我国公共卫生部门对于疫情应急措施制定提供参考。
  
  热点网络舆情的演化过程较为复杂,不同事件类型在不同环境条件下会呈现出不同的演化规律。当前网络舆情对现实世界的影响程度不断加深,现实社会中人们的观点和态度也影响着网络舆情的演化趋势,网络舆情的传播路径、影响因素、展趋势等相较于以前更为复杂,因此有必要对网络舆情演化全过程进行深入分析。本文以“甲型N7N9流感”事件为例,对热点网络舆情进行文本挖掘及其疫情的后续演化做出了模拟。从根本上解释演化的原因及规律,从而为相关部门有效监控网络舆情的发展、推断疫病的后续传播路径做出贡献,因此此案例具有比较深刻的研究意义。本文通过网络舆情文本数据的分析,居民的活动特征的统计分析,在此基础上搭建模型,用以对疫病的后续发展进行推演。这种基于当前热门网络社交平台的舆情数据分析不单单应用于疫病监控系统,对其它与舆情相关的热点问题也能起到一定的参考作用,同时也为政府及相关部门有效引导与控制网络舆情提供一定的理论基础支撑和参考借鉴。因此,本文的研宄具有充分的现实意义
  
  1.2国内外研究现状

  
  1.2.1网络舆情
  

  研究现状我国学者对网络舆情的研宄起步较晚,二十一世纪初,天津社会科学院舆情研宄所承担“网络舆情研宄概论”的研宄课题,并由王来华(2003)?出版了《网络舆情研宄概论》一书,从此拉开国内对网络舆情研宄的序幕。许多学者都对网络舆情的概念做出了定义,如刘毅等(2007)@在《网络舆情研究概论》中认为网络舆情是公众在网络中所表达的观点、意见和态度的总和。曾润喜(2009)?指出,网络舆情是社会舆情的进一步延伸,通过互联网平台传播人们对于不同事件的所有认知、度、情感和行为倾向的集合。陶建杰(2007)?立足于言论倾向的角度,认为网络舆情就是公众对社会焦点事件、热点问题的一种影响性和倾向性的言论与观点,只不过发布的平台由以往的传媒移步走向了网络。纪红等(2007)?认为网络舆情就是公众在网络空间,面对不同事件变化中执政者和政治价值持有者的基本态度。周如俊(2008)?认为网络舆情就是在互联网上传播的带有一定倾向性和影响力的公众对“焦点”、“热点”问题发表的言论和意见。张玉强(201〗)?从主体和客体两个角度对网络舆情的影响因素进行总结,主体因素是指舆情事件参与的主体对网络舆情产生的影响,具体包括政府、媒体、网民和意见领袖,客体因素则主要是社会舆情事件和事件所属环境等。“舆情”是中国化的概念,西方与之相似的是“公众意见”、“民意”等概念。“公众意见”(PublicOpinion)的概念最先由法国卢梭提出。HerbertBlumer(1947)?认为网络舆情是指在所给定的公共场所里,在任何时间里由讨论的人组成的一种集体性行为。Noelle-Neumann(1993)?从沉默螺旋理论对网络舆情进行分析,认为在网络舆情的生成中,公众的意见会因为另一方意见的沉默而逐渐强化,并通过反复形成具有某种一致性的舆论,进而演化为群体性倾向的网络舆情。凯斯?桑斯坦(2003)?也是以群体极化理论为视角,分析了不同国家的政府网站,发现在网络中的意见倾向容易出现群体极化现象。BrauchlerBirgit(2004)?则分析了舆情机制中的对立理论,并试图证明网络中对立矛盾的交锋更容易导致网络舆情。目前,关于网络舆情的特征,存在着多种学派和不同的说法。刘毅(2007)在《网络舆情研宄概论》中表明,舆情具有自由性和可控制性;互动性和即时性;丰富性和多元性;隐藏性和外显性;情绪化和非理性;个性化和群体极化性这六个方面的特点。姜胜洪(2010)?认为,舆情具有直接性、突发性、丰富性、互动性和偏差性等特征。丁柏铨(2010)?在现实环境中舆情的研究基础上,概括出网络舆情具有虚拟与实在相交融;虚假与真实相伴生;自觉与自发相混杂;原生态与非原生态相并存;理性成分与非理性成分相兼容的特征。徐晓日(2〇〇7f从舆情来源的广泛性、舆情发生的突然性、舆情指向的倾向性、舆情传播的极化性和舆情发布的匿名性等分析了网络舆情的五大特征。陈宇(2010)?认为,在突发性公共事件中,网络舆情呈现出系列特征,主要包括舆情突发性与传播快速性、舆情主题集中性与主体多元性、情信息偏差性和结果放大性、舆情演化过程的交互性和聚焦的持续性等。
  
  1.2.2疫病监控研究现状
  
  现状近十几年来,个人电脑、智能手机技术的广泛应用以及互联网技术的飞速发展为传染病监测、突发公共卫生事件的快速报告和处置提供了更为便捷、透明和通畅的渠道,不单是专业的传染病预防控制部门能够使用先进的技术进行突发传染病疫情和其它突发公共卫生事件的应急处置,普通民众也可以通过相关平台参与到传染病相关信息的采集以及传染病的监测中来?.在全球范围内类似的较为有名的应用系统如MedlSys和BioCaster等,这些系统充分利用现代信息技术优势,在全球公共卫生领域中占有了一席之地。世界各国也积极研宄,开发针对本国的传染病监测、信息采集及应急处置系统。早在2001年德国就建立了全国范围的基于网络的传染病暴发疫情监测系统,经过6年的运行系统可以在地方、州、国家水平之间快速及时地获和交换流行病学监测的相关信息,这个系统现在已经成为德国传染病暴发疫情监控和应急处置的有效工具和平台?.斯里兰卡建立了基于手机的动物间传染病监测系统,主要由传染病相关从业人员、动物健康检测相关人员进行检测和上报数据,己经成为他们之间进行动物间传染病监测信息传递和共享的有效工具?.动物间的传染病情可以为人类传染病发出预警,监测动物间疫情是预测人间疫情的有效途径和方法。YiboLin等人针对动物健康监测信息传递给决策者较慢的问题建立了基于手机的全球范围的高致病性球流感(H5N1)监测系统,兽医工作人员、人类健康专家、以农民等任何相关或不相关人员都可以对鸟类健康状况进行监测,并可以很方便的采用手机将监测信息上报系统并传递给相关决策者。决策者针对上报的HPAI信息采取行动,对禽间和人间疫情进行千预和预报,避免H5N1疫情的大面积传播?.SaulLozano-fiientes等探讨利用Googleearth在资源比较贫乏的环境下作为加强公共卫生能力的工具?.在智利圣地亚哥,Javierlopez等人建立了关于宠物的传染病监控系统,将与人类关系密切的宠物引发的传染病纳入监控范围,发现了4种犬类传染病和3类由猫传播的疾病,监测系统数据涵盖了90%以上的病例,对监测数据的分析还可以发现贫困和宠物疾病存在着联系?.蚊子是重要的传染病传播媒介,可以传播多种疾病,如疟疾、登革热、黄热病、日本脑炎等等,DesmondHFoley等人建立了基于网络的全球蚊子信息采集和分布模型数据库,可供医学昆虫学者、媒介传染病防控人员、以及卫生政策制定人员了解蚊种类型及发现地,并根据这些信息可以对蚊媒传染病发病风险进行评估?.使用网络作为传染病监控的工具己被无数实践证明是切实可行且廉价高效的,基于网络的传染病监测系统大多数都应用了地理信息系统技术,现在一些免费的或收费的WebGIS服务为传染病监测和传染病应急处置系统提供了很好的平台?.
  
  2003年暴发SARS疫情以后中国政府开始重视公共卫生建设,加强了公共卫生信息系统建设,2004年建成了中国传染病网络直报系统。随着网络技术的不断发展各个地方也根据本单位和地区实际,建立了一些适合本系统使用的一些专用的传染病监测和信息采集系统。如黄利群等人建立了珠海市传染病症状监测系统,对学校这个特殊群体的传染病发生情况进行监测,可以为学校传染病预防和突发公共卫事件提供可靠的工具‘孙海龙等建立了北京市卫生流行病学信息系统,为查询北京市卫生流行病学信息提供了全面可靠的平台,促进了北京市卫生流行病学信息化建设发展。各地建立的传染病监测分析系统、突发疫情处置系统、媒介生物管理系统、突发公共卫生事件应急系统平台等都得到了积极应用随着地理信息系统(GeographicInformationSystem,GIS)的发展,传染病信息实时采集与应急处置的研宄获得了长足的发展,以GIS为平台开发了一系列应用系统,GIS强大的数据管理功能、数据分析功能和可视化效果使得基于GIS平台的应用发展迅速。尤其是在医疗信息系统中的应用逐步发展起来,GIS在突发传染病疫情预警、预防控制、疫情分析、突发公共卫生事件应急处置等方面发挥了重要的作用,-系列的应用系统和平台逐步建立起来。GoogleMapsAPI是Google公司推出的编程应用程序接口,全世界的客户可以基于GoogleMaps开发自己的应用程序并建立相关应用地图网站。我国学者基于GoogleMapsAPI也开发了一系列的应用系统,谭旭等探讨了GoogleMaps在农业中的应用:il,张薇等研宄了基于GoogleMaps的地震灾害信息发布系统气刁立华基于GoogleMapsAPI建立了应急危险源普查系统’隆志坚建立了基TGoogleMap的导航与交通信息采集系统‘并探讨了智能手机系统终端的开发和应用。在传染病预防控制方面,GIS技术和GoogleMapsAPI也获得了快速的展,李燕婷等研究了GIS技术在传染病现场调查分析中的应用,建立了以智能手机信息采集系统为主要内容的GIS应用平台,系统集成数学分析模型,实现空间基础数据和非空间基础数据的结合,在2010年上海世博会保障中发挥了重要作用?.上海市疾病预防控制中心袁政安等进行了特大城市重大疫情地理信息系统研宄,尝将GIS技术应用于突发公共卫生事件应急处置,为相关领域工作人员、专家和领导者提供决策支持依据,这项研宄为GIS在流行病学中应用打下了基础?.肖刚以国家传染病监测数据为基础,结合GoogleMaps和GoogleEarthAPI建立了传染病预测预警系统,实现了传染病监测预警、疫情分析等功能?.李月新提交的国家专利集成的健康数据采集和分析系统集采样、建模分析等功能于一体,可用于传染病和慢性病监控等领域气对于基于WEB的信息采集技术研宄和可视化方法也是近来热门研宄议题,聂敏等人发明的基于移动通信网的SARS疫情信息快速采集系统及方法也是智能手机在流行病学现场调查和信息采集方面的应用’我国传染病防治及应急处置决策支持系统的发展近几年来逐步发展起来,但与国外相关领域发展有一定的差距,国内的各种应用系统很多,但总体技术较为落后,构建简单,使用范围较窄,应用不便。尤其是没有形成一套完整的应用于传染病现场调查以及其它突发公共卫生事件应急处置系统,研究不够深入,推广不力。行业间整合度比较差,没有一个系统能够和国际知名的系统如GPHIN,HealthMap等WHO推广的系统相媲美,在相关理论研宄方面更是落后,我国的疫病监控系统还有很长的路要走。1.2.3文献综述小结纵观国内外的研宄成果,我们可以了解到网络舆情的研宄工作己引起众多学科领域高度重视。疫病学、管理学、心理学、经济学等众多领域及学科的研究学者们分别对网络舆情进行了深入的研宄。总体而言,国内外关于网络舆情的研宂主要集中在内涵及特征、舆情演化和舆情引导等多方面。在疫病监控研究方面,国内外的研究工作大部分都还是一片空白,用舆情+疫病等字样在知网上搜索的相关文献的结果数量为0.同样,网络舆情分析系统的建立可以被利用到除疫病防控外的各领域,如:网络舆情预警、金融或商业、政府建设等,它也可以为社会各界人士更好地获取所需要的信息、做出决策提供参考。总之,当前我国对网络舆情在疫病监控领域的研宄还缺乏典型案例的实证研宂,因此,本论文在大数据背景下,利用文本挖掘技术、关键词库的设置和分析模型的建立对具体热点网络舆情事件的演化规律进行实证分析与探索,提出相关的有效对策及建议,从而在疫病监控方面对网络舆情研宄领域进行有效补充这篇论文的主要目的是展示如何有效地分析社交媒体数据并预测与公共卫生相关的问题。在这篇论文中,笔者展示了如何分析新浪微博的内容,并监测和跟踪公众对2013年H7N9流感疫情的看法。本文还展示了如何利用社交网络的地理定位来(例如,Foursquare平台)作为一种有效而廉价的数据源。这些数据可以帮助研宄者们更准确地侧写出具体的居民出行模型和预测城市层面的流感传播趋势。最后,笔者还演示了如何使用相同的方法监测和准确预测国家和区域各级的流感趋势,并分析出人口流动量、空间距离、流感趋势相似度这三组变量中与流感趋势预测拟合最优的变量,相信这对目前的疫病监测系统实践有着重大的意义。
  
  1.3研究思路与方法
  
  1.3.1研究思路

  
  本文在当前国内外学者对网络舆情和疫病监控系统研宄基础上,先对采集微博舆情数据的方法进行设计和阐述。再以此构建疫病状况分析模型,结合各地疾病预防控制中心公布的数据进行线性回归,比对确定本文模型设计的测算数据和实际数据是否相符。最后引入居民的出行数据,回归分析得出笔者提出的三组变量:人口流动量、空间距离和相似度与流感趋势相关性大小,并以此为政府及相关卫生部门引导网络舆情和进行疫病监控提供参考。
  
  1.3.2研究方法
  
  本论文的研究工作主要通过以下多种方式进行,具体如下:1.文献检索与系统分析法通过有效检索并大量阅读国内外学者研宄网络舆情、疫病监控等相关文献,并对其进行归纳总结,有助于对网络舆情、疫病监控的现有研宄成果进行全面了解,从而更好地设计本文的研宄方法并以此延伸出具体的研究思路、技术路线。
  
  2.数据采集法包括文本挖掘、数据预处理、关键词词典的构建、无效数据筛除等相关方法和技术,既为本文的模型分析提供理论方法,也将本文的分析结果通过表格、曲线图、直方图、散点图等可视化形式展示出来。
  
  3.理论研宄与实证分析法遵循“从实践中来,回实践中去”的哲学思想,根据设想的模拟方案的结果对我国疫病监控系统的改良提出有效的策略。
  
  1.4研究结构与内容
  
  根据本文的研宄思路,本文共分为五章,各章节内容具体安排如下第一章:引言。对本文的研宄背景及意义进行阐述,总结国内外研究现状,并提出本文的研宄思路、研宄方法及研宄内容等。第二章:相关理论与技术。介绍网络舆情和疫病监控系统的相关概念及理论基础。第三章:微博舆情数据采集方法的具体设计。首先收集现有关键词形成目标词汇库,并借助特定事件语料库提取的实时关键词对分类词典进行扩展得到最终的词表。通过词表可以准确地查找到关键词并进行匹配,然后排除掉筛选资源中的无效信息,并将筛后的文本进行整合。第四章:利用微博舆情文本对采集的其它数据进行回归分析,验证本文的设想是否可以达成。即用本文设计的各种方法来分析预测H7N9流感的传播趋势并验证本文提出的三组变量中哪个变量与流感传播趋势的相关性最强。第五章:总结与展望。对本文的主要研宄结果进行讨论,并为相关部门有效做好疫病监管提出对策建议,接着提出本论文的主要创新点并对未来可能的研宄方向进行展望。

【由于本篇文章为硕士论文,如需全文请点击底部下载全文链接】

  第2章社交网络及其对疫病监测的作用
  2.1疫病监控系统及其在互联网时代的发展
  2.1.1常见监控系统
  2.1.2国家电子疫病监控系统
  2.1.3疫病监控系统在互联网时代的发展

  2.2社交网络及其主要功能
  2.2.1博客
  2.2.2维基百科
  2.2.3微博
  2.2.4.社交网络的舆情监控功能

  2.3社交网络与疫病监控的结合以及个人隐私数据的挖掘
  2.3.1.社交网络与疫病监控的结合
  2.3.2.社交网络对个人隐私数据的挖掘问题

  第3章微博舆情数据采样方法设计及其支持向量回归分析
  3.1微博舆情数据采集方案设计
  3.1.1微博文本语句结构的分析
  3.1.2微博舆情文本数据的采集与整合
  3.1.3微博舆情数据干扰信息的排除

  3.2微博舆情数据分析方案设计
  3.2.1支持向量机的概念
  3.2.2支持向量回归的设计

  第4章微博舆情数据在疫病监控中的实际应用
  4.1基于微博舆情的H7N9数据挖掘采集
  4.1.1甲型H7N9流感的概念3
  4.1.2H7N9相关微博舆情数据的采集

  4.2基于微博舆情数据的H7N9病例数据动态评估34
  4.2.1ILI数据的概念
  4.2.2预测ILI与实际ILI比对

  4.3基于微博舆情数据的H7N9传播趋势相关因素探讨
  4.3.2流感传播趋势的定义
  4.3.2疫区人口出行数据分析
  4.3.3流感传播趋势相关因素分

  第5章结论本文的研宄结果表明,社交网络的数据不仅可以用来追踪用户对公共话题的关注程度(例如H7N9流感),还可以帮助疫病监控系统准确地预估疫病的发展趋势。因此,利用社交网络数据实时估计人们和疫病的活动轨迹(如出行路线和流感传播路线)是可行的。虽然流感在每个季节都依照一定的规律进行循环,但它出现的地理位置、爆发时间和规模大小的不同都会使它演化的情况变得相对复杂,基于时间序列的传统建模方式无法及时准确的捕捉和推测出流感的发展趋势。
  
  按照传统的疫病监控方式,统计居民购买治疗呼吸道疾病非处方药的数量和参考医护人员登记的病例记录可以有效的预测流感的趋势,但面对如此庞大的数据政府必须要花费大量的资金和时间来收集统计出自不同地理区域的数据源。与此相比微博舆情数据可以轻松地通过使用爬虫软件来予以收集,然后经过一些技术处理这些原始文本数据就可以被用来构建相关模型。除了收集数据的途径具有简便性之外,这个方法还有一些独特的优势:
  
  第一,可以同时开启多项工作。微博舆情数据提供的上下文信息比常规网络搜索查询的语料库要多(例如:(关键词),这样这些文本就可以被用来同时分析多种活动。上下文线索也使回顾性研宄成为可能,如之前分析的,通过微博文本比对能时调查病症治疗的副作用或当前潜在的药物短缺等。在监测H7N9传播的同时疫病监控系统也可以依靠微博文本来调查民众对于抗病毒性药物的看法,从而在之后的官方公告中可以直接回答这些民众所关注的热点话题(如:孕期妇女可以使用抗病毒性药物,但可能产生轻微的副作用,在使用的时候应当遵从医嘱。)。对于疫病监控中心来说,了解居民们的观点十分重要,因为这可以提高之后制定疫期相关沟通策略的效率。
  
  第二,数据参考价值高。学者Cooper的团队?发现,在搜索引擎的数据统计中,日常搜索频率的变化很大程度上受到当时新闻报道的影响,许多查询数据或许要被打上“干扰信息”的标签且不能作为预测疫病行动的有效参考。相反,整个微博文本都是用户情感的集中表达,作为参考数据有着高度的代表性,所以基于微博舆情来进行热点问题分析也会更为快捷,也可以在分析过程中先天性排除掉一定包含干扰信息的数据。类似的数据挖掘方法虽然也可以应用于搜索引擎数据,但和微博数据相比,仍然需要访问更多的上下文环境和状态信息(例如,搜索历史,而不是未链接的单个查询词)。更何况这些搜索引擎往往都是商业公司的核心,其数据一般不会对外部调查人员予以开放。
  
  相比之下,本文所有使用的微博舆情数据都是在公开的网络环境下予以采集的,从数据的可收集性来说也比传统的搜索引擎数据搜集更加可靠。尽管本文的研宄取得了与预期一致的结果,但研究还是存在一定的局限性:
  
  一是微博用户的登入时间在时间和地理上都不统一,可比较性较低。周一通是微博发布最繁忙的时候,周三是微博发布量最低的时候;此外,在东部沿海省份,人们的发送微博的数量要比中西部各省的人多得多。若是当地微博用户活跃度不够,发送博文的数量较少,数据分析准确性也会受到较大的影响。在全国层面和精确到每个地区,笔者所观察到的模拟结果确实存在较大的差异,如上一章分析往往也是内数据采集的数量和准确性所影响。从全国范围来看,每周会产生H7N9信息相关的博文约10万条,而精确各地,很多地区的博文数量只有2000不到。
  
  二是本文只有2013年的采样数据,数据代表性不强。若是采集更多的流感季数据,特别是非大型流行季节数据,可以显着提高本文模型预测的准确性。三是微博用户并不能全部代表一般人群,事实上,还有部分居民没有使用智能手机与微博的习惯,他们的数据自然也难以通过本文的方法进行采集和评估综上所述,在基于网络社交平台舆情监控的研究已经在全球各国进行开展的情况下,本文所提出的研宄方式,与我国人口密度较大的国情相符。此研宄虽然还不成熟,但是相信也能为我国传统的疫病监控系统的发展做出一定的补充。

  参考文献

【由于硕士论文篇幅较长,此页面不展示全文,如需全文,请点击下方下载全文链接】

点击下载全文
版权所有:上海论文网专业权威的论文代写、论文发表的网站,秉承信誉至上、用户为首的服务理念,服务好每一位客户
本站部分论文收集于网络,如有不慎侵犯您的权益,请您及时致电或写信告知,我们将第一时间处理,邮箱:shlunwen@163.com