上海代写论文网专业提供代写毕业论文、代写本科论文服务

相关文章推荐

联系方式
您现在的位置:首页 > 教育学论文 > 信息技术论文 >
研究信息自动检测与滤技术的运用
发布时间:2019-06-11

摘要

  随着通信网络的迅速发展以及智能终端用户的快速增长,短信、彩信、微博QQ、微信等即时信息发布工具被广泛普及应用,它们都具有使用便捷、传播速度快的优点。其中,除短信之外的其它工具都可以同时携带图片信息和文本信息,因而得到更多的应用。然而,由于信息来源的多样化与随意性,其所携带的内容往往包含有不良的图片与文本信息。为此,必须采用基于内容的信息过滤手段,对图片与文本内容进行识别、提取、分析,实现不良信息的监测过滤。

  传统的信息监控分析模式,一般是基于软件自动监测加人工审核来实现,其在响应速度、处理效率、人工成本等方面存在先天缺陷。现代自动监控分析技术主要基于各种机器学习算法,可以较好地解决传统模式的问题,但是面对如今更为复杂的海量信息以及特定的应用场景,它们在成本和性能方面也往往难以令人满意。此外,计算环境和自然语言处理技术的不断完善,为信息自动检测与滤技术的深入研究与应用奠定了良好的基础。

  为此,本文首先对目前常用的图片信息和文本信息监测分析算法进行了深入研究分析;在此基础上,对两种CNN模型VGG19和ResNet50在不良图像内容识别中的性能进行分析比对和测试验证,并选择性能较好的ResNet50模型应用到实际应用平台中;提出了一种基于BP神经网络+Word2vec的文本分类模型来实现文本信息的自动监测分析,并使用实际数据对它们进行了有效性验证。最后,以电信手机报信息发布系统为案例,针对不良信息的分析与监控,实现了上述研究成果的实际应用,验证了其可用性。目前,相关应用系统已投入实际运行,取得了良好的监测分析效果。

  关键词:信息发布;图片识别;文本识别;CNN;Word2vec;BP神经网络

信息检测

ABSTRACT

  With the rapid development of communication network and the rapid growth of intelligent terminal users, instant information release tools such as SMS, MMS, weibo, QQ and We Chat have been widely used. All of them have the advantages of convenient use and fast transmission. Among them, all the tools except SMS can carry both picture information and text information, so more applications can be made. However, due to the diversity and arbitrariness of information sources, the content it carries often contains bad pictures and text information. Therefore, content - based information filtering method must be adopted to identify, extract and analyze image and text content, so as to realize monitoring and filtering of bad information.

  Traditional information monitoring and analysis mode is usually implemented based on software automatic monitoring and manual audit, which has congenital defects in response speed, processing efficiency and labor cost. Modern automatic monitoring and analysis technology is mainly based on various machine learning algorithms, which can solve the problem of traditional mode better. However, faced with today's more complex mass information and specific application scenarios, they are often not satisfying in terms of cost and performance. In addition, the continuous improvement of computing environment and natural language processing technology has laid a good foundation for the in-depth research and application of information automatic detection and filtering technology.

  For this reason, this paper first carries on the in-depth study and analysis of the current commonly used image information and text information monitoring and analysis algorithms; On this basis, the two convolution Neural Network architecture VGG19 and ResNet50 in bad image content recognition performance analysis of the comparison and test validation, and choose better performance ResNet50 model is applied to the practical application platform; A text classification model based on BP neural network+word2vec is proposed to realize automatic monitoring and analysis of text information, and their validity is verified by using actual data. Finally, by taking the telecommunication mobile phone report information publishing system as a case,the paper realizes the practical application of the above research results and verifies its availability by analyzing and monitoring bad information.

  At present, the related application system has been put into practice and achieved good results of monitoring and analysis.

  Key Words: The information release; Image recognition; Text recognition; CNN; word2vec; BP neural network

目录

  第1章绪论

  1.1研究背景和意义

  1.1.1研究背景

  本课题为导师指导下自选,主要是基于图片分类过滤和文本分类过滤技术同时实现图片与文本不良信息的监控过滤,属于理论研究与应用相结合的课题。21世纪是信息时代,随着互联网的迅速发展,移动互联网水平也得到了显着的提高,现在的信息科技正在逐渐的加速影响并改变着传统的通讯方式,提高了人们沟通的效率,实现了沟通方式多元化,提升了生活水平。与此同时,多元化多种类的信息发布工具也应运而生,如短信、微博、彩信、QQ、微信等均被广泛应用。它们具有很多优点如操作便捷,即时迅速等。其中,除短信之外的其它工具都可以同时携带图片信息和文本信息,从而使信息传播的载体呈现多样化,带给人们更好的视觉体验和获取信息的效率,从而得到广泛应用。然而,由于信息来源的多样化与随意性,其所携带的内容往往包含有不良的图片与文本信息。

  为此,必须采用基于内容的信息过滤手段,对图片与文本内容进行识别、提取、分析,实现不良信息的监测过滤。传统的信息监控分析模式,一般是基于软件自动监测加人工审核来实现,其在响应速度、处理效率、人工成本等方面存在先天缺陷。现代自动监测分析技术主要是基于各种机器学习算法,可以较好地解决传统模式的问题但是面对如今更为复杂的海量信息以及特定的应用场景,它们在成本和性能方面也往往难以令人满意。此外,计算环境和自然语言处理技术的不断完善,为信息自动检测与过滤技术的深入研究与应用奠定了良好的基础。

  1.1.2研究意义

  随着微博、彩信、QQ、微信等多元化信息发布工具被广泛应用,信息来源日益多样与随意,其所携带的内容往往包含有不良的图片与文本信息,例如涉黄、涉毒、涉赌、涉恐等信息。因此,研究基于内容的信息过滤方法与技术,对图片与文本内容进行识别、提取、分析,实现不良信息的监测过滤,成为当前研究热点之一。目前,在相关技术领域,已有不少研究和应用成果,但对于具体的应用场景,还需要根据实际场景的需求进行深入研究分析和优化调整,才能获得良好的效能,其主要体现在:

  (1)在图片内容识别领域,已有多种传统的方法,但他们往往存在图像类型与复杂图像的局限性问题,即难以满足同时对多种类型图片以及同一类型中不同复杂度图片进行有效识别的需求。

  (2)在文本内容识别领域,同样也有不少的传统方法以及性能优良的现方法,但其往往难以满足同时要求较快的识别速度,支持并行化计算,计算成本较低,而分类性能只需适中的应用需求。为此,本文针对以上应用需求,开展相关的研究、分析、验证与实现工作,其主要意义体现在:

  (1)有效解决图像内容识别的局限性问题鉴于近些年深度学习算法尤其是CNN模型在图片内容识别领域的优异性能,本文对该模型进开展了深入的研究比较、分析测试、性能验证并在实际应用系统中予以实现。由此,有效地解决了图像内容识别的局限性问题,使得实际应用系统能够同时识别具有多种类型、内容复杂,尺寸参差不齐的不良图片。

  (2)提出了一种BP神经网络+Word2vec的文本分类模型针对实际应用场景中,需要综合考虑较快的不良文本识别速度,支持并行化计算,计算成本较低,而识别性能只需适中的需求,详细研究分析现有的各种文本特征提取与文本分类方法,提出了BP神经网络+Word2vec的文本分类模型,较好地解决了上述应用需求,即满足了不良文本识别的性能要求,又实现了高速、低成本、支持并行化处理的综合需求。此外,还获得了与不良图片识别技术的一致性(BP与CNN的一致性)。

  (3)解决实际应用问题本文研究成果已经实用化,可以实现含有不良信息的图片与文本的自动识别与过滤,较好地保证不良图片与文本识别过滤的完整性与准确性,同时有效提高工作效率。综上所述,本文工作在具有一定理论价值的同时,还具有较强的参考价值与应用价值。

  1.2国内外研究现状

  1.2.1图片内容识别研究现状

  不良图片识别是计算机图像识别领域的一个研究热点问题,世界各国的很多学者提出了不同的解决方案。主要应用较多的方法有线性分类器,决策树,深度学习等。在深度学习取得巨大进展之前,不良图片识别方法一般基于颜色和使用图像特征提取算法如梯度方向直方图(HOG,HistogramofOrientedGradients)尺度不变特征变换(SIFT,Scale-invariantfeaturetransform)、加速稳健特征(SURF,SpeededUpRobustFeatures)等提取的图像特征,使用分类方法对其进行分类。例如:基于肤色区域和人体结构几何特征检测的专用分类方法,该方法能够在存在大范围阴影和皮肤颜色的情况下有效识别裸体图像[1];基于形状识别和模糊分类的裸体图像识别方法[2];使用基于肤色的SVM(SupportVectorMachine)模型对色情敏感图像过滤的方法,但其仅考虑了图像中的颜色特征,而可望有助于提高识别性能的纹理、形状等特征却没有考虑,性能仍有待于进一步改进[3];基于Daubechies小波变换和中心矩/颜色直方图以及图像特征库匹配的敏感图像识别方法,该方法的主要不足在于,对作为判断标准的图像特征库的依赖性,实际中难以形成非常有效的包含各种敏感图像特征的图像特征库[4].

  总体来说,在大规模应用深度学习之前的相关研究成果,通常仅针对图像的颜色、局部轮廓等部分特征进行分析。若所需分类的图片场景复杂、图片中物体较多的话,这些浅层特征一般不能很好地表达图片的信息,例如监控视频中人脸匹配问题。而且一种对于特定的图像识别任务性能表现不错的方法,对于其他图片识别任务往往不能取得相同的性能表现。例如使用HOG取图像特征结合SVM的方法识别道路中的行人取得了不错的效果,但其应用到玩具老鼠与真老鼠识别任务中就不能取得很好的效果。因此传统方法存在识别任务中图片复杂高时识别精度不足和对于一个新的分类任务不能简单套用已有方法,需要精心选择测试特征提取算法和分类算法的问题。近几年,随着计算机硬件性能的迅速提升,深度学习得到了很大发展,尤其CNN模型在图像识别方面较之前的方法识别性能十分出色,尤其在场景复杂、颜色多变、大数据量的情况下,其性能比传统的方法提高很多,几乎在所有的图片分类领域均获得了不错的效果,其近年的发展概况如下。2012年,Krizhevsky提出AlexNet模型[5],该模型在计算机视觉竞赛(ILSVRC-2012,ImageNetLargeScaleVisualRecognitionChallenge-2012)的比赛中,取得了误差15.3%的成绩,远超过第二名。AlexNet网络结构一共有八层,其中包括五个卷积层和三个全连接层,整个网络比较复杂,包括六千万个参数和六十五万个神经元,同时该网络还使用了Dropout正则化方法,数据增强等技术来防止过拟合,提升网络的泛化能力,并使用了简单而又高效的Relu(RectifiedLinearUnits)激励函数来提升学习速率和准确率。

  同年,Google公司的GoogleBrain项目也取得重大突破,该项目由AndrewNg和JeffDean主导,它通过深度神经网络对YouTube的视频进行无监督的训练和学习,从而自动识别出视频中的猫。ChristianSzegedy等人在2014年提出了GoogleNet模型在当年的ILSVRC比赛中,将误差降到6.67%,较2013年的识别效果提高了近一倍。该模型共有22层,虽然层数相比于AlexNet更深,但参数量却减少了12倍,准确率也更高[6].同年提出的VGGNet网络模型,也取得相似准确率,只是该模型需要训练的参数量很大,训练时间较长[7].在2015年,微软的何凯明团队,提出了一新的卷积神经网络模型:残差神经网络(ResNet)[8].该模型在ImageNet2015的比赛中获冠军,将误差降到3.57%.他们最终完成的模型共有152层,这比以往任何模型都要深,而且他们在论文中还展示出1000层以上的残差神经网络,同样得到了接近的性能,解决了已往随着网络层数加深模型过拟合的问题。残差神经网络模型借鉴了高速公路网络(HN,highwaynetworks)的思想,在此基础上,于直接加深网络会使误差增大的问题,作者引入了残差的概念,进而构造了残差神经网络。2017年刘壮、黄高等人提出了DenseNet模型[9].该模型在在ResNet的基础上,进一步扩展网络连接。该模型对于网络的任意一层,该层之前所有层的特征图都是这层的输入,该层输出的特征图是后面所有层的输入。

  DenseNet模型更近一步的减轻了梯度消失问题,增加了特征图的利用率,大大的减少了模型的参数量。CNN(ConvolutionalNeuralNetwork)模型几乎在任何图片分类任务中都能取得不错的效果,尤其是在复杂的分类任务中其识别精度更是远超传统方法,在近几年的图像分类比赛中出现了很多优秀的CNN模型如(VGGNet、ResNet)。对一个新的图片分类任务、你可以直接使用已有优秀CNN模型,只需简单地调整模型参数便能取得良好的分类效果。相较于传统方法节约了大量模型选择调试的时间。而且CNN模型可以很方便地在GPU上实现并行化计算,使其在识别吞吐量、识别速度上有非常大地提升。这在实际应用中具有重大意义。

  1.2.2文本内容识别研究现状

  文本识别的一般流程分为预处理、文本编码、特征提取、文本分类/聚类等步骤。其中,文本特征的分析和提取是比较关键的步骤,在某些场景下,特征提取会更影响分类的效果。传统的特征提取方法一般是将独立的词语作为特征进行分析,缺乏对上下文语义信息的抽象,这就使得提取特征过程中会丢失部分信息。文献[10]介绍了目前Google最新推出的Word2vec(Word2vec,wordtovector)算法,并将其应用在文档词语的编码中,通过对编码后的词语向量聚类的文章关键词,结果表明Word2vec是一种有效的词语编码算法。文献[11]提出了一种比较新的文本分类算法,根据中文文本的特点,利用Word2vec的技术,将文本编码成固定长度的向量,并结合已有的分类算法,显着地提高了分类的性能,达到了预期的效果。国外在20世纪50年代开始文本分类算法的研究,最早在1957年H.P.Luhn提出了将词频统计引入到文本分类领域中的想法,随后文本分类课题研究开始进入热潮。这一阶段从20年代50年代持续到80年代,Maron、Kuhn提出的概率标引模型、Salton提出的向量空间模型和Rosenblatt提出的感知器,这些分理论和模型为文本分类技术的研究和发展提供了坚实的理论基础。到80年代,文本分类主要是以知识工程的方法进行,即人工的方式来进行文本的分类,虽然采用该方式在一定程度上能够极大的提高分类准确率,但是也造成了极大的人力和时间成本,阻碍当时文本分类技术研究的发展。

  在90年代,随着信息技术的高速发展,互联网上积累了海量的文本数据,促进了文本分类技术研究方向的转变。传统的基于知识工程的方法已经不适应当时的需求,随着信息技术、自然语言处理(NLP,NaturalLanguageProcessing)的不断发展创新,在这个时期机器学习逐渐成为文本分类方法中主流。ThorstenJoachims使用支持向量机来对文档进行分类;随后YimingYang等人应用决策树算法对文本进行分类;文献[12]提出了LDA主题模型,其在提取文档主题方面较之其他算法有显着优势,因此广泛应用于文本主题挖掘中。

  国内的文本分类的研究起始于20世纪80年代。初期主要研究和借鉴国外的先进技术和成果。进入90年代后,随着越来越多国内的研究学者开始对中文文本分类技术进行研究,根据中文独有的语言特点,逐渐形成了一个比较成熟立的文本分类理论体系,涌现了很多科研成果。文本编码模型的研究也是中文文本分类的一个重要研究方向,庞剑锋等人依据中文的语言特点,首次提出了把向量空间模型运用在文本分类中[13].文[14]使用最大熵模型来进行文本分类。文献[15]在研究分析文本分类技术的经典方法之后,通过对不同方法组合进行实验对比得到CHI特征选择方法、tf-idf权重计算方法以及SVM分类器的组合分类效果最好。在2013年,张志飞等人提出了基于LDA主题模型的短文本分类方法,解决了文本特征稀疏和上下文依赖性的问题,实验结果表明,该方法具有良好的分类效果[16].文献[17]选VSM作为文本的表示模型,提出了一种改进的tf-idf权重计算方法,最后使用支持向量机作为分类器,取得了相当不错的分类效果。在自然语言处理领域中Word2vec是一种公认性能表现不错且应用广泛的文本编码方法。传统的分类方法难以并行化计算,一些除BP(BackPropagation)神经网络的其他算法(如RNN)也可以并行化计算并且获得较好的分类性能,但一般来说对计算资源要求较高且只能部分实现并行化。BP神经网络性能适中、可以很方便地使用GPU完全并行化计算而且计算成本小,很适合实际应用场景。

  1.3本文主要工作

  国内外在图片内容识别和文本内容识别领域取得了很大进展,但在不良图片识别和不良文本识别方面还存在一些不足:不良图片识别方面,传统的方法在复杂图片识别中识别精度不高,近几年深度学习的研究和应用取得了重大成果,其中CNN模型在图片识别方面性能远好于其他方法,面对复杂的图片识别任务也能取得很好的识别精度;文本内容识别方面,传统分类方法难以实现并行化计算,面对大数据量的识别需求时,处理速度往往很低,一些模型方法(如LSTM)也可以方便地使用GPU并行化计算并且获得较好的分类性能,但对计算资源要求较高。而BP神经网络可以很方便地在GPU上并行计算且取得良好的分类性能,此外对硬件需求不高。针对以上问题,开展的研究内容包括以下几个方面:

  (1)对目前常用的图片信息和文本信息监测分析算法进行了深入研究分析。

  (2)选用CNN来实现图片信息的自动监测分析,通过实验使用实际数据对其进行了有效性验证。其中本文实验对比两种常用的CNN模型VGG19、ResNet50在不良图片识别中的性能表现,并选择性能较好的一个应用到信息发布系统中。由于在信息发布系统中对模型的不良图片查全率有较高的要求,因此试验中将测试选择一个合理的概率阈值用于判断不良图片。

  (3)实现了一种基于BP神经网络+Word2vec的文本分类模型来实现文本信息的自动监测分析,通过实验使用实际数据对其进行了有效性验证。与不良图片识别一致,不良文本的识别本文也将测试选择一个合理的概率阈值判断不良本。

  (4)以电信手机报信息发布系统为案例,针对不良信息的分析与监控,实现了上述研究成果的实际应用,验证了其可用性。

  1.4本文组织结构

  本文共分六章,各章节主要内容如下:

  第一章绪论介绍了本课题的来源背景、研究现状及选题意义等。

  第二章相关理论与技术对系统应用的相关理论,算法与技术进行介绍和分析。

  第三章核心算法的分析与验证研究了基于CNN的图片识别算法,BP神经网络+Word2vec的文本识别模型,根据以上方法,提出一种针对图片内容识别和文本内容识别的应用方案。

  第四章应用系统设计给出本文应用系统的系统设计,主要包括:系统功能需求、系统架构、业逻辑分析与设计、系统核心功能和数据库设计等。

  第五章系统实现根据系统的设计方案,实现应用系统,对应用功能测试效果作了分析。

  第六章总结与展望对本文所做的工作总结,指出本文的主要特色,并对本应用研究作展望。

【由于本篇文章为硕士论文,如需全文请点击底部下载全文链接】

  第2章相关理论与技术
  2.1图片内容识别
  2.1.1概述
  2.1.2基于CNN的图片内容自动识别模型
  2.2文本内容识别
  2.2.1概述
  2.2.2BP神经网络
  2.2.3Word2vec2.3数据集简介
  2.3.1MicrosoftCOCO数据集
  2.3.2维基百科中文语料
  2.4本章小结

  第3章核心算法的分析与验证
  3.1基于CNN的图像分类算法
  3.1.1算法分析
  3.1.2算法测试
  3.1.3结果分析
  3.2基于BP神经网络+Word2vec的文本分类算法
  3.2.1算法分析
  3.2.2算法测试
  3.2.3结果分析
  3.3本章小结

  第4章应用系统设计
  4.1系统功能需求
  4.2系统总体设计
  4.2.1系统架构
  4.2.2系统功能模块
  4.3业务逻辑分析与设计
  4.4系统核心功能
  4.5数据库设计
  4.5.1逻辑设计
  4.5.2表结构设计
  4.6本章小结

  第5章系统实现
  5.1系统平台概况
  5.1.1硬件平台
  5.1.2软件平台
  5.2系统主要功能实现
  5.3应用测试效果
  5.4本章小结

第6章总结与展望

  6.1总结

  本文首先深入研究分析了常用的图片信息和文本信息监控分析算法,以为基础,选用了ResNet50模型来实现图片信息的自动监控分析,提出了一种基于BP神经网络+Word2vec的文本分类模型来实现文本信息的自动监控分析,并使用实际数据对它们进行了有效性验证。之后,为了验证上述研究成果的可用性,在电信手机报信息发布系统中,针对不良信息的分析与监控,设计实现了相关功能模块。目前,本课题应用已部署上线并取得了良好的效果。本文主要创新与特色:

  1、通过实验对比发现ResNet50模型和VGG19模型在不良图片识别中识别效果均非常出色,其中ResNet50模型识别效果好于VGG19模型,完全解决了传统方法在面对复杂识别任务时性能落后的问题,并将ResNet50模型应用到实际系统中,实现了图片信息的自动监控分析。

  2、实现了一种基于BP神经网络+Word2vec的文本识别模型,其方便采用GPU并行化计算、占用计算资源较少、计算成本较低、识别性能良好的特点非常适合实际应用场景,本文在实际应用中也验证了这一点。

  3、根据现有文献检索,国内电信行业未见与本文功能类似的电信手机报信息发布系统。

  6.2展望

  本文提出并实现了图片内容识别模型和文本内容识别模型的应用,但本课题涉及的相关内容仍有很大的优化和发展空间:1、本文图片内容识别模型和文本内容识别模型只针对不良图片和不良文的二分类问题进行研究,即只能判断是或不是不良图片或不良文本,缺乏对不良图片或不良文本更确切的分类,而某些场景需要精确的类别信息进行针对性的处理,这是今后的研究方向。2、本文提出的图片内容识别模型和文本内容识别模型可以推广应用到其他图片内容识别和文本内容识别场景中。

  致谢
  参考文献

【由于硕士论文篇幅较长,此页面不展示全文,如需全文,请点击下方下载全文链接】

点击下载全文
对应分类:
下一篇:没有了
版权所有:上海论文网专业权威的论文代写、论文发表的网站,秉承信誉至上、用户为首的服务理念,服务好每一位客户
本站部分论文收集于网络,如有不慎侵犯您的权益,请您及时致电或写信告知,我们将第一时间处理,邮箱:shlunwen@163.com