上海代写论文网专业提供代写毕业论文、代写本科论文服务
联系方式
您现在的位置:首页 > 计算机论文 > 软件工程论文 > 研究深度学习的目标检测与搜索算法

研究深度学习的目标检测与搜索算法
发布时间:2019-03-12


软件工程硕士论文范文第二篇:研究深度学习的目标检测与搜索算法


  本篇文章目录导航:

  【题目】研究深度学习的目标检测与搜索算法??
  【第一章】基于深度学习的视频运动目标绪论
  【第二章】学习视频运动目标相关工作
  【第三章】基于卷积神经网络的视频目标定位检测
  【第四章】基于时空双流的视频人物动作检测
  【第五章】基于循环神经网络的视频目标自然语言搜索
  【第六章】目标检测与搜索算法的结论与参考文献

摘要

  检测和搜索视频中的目标是计算机视觉领域的重要任务之一,其主要难点在于如何运用深度学习等算法来分析出视频中目标的位置以及如何根据查询条件搜索到视频中准确的目标.近年来传统的深度学习算法对于单张静态图片的识别以及文本描述生成取得了较大的进展,但仍然不能满足视频中目标的检索要求.

  本学位论文以检测与搜索出视频中的目标物体为研究目标,首先提出一种基于边界概率卷积神经网络模型的目标定位检测算法来识别与定位视频中的目标,再通过一种基于时空双流特征融合的3D卷积神经网络完成视频中人物的动作检测,最后通过一种基于循环神经网络(GRU)模型的自然语言目标搜索算法来完成视频中的目标搜索.此外,本文在图像的目标检测数据集PASCAL  VOC上完成目标的定位检测实验,在人物动作数据集UCF-101和HMDB51上完成视频人物动作检测实验,在目标标注数据集Refer It上完成视频目标的自然语言搜索实验.实验结果证明,本文提出的基于深度学习的目标检测与搜索算法在一定的程度上改进了已有的方法.

  本文的工作创新主要体现在以下三个方面:

  (1)利用一种基于目标候选框边界概率的卷积神经网络模型,计算出目标候选边界框的四条边在一定搜索区域上的概率,获得更加接近人工标注边框的候选,通过迭代的方式与目标识别模型进行融合.

  (2)将预先训练好的空间流与时间流动作检测网络在深度卷积层进行融合,利用融合后的时空双流动作检测模型提取中层时空特征提取,之后利用3D卷积神经网络模型完成视频人物动作检测.

  (3)利用卷积神经网络并行的抽取局部目标区域和全局的特征,通过两层的门循环神经网络融合这两方面的特征以及自然语言搜索语句的特征来完成自然语言目标搜索.

  关键词:深度学习;目标检测;动作检测;目标搜索;门控循环单元(GRU);自然语言

Abstract

  Detecting and retrieval the object in video is an important task in the field of computer vision.The  main  difficulty  lies  in  how  to  use  the  deep  learning  algorithm  to  analyze  the  position  of  theobject  in  video  and  how  to  search  for  accurate  object  in  video  based  on  query  criteria.  In  recentyears,  the  traditional  deep  learning  algorithm  has  made  great  progress  in  the  recognition  of  singlestatic  images  and  the  generation  of  text  description.  However,  the  retrieval  requirements  for  thetarget in video cannot be met.

  In this thesis, the goal is to detect and retrieval target objects in video. Firstly, a target locationdetection  algorithm  based  on  the  boundary  probability  convolution  neural  network  model  isproposed to identify and locate the object in video. Then, a 3D convolutional neural network basedon spatio-temporal characteristics fusion is used to perform the action detection of the characters invideo. Finally, a natural language target search algorithm based on the Gated Recurrent Unit (GRU)is  used  to  complete  the  object  retrieval  in  video.  In  addition,  this  thesis  carries  out  the  targetdetection  experiment  on  PASCAL  VOC,  carries  out  character  action  detection  experiment  onUCF-101  and  HMDB51,  and  carries  out  natural  language  object  retrieval  experiment  on  Refer It.

  The  results  show  that  the  object  detection  and  retrieval  algorithm  based  on  deep  learning  hasimproved the existing methods to a certain extent.

  The work of the thesis is mainly reflected in the following three aspects:

  (1) Using a convolution based on target candidates box border probability neural network model,calculating the target candidate bounding box of the four sides in a certain probability on the searcharea,  getting  a  candidate  box  closer  to  the  ground  truth  box,  and  integrating  with  the  objectrecognition model through iteration;(2)Fusing the pre-trained spatial and temporal network in the depth convolution layer, using thecombined  spatio-temporal  model  to  extract  the  spatio-temporal  feature,  and  using  the  3Dconvolution neural network to complete the detection of actions for characters in video;(3)Using a  convolution neural network to extract the features of local object region  and globalimage in parallel, and using a two-layer gated recurrent unit to combine these two features and thefeature of natural language statement for natural language object retrieval.

  Key words: Deep Learning; Object Detection; Action Detection; Object Retrieval; Gated RecurrentUnit (GRU); Natural Language

目录

  第一章绪论
  1.1 课题研究的背景和意义
  1.2 视频目标检测概述
  1.2.1 视频目标检测基本概念
  1.2.2 视频目标检测方法

  1.3 视频目标搜索概述
  1.3.1 视频目标搜索基本概念
  1.3.2 视频目标搜索方法
  1.4 课题研究思路和创新点
  1.5 论文主要研究工作及结构

  第二章相关工作
  2.1 视频的预处理
  2.1.1 镜头分割
  2.1.2 关键帧提取
  2.1.3 RGB 颜色通道提取

  2.2 CNN在视频图像识别中的应用
  2.2.1 CNN 的网络结构
  2.2.2 CNN 的算法原理

  2.3 目标候选区域提取算法
  2.3.1 Sliding Window 算法
  2.3.2 Selective Search 算法
  2.3.3 Edge Box 算法

  2.4 RNN 在基于文本的目标搜索中的应用
  2.4.1 RNN 的网络结构
  2.4.2 RNN 的算法原理
  2.4.3 GRU 神经网络
  2.5 本章小结

  第三章基于卷积神经网络的视频目标定位检测
  3.1 问题描述
  3.2 基于边界框概率的卷积神经网络定位模型
  3.2.1 边界框概率预测原理3.2.2 边界框概率表示法
  3.2.3 基于深度卷积神经网的定位模型框架设计
  3.3 视频目标的定位检测算法流程设计

  3.4 实验与结果分析
  3.4.1 实验设计
  3.4.2 结果分析
  3.5 本章小结

  第四章基于时空双流的视频人物动作检测
  4.1 问题描述
  4.2 基于时空双流的融合特征提取
  4.2.1 空间流卷积神经网络
  4.2.2 时间流卷积神经网络
  4.2.3 时空特征融合策略

  4.3 基于 3D 卷积神经网络的人物动作检测
  4.3.1 整体框架设计
  4.3.2 3D 卷积神经网络动作检测

  4.4 实验与结果分析
  4.4.1 实验设计
  4.4.2 结果分析
  4.5 本章小结

  第五章基于循环神经网络的视频目标自然语言搜索
  5.1 问题描述
  5.2 基于GRU自然语言搜索模型框架设计

  5.3 SGRC 模型的迁移学习
  5.3.1 图片文本描述数据集上的预训练
  5.3.2 图像目标自然语言搜索数据集上的微调

  5.4 实验与结果分析
  5.4.1 实验设计
  5.4.2 结果分析
  5.5 本章小结

  第六章总结与展望
  6.1 工作总结
  6.2 工作展望
  参考文献

版权所有:上海论文网专业权威的论文代写、论文发表的网站,秉承信誉至上、用户为首的服务理念,服务好每一位客户
本站部分论文收集于网络,如有不慎侵犯您的权益,请您及时致电或写信告知,我们将第一时间处理,邮箱:shlunwen@163.com