基于深度学习的人脸视频检索系统

一、小组成员

  • 1 景宸琛:2120161005
  • 2 李丝雨:2120161010
  • 3 王雨佳:2120161061
  • 4 张力嘉:2120161077

二、项目内容与意义

给出一个人物的人脸视频,人脸视频检索的目标是从视频数据库中寻找包含该人物的视频。人脸视频检索的挑战性问题主要在于人脸类内差异较大以及巨大的时间和空间复杂度。为了解决这些问题,我们通过深度卷积神经网络(deep CNN)学习出具有判别性且紧致的人脸表达来实现人脸视频检索。

我们的深度卷积神经网络的训练过程总共包括三个步骤。第一步:在大规模ImageNet数据集和Webface数据集上训练AlexNet网络以完成初始化。第二步:我们引入一个判别性二进制哈希方法在大量的人脸图像上学习哈希函数。为了解决人脸图像类内差异过大的问题,在学习过程中,我们使用监督信息来确保同类别的样本具有相似的哈希编码。第三步:对网络进行微调以用于人脸视频检索。

三、数据集

本数据集包含两个源于美剧(生活大爆炸和越狱)的大规模视频集。生活大爆炸是一部仅有5名主角的情景喜剧,大多数情景在室内,每集大概20分钟。与之不同,越狱的大多数场景在室外拍摄,每集大概42分钟,包含很大的光照变化。所有的视频都来自两部美剧的第一季:生活大爆炸17集,越狱22集。人脸视频的数目分别是4,667和9,435。视频的每帧都是150×150的图像。

四、预期结果

本项目预期建立一个人脸视频检索系统,给定一个人物的视频,可以迅速在数据库中找出包含该人物的视频。

五、项目分工

景宸琛:数据处理、算法设计、文档编写与PPT制作

李丝雨:实现检索框架、文档编写

王雨佳:算法设计、训练网络

张力嘉:训练哈希函数、PPT制作