图像识别

(1)    网络图像文档过滤中的若干关键问题研究,项目批准号:60475007;时间:2005-01至2005-12。
为了更好实现网络信息过滤(IF),该项目研究图像文档过滤中的若干关键问题,主要包括实现适应于IF目的的中文关键词高速识别;根据过滤任务对错误的文档(识别文档)的内容进行数值化描述,对其有关语义进行表示;根据过滤任务获得语义级过滤模型。该项目已结题,并获得了优的评价成绩。
(2)    国家863项目,演进型网络多媒体过滤器EMF,项目编号:2007AA01Z417,2007.6-2009.12
本课题针对当前网络信息过滤技术存在的主要问题和不足,研究过滤器类模型跟踪网络信息环境自动演进,对文本、语音、图像、视频等多媒体文档进行综合过滤的新一代过滤器EMF(Evolvable Multimedia Filter)。主要研究内容包括:
1.    EMF体系结构:包括在线网络多媒体信息(流)采集、元数据抽取及标注、概念及主题挖掘、语料库及概念格维护、过滤主题训练样本抽取、类模型增量式演进、网络信息在线过滤等功能模块。
2.    EMF中的网络多媒体信息(流)在线采集和分类存储技术:包括网络信息(流)在线采集策略、数据粗过滤及解码、语料的标注及索引、演进型语料库和概念格等。
3.    多媒体过滤的核心算法:包括文本、语音、图像、视频文档的特征抽取算法,特征降维压缩算法,类模型学习算法,文本、语音、图像、视频信息综合过滤中的特征关联及结合算法等。
4.    EMF类模型在线增量式演进技术:过滤器类模型的演进是本项目成功的关键,包含丰富的研究内容。初始类模型通过样本库学习获得后,类模型将根据应用环境中的样本的变化进行在线增量式演进。应用环境中的样本类别是不确定的,在有用户确认的条件下,演进学习是有监督的,否则样本的类别只能靠自动识别的方法确定,这种方法是有错误率的。因此要研究抗“噪声”的模型学习方法。
(3)    不良图片过滤系统,项目来源:横向课题
随着互联网内容不断丰富,网络上充满了危害青少年身心健康的不良色情图片,目前采用底层包过滤的方法已经不能达到阻止的目的,需要基于内容分析的过滤技术,多特征结合:采用除肤色以外,姿态,外形,图像信息熵等特征,提高了识别准确率,在国内外知名数据库上测试可以达到90%以上;采用多分类器结合,将快速的支持向量机(SVM)分类器和最近邻(NN)结合到一起,提高了识别处理速度,采用自适应学习,当处理样本增多时,系统可以进行自适应学习,不断提高识别率。本项目可以应用于互联网和手机视频的处理,也可以应用于图片和视频的检索。