语音识别与合成

模式识别实验室语音识别与音频检索组技术简介
主要研究包括语音识别、语音合成、音频检索。
1.    语音识别
a.    关键词识别
可以识别用户话音中的关键词,完成相应的信息服务,如命令控制、信息查询等,关键词信息可以订制(即用户可以根据需要动态更改)。(如PRIS实验室机器人中的语音信息查询功能、电话自动转接系统等)
b.    连续语音识别
将用户的话音转换为文本,可以用于语音听写机、广播语音转写等。
c.    说话人和语种识别
说话人识别: 包括说话人确认和说话人辨认两种系统,说话人确认是识别是否是某个特定说话人的语音,说话人辨认是识别是哪个说话人的语音。
语种识别: 识别用户的发音为哪种语言。
2.    语音检索
文本检索语音: 利用语音识别技术完成对语音数据的检索,检索对象可以电话语音、广播语音等,检索输入通常为文本关键词,关键词可以灵活设定。
语音检索文本: 利用语音识别技术作为检索接口,搜索文本数据,应用场景如Local Search,语音移动搜索等等。
3.    音频检索
(1) 基于样例的音频检索
根据给定的音频片段(原始音频片段或者翻录的音频片段),从音频库中找到相匹配的文件或片段。如录制一段音乐,通过样例检索技术找到这段音乐属于哪首歌。目前性能: 库中音频800小时,录制音乐片段长度5s,top1正确率为97%。
a. 音乐检索: 在马路上听到一首很好听的歌,但不知歌曲名字等信息,可以用手机录下来,传到服务器进行检索,得到歌曲名、歌手、专辑等信息
b. 音视频版权或安全
安全应用: 在网络上发现一段不良音视频,希望找到所有包含该段音视频的音视频文件或网站。
音视频版权: 查找特定音视频文件及其片段是否被非授权传播
c. 广告监管
广告监管部门: 某个非法广告是否继续播放     
厂商:  本公司做的广告播放情况,即是否按时、按次、完整播放
d. 多媒体去重
利用音频进行多媒体去重
(2) 哼唱检索
根据哼唱的片段,搜索到对应的音乐,可用于手机彩铃下载、网络音乐下载等的输入接口。
(3) 音频事件检测和音频场景识别
检测关键音频事件,如枪声、爆炸声、脚步声等等,并根据关键音频事件确定当前的音频场景
4.    其它研究
语音合成、语音增强、不良(色情)音频检测与过滤等。

项目:
863项目,多语言语音识别关键技术研究与应用产品开发,2006AA010102
国家自然基金项目,广播语音声学建模中的主动学习研究,60705019