徐蔚然

未命名

基本情况

姓名: 徐蔚然
性别: 男
所属专业: 信息与信号处理专业
专业代码: 081002
职称: 副教授
主要方向:信息检索、模式识别、机器学习

电话:62283059-1002
邮箱:xuweiran@bupt.edu.cn
个人主页:点击这里

个人经历

•    2006.7-现在,北京邮电大学信息工程学院/信息与通信工程学院,副教授、硕士生导师
•    2003.7-2006.7,北京邮电大学信息工程学院,讲师
•    2000.9-2003.7  北京邮电大学信息工程学院,博士研究生/博士
•    1997.9-2000.6  大连理工大学信息工程学院,硕士研究生/硕士
•    1993.9-1997.7  大连理工大学电子系,本科生/学士

研究领域

基于机器学习和模式识别的理论和方法解决文本处理问题,如文本分类、信息检索、信息抽取和倾向判断等。1997年起开始从事模式识别与机器学习领域研究,2003年起专门从事文本数据的机器学习研究;主持参加2004年以来的TREC、TAC、863和COAE等相关评测,多次取得单项和综合成绩第一名;负责构建一系列原型系统;以主要成员参与多项国家自然科学基金、863项目和国家科技重大专项等;发表论文包括ACL、AAAI、SIGIR等顶会论文近10篇,SCI索引期刊论文10多篇,EI索引论文50多篇。

网络中包含各种有用信息,瓶颈是怎样自动获取它们。长期的研究方向是让计算机能够自动理解文本的内容,并主动为人们提供各种服务。与人的能力相比,机器的能力还有很大的提升空间。但在目前的情况下让机器全面超越人,这还是非常困难的。

当前主要的研究问题是: 以实体或者事件为中心来组织和整理文本中的内容,以解决信息抽取、信息检索、文本分类和倾向判断等问题。主要采用的理论和方法就是表示学习理论和复杂网络理论。表示学习(Representation Learning,或者Feature Learning,或者Learning Representations)”中的深度学习(Deep Learning)在图像和语音处理中获得卓越的效果。表示学习理论尚处于研究的初级阶段,常用方法主要有“概率模型”、“自动编码”和“流形学习”等。本实验室的郭军教授基于复杂网络提出的激活力模型对于挖掘和表示各个因素以及之间的关联关系有良好效果,因此将其应用于表示学习理论框架下将会更好地解决文本内容抽取和表示的问题。

近年研究项目

面向2022冬残奥视障人群的多轮人机对话与情感分析

针对视障人群的多轮人机对话与情感分析系统以知识库问答( KBQA)、社区问答(CQA) 以及Web 搜索相关结果为知识来源,为残障人士提供导航帮助。如下图所示,其可以抽象为一个金字塔结构,金字塔的基石是底层知识库,来自KBQA 、CQA 和 Web 网页搜索;以底层知识库为支撑,在第二层构建一个具有情感分析、支持多轮对话的对话系统,实现系统具体功能;在具体功能层之上,进一步实现顶层交互模块,完成语音识别和语音合成等工作,与用户交互对话。三层金字塔结构逐层递进,协调合作,共同完成整体目标任务。

为了满足服务冬奥会中视障人群快速问答的需求,系统核心技术主要包括四部分,如下图所示:

1.(天蓝部分)第一部分是直接面向用户的是语音识别和语音合成模块,它们使得残障人士可以通过“说”和“听”的形式与系统进行交互,更加自然、便捷、无障碍;

2.(绿色部分)第二部分是系统的情绪功能,分为情绪识别和情绪应答模块,它们使得我们的系统可以感知用户的情绪,并作出不同的应答,以顺应、安抚用户的情绪,让用户获得更好的使用体验;

3.(灰蓝部分)第三部分是系统获取知识、作出回答的核心模块,包括知识库问答、互联网信息检索、社区问答,其中:

(a)知识库问答通过查询冬奥领域知识图谱,来获取与实体相关的答案;

(b)社区问答通过问题-问题匹配和问题-答案匹配,去配置好的问答库中检索答案;

(c)互联网信息检索通过实时搜寻互联网页面,从而获取到与当前问题有关的必要信息。

4.(橘黄部分)第四部分是多轮对话管理模块,可使得系统具备多轮对话的功能。如图所示,在与用户连续的对话中,系统能够不断追踪当前的对话焦点,以及与对话焦点相关的一系列属性,并依次作出智能的回复。

项目主要成员:徐红(2018级硕士)、何可清(2018级硕士)、刘思宏(2018级硕士)、雷粤杰(2019级硕士)、严渊蒙(2019级硕士)、刘子君(2019级硕士)、曾致远(2019级硕士)、王礼文(2020级硕士)、吴亚楠(2020级硕士)、赵金政(2020级硕士)、郑馥佳(2020级硕士)、李雪峰(2020级硕士)、牟宇滔(2021级硕士)

工单对话摘要项目

该项目针对场景是用户与客服进行电话咨询,系统通过用户与客服之间的多轮对话通过摘要的方法生成相应的用户提出的问题以及客服给出的诊断以及解决方案的自然语言文本作为该次会话的工单记录。

项目成员:时靖博(2018级硕士)、刘松岩(2018级硕士)、谢宗爱(2018级硕士)、李禹锋(2018级硕士)、张佳宇(2018级硕士)、雷粤杰(2019级硕士)、曾致远(2019级硕士)、郑馥佳(2020级硕士)、李雪峰(2020级硕士)

人工智能建设项目——运维知识子任务

该项目针对的场景是客服为用户进行运维工作后,针对已形成的工单,从中获得按照故障原因以及解决措施的形式的运维知识,并且结构化表示运维知识以形成一个运维知识库;即该项目分为两部分,一部分是运维知识挖掘系统,另一部分是运维知识库的构建。

项目成员:时靖博(2018级硕士)、刘松岩(2018级硕士)、雷粤杰(2019级硕士)、曾致远(2019级硕士)、严渊蒙(2019级硕士)、郑馥佳(2020级硕士)、李雪峰(2020级硕士)

会议场景自动摘要系统

该项目应用在多人会议场景,主要通过会议整体内容提炼以及各发言者主要观点总结,形成篇幅较短但涵盖主要信息的生成式会议摘要。通过阅读摘要能够在短时间内形成对会议内容以及个人观点的大体认知,有效提高了多人协作过程中理解和沟通的效率。系统整体建立在无监督的基础上,主要通过大规模预训练语言模型在资源相对丰富的新闻摘要数据集上进行微调后,迁移至会议场景进行生成式摘要任务。考虑到场景之间的差异,通过自监督方法对生成的摘要进行风格迁移,使之具备更佳的可读性。设计了发言者画像库,用于收集和使用代表性的个人发言,以更好的表征语言习惯、关注点等个人特征,促进模型更精确和高效的定位关键信息。

项目成员:时靖博(2018级硕士)、刘松岩(2018级硕士)、谢宗爱(2018级硕士)、李禹锋(2018级硕士)、张佳宇(2018级硕士)、曾致远(2019级硕士)、雷粤杰(2019级硕士)、赵金政(2020级硕士)、郑馥嘉(2020级硕士)

学员培训模拟用户对话系统

该项目的落地场景为保险行业销售员培训系统,其中本项目的对话系统担任模拟客户的角色,通过和真实学员的对话交互来对学员的语言表述进行打分,借此提高保险销售学员的业务能力。整体对话系统采用经典管道结构,分为自然语言理解、对话管理和自然语言生成三个部分。其中自然语言处理除了基本的实体意图识别还加入了多意图识别的考量,对话管理部分采用分流程分阶段控制对话的规则设定。在项目后期,整体会加入情感分析,即学员的表达中蕴含的情感因素也会成为打分的评分点。

项目成员:何可清(2018级硕士)、刘思宏(2018级硕士)、徐 红(2018级硕士)、严渊蒙(2019级硕士)、刘子君(2019级硕士)、王礼文(2020级硕士)、吴亚楠(2020级硕士)

知识库问答系统

实现一个具有 QA 功能的知识搜索引擎。 该知识搜索引擎需要具有以下七个功能:
– 计算:四则运算、费用计算、单位换算等;
– 日历:跟日期、日期、干支等相关的提问;
– 时间:问及日本及世界各地时刻的提问
– 定义:关于某一事物的定义提问
– 天气:关于天气进行提问
– 联想:由某个词语联想出来的事物
– 事实型:通过简短的语言来寻求简介回答的提问

项目主要成员:孙建东(2016级硕士)、李晨亮(2016级硕士)、刘伟杰(2016级硕士)、薄士宁(2017级硕士)、江宇鸥(2017级硕士)、战保行(2017级硕士)、于雄熙(2017级硕士)、洪佳乐(2017级硕士)、何可清(2018级硕士)、徐红  (2018级硕士)、刘思宏(2018级硕士)、刘子君(2019级硕士)

CQA系统设计与实现

社区问答(community question answering, CQA)在近些年得到了广泛关注,随着百度知道、知乎、搜狗问问、Stack Overflow等社区问答网站的出现,越来越多的人选择网络社区来获取答案。CQA与一般QA任务的不同在于问题和答案是开放领域的,通常较长,包含多个句子,文本不是结构化的,且含有大量噪音。一般的CQA系统构建步骤如下:a)用搜索引擎比如Lucene先离线构建问题-答案对的索引;b)在线收到query后,初步召回一组候选答案构成的集合;c)用文本匹配算法和排序算法对候选答案重新排序并返回最佳答案。

项目主要成员薄士宁(2017级硕士)、江宇鸥(2017级硕士)、刘松岩(2018级硕士)、谢宗爱(2018级硕士)

智能语音质检系统

针对某银行大型呼叫中心产生的海量非结构化录音内容进行自动化检测、分析和挖掘,极大地提升传统人工质检的效率与准确率,充分利用数据本身的价值信息。

项目主要成员:何可清(2018级硕士)、刘松岩(2018级硕士)、徐红  (2018级硕士)、刘思宏(2018级硕士)、严渊蒙(2019级硕士)

在线教育场景下的智能客服系统

在线教育场景下通过人机对话的方式来完成特定的任务,主要包括以下三个方面:自然语言理解(NLU):包括领域识别、意图识别、槽位提取三个子模块。通过领域识别的输出触发不同的场景,由意图识别和槽位提取将自然语言转换成系统可以理解的结构化表示。对话管理(DM):包括对话状态追踪和对话策略两个部分。对话状态追踪根据用户输入的结构化表示和历史对话信息,更新当前的对话状态;对话策略模块根据当前的对话状态和用户输入的结构化表示进行决策,输出系统回复的结构化表示。自然语言生成(NLG):将系统输出的结构化表示转化为自然语言输出。

项目主要成员:何可清(2018级硕士)、徐红  (2018级硕士)、刘思宏(2018级硕士)、严渊蒙(2019级硕士)、刘子君(2019级硕士)

特定报修场景下的多轮对话系统

系统最大的特点在于系统中各个模块的设置均可采用加载配置文件的方法来完成,同时加载不同领域的配置文件可以完成不同领域对话系统的切换。

项目主要成员:张超  (2017级硕士)、于雄熙(2017级硕士)、王璞  (2017级硕士)、战保行(2017级硕士)、洪佳乐(2017级硕士)、何可清(2018级硕士)、徐红  (2018级硕士)、刘思宏(2018级硕士)

多轮机票预订查询对话系统

以机票的预订以及查询为任务背景,构建的特定任务的多轮对话系统。其主要模块分为自然语言处理(NLU),对话管理(DM),自然语言生成(NLG),机票知识库,并通过PIPELINE的形式进行连接构成整个系统。其中NLU模块中的意图识别、实体识别;DM模块中的策略决策,均采用当前最新的神经网络模型得到,同时也为模型的泛化,提供可能。

项目主要成员:张超  (2017级硕士)、于雄熙(2017级硕士)、王璞  (2017级硕士)、战保行(2017级硕士)、洪佳乐(2017级硕士)、何可清(2018级硕士)、徐红  (2018级硕士)、刘思宏(2018级硕士)

情感对话系统

本项目针对闲聊领域中情感对话的生成,旨在设计并实现一个能理解用户输入情感并给出恰当情感回复的聊天机器人。具体功能被划分为三个部分,首先需要充分理解用户输入所包含的情感;其实需要根据用户的输入情感计算出回复时应该包含的情感;最后根据用户输入生成一句包含目标情感的回复。

项目主要成员:马春钰(2017级硕士)、申宇飞(2017级硕士)、时靖博(2018级硕士)

闲聊对话系统

本系统包括三个垂直领域的任务型对话和闲聊对话,采用模块分层解耦设计,并配有聊天界面,是一个较完整、具备扩展性的智能对话系统。具体地,系统主要分为自然语言理解(NLU)模块、对话管理(DM)、自然语言生成(NLG)模块和前端界面四个模块。三个垂直领域包括电子产品、城市、明星,各个垂直领域会针对性地设置不同任务对话。
项目中遇到了闲聊对话中的对话多样性问题,尝试利用了条件变分自动编码器;探索了情感在闲聊对话中的引入;在NLU的情感识别时,遇到了多分类问题中的数据不均衡问题,采用采样法、损失函数加权等方法缓解。

项目主要成员:顾秀森(2016级硕士)、丁琛  (2016级硕士)、张超  (2017级硕士)、马春钰(2017级硕士)、王璞  (2017级硕士)

多源多模态频谱知识图谱

针对各种无线通信技术构建频谱知识图谱。知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从document级别降到data级别,聚合大量知识,从而实现知识的快速响应和推理。知识图谱技术与各行业的深度融合已经成为一个重要趋势。该知识图谱将被用于实际信号的仿真,分离和识别。

项目主要成员:孙建东(2016级硕士)、顾秀森(2016级硕士)、李晨亮(2016级硕士)、丁琛  (2016级硕士)、李彦  (2016级硕士)、王一璠(2017级硕士)、李新媛(2017级硕士)

基于搜索引擎的问答系统

用实体识别和关系抽取技术,从百度搜索返回的候选结果中抽取答案实体返回。可识别预定义的10种关系。项目中的关系抽取采用了TextCNN、SVM和模板匹配三种模型,并根据模型的置信度进行了集成。

项目主要成员:顾秀森(2016级硕士)、李彦 (2016级硕士)

不良药物反应抽取评测(ADR2017)

该评测主要对药品说明书中进行不良药物反应的实体抽取和关系抽取两个子任务,其中实体抽取以BiLSTM-CRF为主要模型,并融合了词向量和字向量作为表征;关系抽取针对标注语料少的问题,采用了对抗噪声的方法作为数据增强的手段。

项目主要成员:顾秀森(2016级硕士)、丁琛  (2016级硕士)

 

其它研究项目

基于多维潜层特征抽取模型的演进式文本过滤

国家自然科学基金项目,项目批准号:60905017;时间:2010-01至2012-12;

演进式文本过滤的根本问题是训练样本不足,通过改善特征空间来解决该问题。项目解决两方面关键问题:根据文档d、词语w、类别c、用户c和时间t等可观测维度以及它们的内在关联建立关系模型,并基于该模型抽取隐藏的、具有概括性和完备性的潜在中间层特征;根据训练样本的内容和数量,综合考虑可观测的和潜在的特征,构建各种训练样本集下都能达到最高分类精度的识别算法。

 

校园对象搜索引擎

自主开发了面向对象的校园网信息检索系统COSE(Campus Object Search Engine),系统掌握了搜索引擎的核心技术。该系统已经具备数据采集、建立索引、多功能查询等全套功能,其特色是:面向北京邮电大学校园网的教师、实验室和课程等对象的特色信息搜索功能,如北邮名片(以实体为中心的抽取技术)和北邮日历(以事件为中心的抽取技术)。

链接地址: http://cose.pris.net.cn/ 限北邮校内访问

未命名

COSE系统检索页面

未命名

COSE检索结果(注意页面右侧为对象检索结果)

统计词典

基于词语激活力模型实现的统计词典,主要功能是用相关联的词来解释词语。采用的无标注数据集合来源于:(1)互动百科(www.hudong.com/)提供的中文语料,(2)BNC语料集的英文语料。

未命名 未命名 未命名

(a)输入中文”苹果”;          (b)输入英文苹果;          (c)以图方式展示结果

图 统计词典

学术成果

  • Xu Weiran, Du Gang, Chen Guang, Guo Jun, Yang Jie, Unsupervised Feature Selection for Latent Dirichlet Allocation, China Communications, 2011, Vol. 8  Issue (5): 54-62 [SCI期刊]
  • Weiran Xu, Mingzhi Dong, YunHang Lin, Jun Guo, Guang Chen, DISCRIMINATIVE LDA,IEEE 2010 International Conference on Network Infrastructure and Digital Content (IC-NIDC2010)
  • Wei-ran Xu, Dong-xin Liu, Jun Guo, Yi-chao Cai and Ri-le Hu, Supervised Dual-PLSA for Personalized SMS Filtering, Information Retrieval Technology – 5th Asia Information Retrieval Symposium, AIRS 2009, v 5839 LNCS, p 254-264, 2009Proceedings;
  • Xu Weiran, Wang Zhanyi, Liu Dongxin, Guo Jun, Hu Rile, Multi-layer Features Based Personalized Spam Filtering, Proceedings of 2009 IEEE International Conference on Network Infrastructure and Digital Content, 368-373,2009;
  • Si Li, Zhengjun Zha, Zhaoyan Ming, Meng Wang, Tat-Seng Chua, Jun Guo, Weiran Xu, Product Comparison using Comparative Relations, Special Interest Group on Information Retrieval (SIGIR 2011), Beijing, 2011.7, 1151-1152
  • Jiani Hu, Weihong Deng, Jun Guo, Weiran Xu. Learning a Locality Discriminating Projection for Classication, Knowledge-Based Systems, vol. 22, no. 8, pp. 562-568, 2009. (SCI期刊)
  • Zhanyi Wang, Weiran Xu, Chunsong Tang, Jun Guo, Improving Entity Retrieval Models with Semantic Category Information, The 8th International Conference on Natural Language Processing (ICON 2010), 2010.12,
  • Gang Du,Jun Guo,Weiran Xu, Burst feature detection using parameter estimated two-state automaton, China Universities of Posts and Telecommunications, September 2011, 18(Suppl.): 90–96 [EI期刊]
  • Yan Li, Si Li, Guang Chen, Weiran Xu, Jun Guo, Estimating Blog Inclination Based on IG-MI FO System, International Journal of Digital Content Technology and its Applications, Volume 5, Number 2, January 2011:48-54 [EI期刊]

参加评测

重点参加了NIST主办的TREC测试和TAC评测,以及国内的相关评测。

评测项目

时间

最好成绩

863文本分类评测

2004

综合排名第1名

863信息检索评测

2005

综合排名第5名

COAE中文倾向性分析评测

2008,2009,2011

多个单项排名第1

NSIT TREC垃圾邮件过滤

2005-2007

国内单位第1名

NSIT TREC企业检索

2005-2008

综合排名第4名

NSIT TREC Blog检索

2007-2010

单项任务排名第1名

NSIT TREC相关反馈

2008

 

NSIT TREC 实体任务

2009-2011

综合排名第1名

NSIT TREC 法律任务

2011

 

NSIT TREC 医疗任务

2011

 

NSIT TREC 微博任务

2011

综合排名第1名

NSIT TAC KBP评测

2009-2011

 

NSIT TAC 摘要评测

2011

 

SigHan分词评测

2006

综合排名第7名