徐蔚然

未命名

基本情况

姓名: 徐蔚然
性别: 男
所属专业: 信息与信号处理专业
专业代码: 081002
职称: 副教授
主要方向:信息检索、模式识别、机器学习

电话:62283059-1002
邮箱:xuweiran@bupt.edu.cn
个人主页:点击这里

个人经历

•    2006.7-现在,北京邮电大学信息工程学院/信息与通信工程学院,副教授、硕士生导师
•    2003.7-2006.7,北京邮电大学信息工程学院,讲师
•    2000.9-2003.7  北京邮电大学信息工程学院,博士研究生/博士
•    1997.9-2000.6  大连理工大学信息工程学院,硕士研究生/硕士
•    1993.9-1997.7  大连理工大学电子系,本科生/学士

研究领域

基于机器学习和模式识别的理论和方法解决文本处理问题,如文本分类、信息检索、信息抽取和倾向判断等。1997年起开始从事模式识别与机器学习领域研究,2003年起专门从事文本数据的机器学习研究;主持参加2004年以来的TREC、TAC、863和COAE等相关评测,多次取得单项和综合成绩第一名;负责构建一系列原型系统;以主要成员参与多项国家自然科学基金、863项目和国家科技重大专项等;发表论文44篇,其中包括SIGIR论文2篇,SCI索引期刊论文2篇,EI索引论文39篇。

网络中包含各种有用信息,瓶颈是怎样自动获取它们。长期的研究方向是让计算机能够自动理解文本的内容,并主动为人们提供各种服务。与人的能力相比,机器的能力还有很大的提升空间。但在目前的情况下让机器全面超越人,这还是非常困难的。

当前主要的研究问题是: 以实体或者事件为中心来组织和整理文本中的内容,以解决信息抽取、信息检索、文本分类和倾向判断等问题。主要采用的理论和方法就是表示学习理论和复杂网络理论。表示学习(Representation Learning,或者Feature Learning,或者Learning Representations)”中的深度学习(Deep Learning)在图像和语音处理中获得卓越的效果。表示学习理论尚处于研究的初级阶段,常用方法主要有“概率模型”、“自动编码”和“流形学习”等。本实验室的郭军教授基于复杂网络提出的激活力模型对于挖掘和表示各个因素以及之间的关联关系有良好效果,因此将其应用于表示学习理论框架下将会更好地解决文本内容抽取和表示的问题。

近年研究项目

知识库问答系统

实现一个具有 QA 功能的知识搜索引擎。 该知识搜索引擎需要具有以下七个功能:
– 计算:四则运算、费用计算、单位换算等;
– 日历:跟日期、日期、干支等相关的提问;
– 时间:问及日本及世界各地时刻的提问
– 定义:关于某一事物的定义提问
– 天气:关于天气进行提问
– 联想:由某个词语联想出来的事物
– 事实型:通过简短的语言来寻求简介回答的提问

项目主要成员:孙建东(2016级硕士)、李晨亮(2016级硕士)、刘伟杰(2016级硕士)、薄士宁(2017级硕士)、江宇鸥(2017级硕士)、战保行(2017级硕士)、于雄熙(2017级硕士)、洪佳乐(2017级硕士)、何可清(2018级硕士)、徐红  (2018级硕士)、刘思宏(2018级硕士)、刘子君(2019级硕士)

CQA系统设计与实现

社区问答(community question answering, CQA)在近些年得到了广泛关注,随着百度知道、知乎、搜狗问问、Stack Overflow等社区问答网站的出现,越来越多的人选择网络社区来获取答案。CQA与一般QA任务的不同在于问题和答案是开放领域的,通常较长,包含多个句子,文本不是结构化的,且含有大量噪音。一般的CQA系统构建步骤如下:a)用搜索引擎比如Lucene先离线构建问题-答案对的索引;b)在线收到query后,初步召回一组候选答案构成的集合;c)用文本匹配算法和排序算法对候选答案重新排序并返回最佳答案。

项目主要成员薄士宁(2017级硕士)、江宇鸥(2017级硕士)、刘松岩(2018级硕士)、谢宗爱(2018级硕士)

智能语音质检系统

针对某银行大型呼叫中心产生的海量非结构化录音内容进行自动化检测、分析和挖掘,极大地提升传统人工质检的效率与准确率,充分利用数据本身的价值信息。

项目主要成员:何可清(2018级硕士)、刘松岩(2018级硕士)、徐红  (2018级硕士)、刘思宏(2018级硕士)、严渊蒙(2019级硕士)

在线教育场景下的智能客服系统

在线教育场景下通过人机对话的方式来完成特定的任务,主要包括以下三个方面:自然语言理解(NLU):包括领域识别、意图识别、槽位提取三个子模块。通过领域识别的输出触发不同的场景,由意图识别和槽位提取将自然语言转换成系统可以理解的结构化表示。对话管理(DM):包括对话状态追踪和对话策略两个部分。对话状态追踪根据用户输入的结构化表示和历史对话信息,更新当前的对话状态;对话策略模块根据当前的对话状态和用户输入的结构化表示进行决策,输出系统回复的结构化表示。自然语言生成(NLG):将系统输出的结构化表示转化为自然语言输出。

项目主要成员:何可清(2018级硕士)、徐红  (2018级硕士)、刘思宏(2018级硕士)、严渊蒙(2019级硕士)、刘子君(2019级硕士)

特定报修场景下的多轮对话系统

系统最大的特点在于系统中各个模块的设置均可采用加载配置文件的方法来完成,同时加载不同领域的配置文件可以完成不同领域对话系统的切换。

项目主要成员:张超  (2017级硕士)、于雄熙(2017级硕士)、王璞  (2017级硕士)、战保行(2017级硕士)、洪佳乐(2017级硕士)、何可清(2018级硕士)、徐红  (2018级硕士)、刘思宏(2018级硕士)

多轮机票预订查询对话系统

以机票的预订以及查询为任务背景,构建的特定任务的多轮对话系统。其主要模块分为自然语言处理(NLU),对话管理(DM),自然语言生成(NLG),机票知识库,并通过PIPELINE的形式进行连接构成整个系统。其中NLU模块中的意图识别、实体识别;DM模块中的策略决策,均采用当前最新的神经网络模型得到,同时也为模型的泛化,提供可能。

项目主要成员:张超  (2017级硕士)、于雄熙(2017级硕士)、王璞  (2017级硕士)、战保行(2017级硕士)、洪佳乐(2017级硕士)、何可清(2018级硕士)、徐红  (2018级硕士)、刘思宏(2018级硕士)

情感对话系统

本项目针对闲聊领域中情感对话的生成,旨在设计并实现一个能理解用户输入情感并给出恰当情感回复的聊天机器人。具体功能被划分为三个部分,首先需要充分理解用户输入所包含的情感;其实需要根据用户的输入情感计算出回复时应该包含的情感;最后根据用户输入生成一句包含目标情感的回复。

项目主要成员:马春钰(2017级硕士)、申宇飞(2017级硕士)、时靖博(2018级硕士)

闲聊对话系统

本系统包括三个垂直领域的任务型对话和闲聊对话,采用模块分层解耦设计,并配有聊天界面,是一个较完整、具备扩展性的智能对话系统。具体地,系统主要分为自然语言理解(NLU)模块、对话管理(DM)、自然语言生成(NLG)模块和前端界面四个模块。三个垂直领域包括电子产品、城市、明星,各个垂直领域会针对性地设置不同任务对话。
项目中遇到了闲聊对话中的对话多样性问题,尝试利用了条件变分自动编码器;探索了情感在闲聊对话中的引入;在NLU的情感识别时,遇到了多分类问题中的数据不均衡问题,采用采样法、损失函数加权等方法缓解。

项目主要成员:顾秀森(2016级硕士)、丁琛  (2016级硕士)、张超  (2017级硕士)、马春钰(2017级硕士)、王璞  (2017级硕士)

多源多模态频谱知识图谱

针对各种无线通信技术构建频谱知识图谱。知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从document级别降到data级别,聚合大量知识,从而实现知识的快速响应和推理。知识图谱技术与各行业的深度融合已经成为一个重要趋势。该知识图谱将被用于实际信号的仿真,分离和识别。

项目主要成员:孙建东(2016级硕士)、顾秀森(2016级硕士)、李晨亮(2016级硕士)、丁琛  (2016级硕士)、李彦  (2016级硕士)、王一璠(2017级硕士)、李新媛(2017级硕士)

基于搜索引擎的问答系统

用实体识别和关系抽取技术,从百度搜索返回的候选结果中抽取答案实体返回。可识别预定义的10种关系。项目中的关系抽取采用了TextCNN、SVM和模板匹配三种模型,并根据模型的置信度进行了集成。

项目主要成员:顾秀森(2016级硕士)、李彦 (2016级硕士)

不良药物反应抽取评测(ADR2017)

该评测主要对药品说明书中进行不良药物反应的实体抽取和关系抽取两个子任务,其中实体抽取以BiLSTM-CRF为主要模型,并融合了词向量和字向量作为表征;关系抽取针对标注语料少的问题,采用了对抗噪声的方法作为数据增强的手段。

项目主要成员:顾秀森(2016级硕士)、丁琛  (2016级硕士)

其它研究项目

基于多维潜层特征抽取模型的演进式文本过滤

国家自然科学基金项目,项目批准号:60905017;时间:2010-01至2012-12;

演进式文本过滤的根本问题是训练样本不足,通过改善特征空间来解决该问题。项目解决两方面关键问题:根据文档d、词语w、类别c、用户c和时间t等可观测维度以及它们的内在关联建立关系模型,并基于该模型抽取隐藏的、具有概括性和完备性的潜在中间层特征;根据训练样本的内容和数量,综合考虑可观测的和潜在的特征,构建各种训练样本集下都能达到最高分类精度的识别算法。

校园对象搜索引擎

自主开发了面向对象的校园网信息检索系统COSE(Campus Object Search Engine),系统掌握了搜索引擎的核心技术。该系统已经具备数据采集、建立索引、多功能查询等全套功能,其特色是:面向北京邮电大学校园网的教师、实验室和课程等对象的特色信息搜索功能,如北邮名片(以实体为中心的抽取技术)和北邮日历(以事件为中心的抽取技术)。

链接地址: http://cose.pris.net.cn/ 限北邮校内访问

未命名

COSE系统检索页面

未命名

COSE检索结果(注意页面右侧为对象检索结果)

统计词典

基于词语激活力模型实现的统计词典,主要功能是用相关联的词来解释词语。采用的无标注数据集合来源于:(1)互动百科(www.hudong.com/)提供的中文语料,(2)BNC语料集的英文语料。

未命名 未命名 未命名

(a)输入中文”苹果”;          (b)输入英文苹果;          (c)以图方式展示结果

图 统计词典

学术成果

  • Xu Weiran, Du Gang, Chen Guang, Guo Jun, Yang Jie, Unsupervised Feature Selection for Latent Dirichlet Allocation, China Communications, 2011, Vol. 8  Issue (5): 54-62 [SCI期刊]
  • Weiran Xu, Mingzhi Dong, YunHang Lin, Jun Guo, Guang Chen, DISCRIMINATIVE LDA,IEEE 2010 International Conference on Network Infrastructure and Digital Content (IC-NIDC2010)
  • Wei-ran Xu, Dong-xin Liu, Jun Guo, Yi-chao Cai and Ri-le Hu, Supervised Dual-PLSA for Personalized SMS Filtering, Information Retrieval Technology – 5th Asia Information Retrieval Symposium, AIRS 2009, v 5839 LNCS, p 254-264, 2009Proceedings;
  • Xu Weiran, Wang Zhanyi, Liu Dongxin, Guo Jun, Hu Rile, Multi-layer Features Based Personalized Spam Filtering, Proceedings of 2009 IEEE International Conference on Network Infrastructure and Digital Content, 368-373,2009;
  • Si Li, Zhengjun Zha, Zhaoyan Ming, Meng Wang, Tat-Seng Chua, Jun Guo, Weiran Xu, Product Comparison using Comparative Relations, Special Interest Group on Information Retrieval (SIGIR 2011), Beijing, 2011.7, 1151-1152
  • Jiani Hu, Weihong Deng, Jun Guo, Weiran Xu. Learning a Locality Discriminating Projection for Classication, Knowledge-Based Systems, vol. 22, no. 8, pp. 562-568, 2009. (SCI期刊)
  • Zhanyi Wang, Weiran Xu, Chunsong Tang, Jun Guo, Improving Entity Retrieval Models with Semantic Category Information, The 8th International Conference on Natural Language Processing (ICON 2010), 2010.12,
  • Gang Du,Jun Guo,Weiran Xu, Burst feature detection using parameter estimated two-state automaton, China Universities of Posts and Telecommunications, September 2011, 18(Suppl.): 90–96 [EI期刊]
  • Yan Li, Si Li, Guang Chen, Weiran Xu, Jun Guo, Estimating Blog Inclination Based on IG-MI FO System, International Journal of Digital Content Technology and its Applications, Volume 5, Number 2, January 2011:48-54 [EI期刊]

参加评测

重点参加了NIST主办的TREC测试和TAC评测,以及国内的相关评测。

评测项目

时间

最好成绩

863文本分类评测

2004

综合排名第1名

863信息检索评测

2005

综合排名第5名

COAE中文倾向性分析评测

2008,2009,2011

多个单项排名第1

NSIT TREC垃圾邮件过滤

2005-2007

国内单位第1名

NSIT TREC企业检索

2005-2008

综合排名第4名

NSIT TREC Blog检索

2007-2010

单项任务排名第1名

NSIT TREC相关反馈

2008

NSIT TREC 实体任务

2009-2011

综合排名第1名

NSIT TREC 法律任务

2011

NSIT TREC 医疗任务

2011

NSIT TREC 微博任务

2011

综合排名第1名

NSIT TAC KBP评测

2009-2011

NSIT TAC 摘要评测

2011

SigHan分词评测

2006

综合排名第7名