徐蔚然

未命名

基本情况

姓名: 徐蔚然
性别: 男
所属专业: 信息与信号处理专业
专业代码: 081002
职称: 副教授                                                                       
主要方向:信息检索、模式识别、机器学习

电话:62283059-1002
邮箱:xuweiran@bupt.edu.cn
个人主页:点击这里

个人经历

•    2006.7-现在,北京邮电大学信息工程学院/信息与通信工程学院,副教授、硕士生导师
•    2003.7-2006.7,北京邮电大学信息工程学院,讲师
•    2000.9-2003.7  北京邮电大学信息工程学院,博士研究生/博士
•    1997.9-2000.6  大连理工大学信息工程学院,硕士研究生/硕士
•    1993.9-1997.7  大连理工大学电子系,本科生/学士 

研究领域

基于机器学习和模式识别的理论和方法解决文本处理问题,如文本分类、信息检索、信息抽取和倾向判断等。1997年起开始从事模式识别与机器学习领域研究,2003年起专门从事文本数据的机器学习研究;主持参加2004年以来的TREC、TAC、863和COAE等相关评测,多次取得单项和综合成绩第一名;负责构建一系列原型系统;以主要成员参与多项国家自然科学基金、863项目和国家科技重大专项等;发表论文44篇,其中包括SIGIR论文2篇,SCI索引期刊论文2篇,EI索引论文39篇。

网络中包含各种有用信息,瓶颈是怎样自动获取它们。长期的研究方向是让计算机能够自动理解文本的内容,并主动为人们提供各种服务。与人的能力相比,机器的能力还有很大的提升空间。但在目前的情况下让机器全面超越人,这还是非常困难的。

当前主要的研究问题是: 以实体或者事件为中心来组织和整理文本中的内容,以解决信息抽取、信息检索、文本分类和倾向判断等问题。主要采用的理论和方法就是表示学习理论和复杂网络理论。表示学习(Representation Learning,或者Feature Learning,或者Learning Representations)”中的深度学习(Deep Learning)在图像和语音处理中获得卓越的效果。表示学习理论尚处于研究的初级阶段,常用方法主要有“概率模型”、“自动编码”和“流形学习”等。本实验室的郭军教授基于复杂网络提出的激活力模型对于挖掘和表示各个因素以及之间的关联关系有良好效果,因此将其应用于表示学习理论框架下将会更好地解决文本内容抽取和表示的问题。

研究项目

基于多维潜层特征抽取模型的演进式文本过滤

国家自然科学基金项目,项目批准号:60905017;时间:2010-01至2012-12;

演进式文本过滤的根本问题是训练样本不足,通过改善特征空间来解决该问题。项目解决两方面关键问题:根据文档d、词语w、类别c、用户c和时间t等可观测维度以及它们的内在关联建立关系模型,并基于该模型抽取隐藏的、具有概括性和完备性的潜在中间层特征;根据训练样本的内容和数量,综合考虑可观测的和潜在的特征,构建各种训练样本集下都能达到最高分类精度的识别算法。

 

校园对象搜索引擎

自主开发了面向对象的校园网信息检索系统COSE(Campus Object Search Engine),系统掌握了搜索引擎的核心技术。该系统已经具备数据采集、建立索引、多功能查询等全套功能,其特色是:面向北京邮电大学校园网的教师、实验室和课程等对象的特色信息搜索功能,如北邮名片(以实体为中心的抽取技术)和北邮日历(以事件为中心的抽取技术)。

链接地址: http://cose.pris.net.cn/ 限北邮校内访问

未命名 

COSE系统检索页面

未命名 

COSE检索结果(注意页面右侧为对象检索结果)

统计词典

基于词语激活力模型实现的统计词典,主要功能是用相关联的词来解释词语。采用的无标注数据集合来源于:(1)互动百科(www.hudong.com/)提供的中文语料,(2)BNC语料集的英文语料。

 

未命名 未命名 未命名

(a)输入中文”苹果”;          (b)输入英文苹果;          (c)以图方式展示结果  

图 统计词典

 

学术成果

  • Xu Weiran, Du Gang, Chen Guang, Guo Jun, Yang Jie, Unsupervised Feature Selection for Latent Dirichlet Allocation, China Communications, 2011, Vol. 8  Issue (5): 54-62 [SCI期刊]
  • Weiran Xu, Mingzhi Dong, YunHang Lin, Jun Guo, Guang Chen, DISCRIMINATIVE LDA,IEEE 2010 International Conference on Network Infrastructure and Digital Content (IC-NIDC2010)
  • Wei-ran Xu, Dong-xin Liu, Jun Guo, Yi-chao Cai and Ri-le Hu, Supervised Dual-PLSA for Personalized SMS Filtering, Information Retrieval Technology – 5th Asia Information Retrieval Symposium, AIRS 2009, v 5839 LNCS, p 254-264, 2009Proceedings;
  • Xu Weiran, Wang Zhanyi, Liu Dongxin, Guo Jun, Hu Rile, Multi-layer Features Based Personalized Spam Filtering, Proceedings of 2009 IEEE International Conference on Network Infrastructure and Digital Content, 368-373,2009;
  • Si Li, Zhengjun Zha, Zhaoyan Ming, Meng Wang, Tat-Seng Chua, Jun Guo, Weiran Xu, Product Comparison using Comparative Relations, Special Interest Group on Information Retrieval (SIGIR 2011), Beijing, 2011.7, 1151-1152
  • Jiani Hu, Weihong Deng, Jun Guo, Weiran Xu. Learning a Locality Discriminating Projection for Classication, Knowledge-Based Systems, vol. 22, no. 8, pp. 562-568, 2009. (SCI期刊)
  • Zhanyi Wang, Weiran Xu, Chunsong Tang, Jun Guo, Improving Entity Retrieval Models with Semantic Category Information, The 8th International Conference on Natural Language Processing (ICON 2010), 2010.12,
  • Gang Du,Jun Guo,Weiran Xu, Burst feature detection using parameter estimated two-state automaton, China Universities of Posts and Telecommunications, September 2011, 18(Suppl.): 90–96 [EI期刊]
  • Yan Li, Si Li, Guang Chen, Weiran Xu, Jun Guo, Estimating Blog Inclination Based on IG-MI FO System, International Journal of Digital Content Technology and its Applications, Volume 5, Number 2, January 2011:48-54 [EI期刊]
  • Zhanyi Wang, Weiran Xu, Jun Guo, Using Probability Estimation via Outputs of SVM in ECOC      International, International Journal of Digital Content Technology and its Applications. Volume 5, Number 3, March 2011:185-191, [EI期刊]
  • Si Li, Lei Du, Weiran Xu and Jun Guo, A Modified System for Weblog Topic Relevance Retrieval, International Conference on Future Information Technology and Management Engineering, 2009.12,
  • Si Li, Hao Zhang, Weiran Xu, Guang Chen and Jun Guo, Exploiting Combined Multi-level Model for Document Sentiment Analysis, the twentieth conference of the International Association for Pattern Recognition (IAPR 2010),
  • Si Li, Huiji Gao, Jingyi Guan, Weiran Xu, Jun Guo, Faceted Blog Distillation System: Find an in-depth blog   International, Journal of Digital Content Technology and its Applications(JDCTA), ISSN 1975-9339, 201007
  • Zhanyi Wang,Weiran Xu, Jiani Hu, Jun Guo, A multiclass SVM method via probabilistic error-correcting output codes, International Conference on Internet Technology and Applications, ITAP 2010 Proceedings, 2010.08, 
  • Si Li, Hui He, Wei-ran Xu, Jun Guo, Automatic Chinese Sentiment Word Extraction Based on Maximum Entropy, The Seventh International Conference on Wavelet Analysis and Pattern Recognition (ICWAPR 2009), Baoding, China
  • Huiji Gao, Weiran Xu, Jun Guo, Feed Ranking Refinement with Similitary Distribution in Blog Distillation, 2009 Third International Symposium on Intelligent Information Technology Application Workshops (IITAW 2009), NanChang, China
  • Jiani Hu, Weihong Deng, and Jun Guo, Semi-supervised Learning Based on Label Propagation through Submanifold, The Sixth International Symposium on Neural Networks (ISNN 2009), Wu han, Hubei, China
  • 李思,张浩,徐蔚然,郭军, 基于合并模型的中文文本情感分析, 第五届全国信息检索学术会议论文集(CCIR 2009)
  • 王占一,徐蔚然,刘东鑫,郭军, 一种基于两级分类器的垃圾短信过滤方法, 第五届全国信息检索学术会议论文集(CCIR 2009)

 

参加评测

重点参加了NIST主办的TREC测试和TAC评测,以及国内的相关评测。

评测项目

时间

最好成绩

863文本分类评测

2004

综合排名第1名

863信息检索评测

2005

综合排名第5名

COAE中文倾向性分析评测

2008,2009,2011

多个单项排名第1

NSIT TREC垃圾邮件过滤

2005-2007

国内单位第1名

NSIT TREC企业检索

2005-2008

综合排名第4名

NSIT TREC Blog检索

2007-2010

单项任务排名第1名

NSIT TREC相关反馈

2008

 

NSIT TREC 实体任务

2009-2011

综合排名第1名

NSIT TREC 法律任务

2011

 

NSIT TREC 医疗任务

2011

 

NSIT TREC 微博任务

2011

综合排名第1名

NSIT TAC KBP评测

2009-2011

 

NSIT TAC 摘要评测

2011

 

SigHan分词评测

2006

综合排名第7名