信息检索

检索组的主要工作

1.1.    参加评测
项目组参加评测情况简表(具体评测情况请参考相关资料)

评测项目

时间

主要完成人

成绩

国家863文本分类评测

2004

徐蔚然等

综合排名第1

国家863信息检索评测

2005

徐蔚然等

综合排名第5

美国TREC评测:垃圾邮件过滤

2005

杨震等

国内单位第1

2006

杨震

综合排名第8

2007

徐蔚然

美国TREC评测:企业检索(邮件检索)

2005

陈岳华

综合排名第8

美国TREC评测:TREC企业检索(专家检索)

2005

茹昭

综合排名第7

2006

茹昭

综合排名第4

2007

茹昭等

2008

王占一、刘东鑫等

美国TREC评测:Blog检索

2007

陈博等

综合排名第12

2008

何慧、李思等

美国TREC评测:相关反馈

2008

周卉、李思

ACM评测:SigHan分词评测

2006

陈博

综合排名第7

COAE中文倾向性分析评测

2008

何慧、杜垒等

参加全部6项测试,

观点检索单项排名第1


1.2.    系统平台
●文本分类平台系统
文本分类平台系统包括文本分类、特征提取与特征选择、中文分词、新词发现、词性标注等模块,每模块均提供多种可选择算法。文本分类平台包括3个子系统:网页文本分类子系统、邮件过滤子系统和短信过滤子系统。
网页文本分类子系统面向网络信息过滤问题,用于研究网页、论坛、Blog等的文本信息处理技术,如分类、新话题发现、特定话题跟踪等。网页子系统于2004年开始构建,首先加入分类模块,随后加入信息采集系统(爬虫),之后一直不断改进,最新版本的改进工作计划于2009年4月完成。该系统下开发的文本分类模块获2004年国家863文本分类评测综合性能第1名。
邮件过滤子系统专门处理邮件文本,侧重于研究增量学习、自适应过滤、主动学习和人机交互等问题。该系统下研究的邮件过滤系统参加了TREC 2005-2007年的SPAM测试。
短信过滤子系统是我们重点建设的平台子系统,用以研究大规模分布式手机短信的分类、过滤和检索技术。本项目组在基于内容的短信处理技术研究方面起步较早(与国内外同领域相比),于2005年完成第一版原型系统。该系统提供多类别体系分类,特定主题短信过滤,新主题发现、跟踪与识别,热点统计,基于聚类分析的新热点发现等功能。
●校园对象搜索引擎(Campus Object Search Engine, COSE)
于2005年搭建成AD HOC检索系统平台,并参加当年的863检索系统评测,之后不断扩展功能,并参加2005~2007年TREC的企业检索评测。2007年该系统已经具备数据采集、建立索引、多功能查询等全套功能;2008年加入命名实体和关系识别模块,并开发出面向北京邮电大学校园网的教师、实验室和课程等对象的特色信息搜索功能。目前正在进一步开发和完善特色技术和功能。
1.3.    完成的研究项目
(1) 手机短信的分类与过滤,项目批准号:60675001;时间:2007-01至2007- 12。
该项目在现有的文本分类与过滤技术的基础上,研究短信的分类与过滤,为短信的自动监管提供必要基础。主要研究内容包括:面向监管需求的短信分类体系;面向分类与过滤的短信表示模型;自适应短信过滤机制与算法;短信数据库建立等。项目在短信语言模型、特征补偿、特征降维、增量学习、反馈学习等方面进行了理论和方法的创新。
(2) 网络图像文档过滤中的若干关键问题研究,项目批准号:60475007;时间:2005-01至2005-12。
为了更好实现网络信息过滤(IF),该项目研究图像文档过滤中的若干关键问题,主要包括实现适应于IF目的的中文关键词高速识别;根据过滤任务对错误的文档(识别文档)的内容进行数值化描述,对其有关语义进行表示;根据过滤任务获得语义级过滤模型。该项目已结题,并获得了优的评价成绩。
(3) 国家242信息安全计划项目:******(保密项目:2005C35)。主要研究方向:基于内容的手机短信的处理、分析和统计技术。2005.11 – 2008.8
1.4.    发表论文
项目组每年在学术期刊和国际会议上发表论文30篇以上,例如,2008年发表近40篇,2007年发表30篇,2006年37篇,2005年37篇。其中2007年的论文包括信息检索领域的顶级会议SIGIR07上1篇,2008年亚洲信息检索会议论文1篇。
2008年
[1]    茹昭,徐蔚然,郭军,improving expert recommending systems by odds ratio,Asian information retrieval symposium,2008.01
[2]    Weihong Deng, Jun Guo, Jiani Hu, Hongang Zhang, “Comment on “100% Accuracy in Automatic Face Recognition””, Science, vol. 321. no. 5891, pp. 912, 2008 [SCI IDS Number: 337LD]  
[3]    Weihong Deng, Jiani Hu, Jun Guo, Hongang Zhang, Chuang Zhang, “Comments on “Globally Maximizing, Locally Minimizing: Unsupervised Discriminant Projection with Application to Face and Palm Biometrics””, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 30. no. 8, pp. 1503–1504, 2008 [SCI IDS Number: 312OC, EI Accession number: 082811356850]
2007年
[4]    胡佳妮,邓伟洪,郭军,徐蔚然,Locality Discriminating Indexing for Document Classification,The 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’ 07),689-690, 2007.07
[5]    胡佳妮,郭军,徐蔚然,一种基于短文本的独立语义特征抽取算法,全国网络与信息安全研讨会,2007
[6]    杨震,王坚,徐蔚然,郭军, Combining labeled and unlabeled data for spam classification, In Proc. of ICCSA’07, 2007.08
[7]    茹昭,徐蔚然,郭军,An Expert Experience Probabilistic Model for Enterprise Expert Finding,ICNC-FSKD 2007
[8]    茹昭,郭军,徐蔚然,Generative Language Model: From Text Retrieval to Named Entity Retrieval,ICIF 2007
[9]    茹昭,徐蔚然,郭军,Automatically Finding Experts in Large Organizations,GSIS 2007
[10]    何慧, 陈博, 徐蔚然, 郭军,Short Text Feature Extraction and Clustering for Web Topic Mining,the 3rd International Conference on Semantics, Knowledge and Grid (SKG’07)
[11]    Jiani Hu, Weihong Deng, Jun Guo etc, “Learning Locality Discriminating Indexing for Text Categorization” The 4th International Conference on Fuzzy Systems and Knowledge Discovery, 2007. [EI Accession number: 082211281955]
[12]    Jiani Hu, Weihong Deng, Jun Guo, “A Clustering Algorithm Based on Adaptive Subcluster Merging” The 20th Canadian Conference on Artificial Intelligence, Lecture Notes in Artificial Intelligence, vol. 4509, pp. 241-249, 2007. [EI Accession number: 075210988620]

2006年
[13]    徐蔚然,胡佳妮等,PRIS信息检索技术报告,中文信息学报,ISSN 1003-0077/CN11-2325/N 2006.3
[14]    徐蔚然 王谦 郭军, Document image classification without optical character recognition, The Journal of china universities of posts and telecommunications,ISSN 1005-8885/CODEN JCUPCO, 2006.11
[15]    Ya-xiang Yuan and 郑真真,  Disturbed sparse  linear equations over the 0-1 finite field,  Journal of Computational Mathematics(SCI), Vol. 24, No.3,  2006
[16]    郑真真,  A genetic algorithm for disturbed sparse linear equations over the 0-1 finite field,  Proceedings of the eighth national conference of operations research society of China, 2006
[17]    Yang Zhen, 徐蔚然et al: Multi-Scale Support Vector Machine for Regression Estimation. Lecture Notes in Computer Science, 2006, p 1030-1037 (SCI,EI,ISTP已检索:SCI IDS Number: BEM20,EI Accession number: 062910011514)
[18]    Yang Zhen, 徐蔚然et al: Improving the Performance of Naive Bayes Classifier for Spam Detection. Dynamics of Continuous, Discrete and Impulsive Systems, Series B: Applications and Algorithms, 2006, p 694-698 (SCI待检索)
[19]    Yang Zhen, 徐蔚然et al: An Approach to Spam Detection by Naive Bayes Ensemble Based on Decision Induction. The Proceeding of Six International Conference on Intelligent Systems Design and Applications, 2006, p 861-866 (IDS Number: BFK67, EI待检索)
[20]    Yang Zhen, 徐蔚然et al : Application of the Character-Based Statistical Method in Text Categorization,The Proceeding of 2006 International Conference on Computational Intelligence and Security, 2006 , p 1412-1417 (IDS Number: BFP93,EI待检索)
[21]    Yang Zhen, 徐蔚然et al : BUPT at TREC 2006: Spam Track, The Proceeding of  Fifteenth Text REtrieval Conference (TREC 2006), 2006, p 350-355
[22]    Bo Chen, He Hui, 徐蔚然, Jun Guo: POC-NLW Template Based Tagging Method for Chinese Word Segmentation. Accepted by the Proceeding of ICCIS06 [EI]
[23]    Bo Chen, He Hui, 徐蔚然, Jun Guo: Chinese Word Segmentation as POC-NLW Tagging. Accepted by the Proceeding of ICSP06 [EI]
[24]    Bo Chen, Tao Peng, 徐蔚然, Jun Guo: POC-NLW Template for Chinese Word Segmentation. Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing, 2006, p177-180
[25]    Jiani Hu, Weihong Deng, Jun Guo, “Improving Retrieval Performance by Global Analysis” Proceeding of the 18th International Conference on Pattern Recognition (ICPR2006), vol. 2, pp. 703–706, 2006. [EI Accession number: 071510540778]

2005年
[26]    Yang Zhen, 徐蔚然et al : PRIS Kidult Anti-SPAM Solution at the TREC 2005 Spam Track: Improving the Performance of Naive Bayes for Spam Detection, The Proceeding of  Fourteenth Text REtrieval Conference (TREC 2005), 2005

2004年及以前
[27]    徐蔚然, Zhang Honggang, Guo Jun et al, Discrimination Between Printed and Handwritten Characters for Check OCR System, Proc. of 2002 IEEE International Conference on Machine Learning and Cybernetics, Nov. 2002, Beijing (EI索引号:03127405725)
[28]    徐蔚然, Yu Wugui, Guo Jun et al, Handwriting Legal Amounts Segmentation for Check Reader Based on Simple Bayesian Classifler, Proc. of 2002 IEEE International Conference on Machine Learning and Cybernetics, Nov. 2002, Beijing (EI索引号:03127405726)
[29]    徐蔚然,郭军: 手写金融汉字识别中的可信度估计, 电子学报 v.33 No.10 1879-1882, 2005.1 (EI索引号:06029637137)
[30]    徐蔚然、郭军、潘兴德,基于评判子的字体判断,计算机学报,Vol.26, No.7, 802-805, 2003( EI索引号:  03457708264)
[31]    徐蔚然、张洪刚、刘刚、郭军,基于知识的银行票据二值化方法, 中文信息学报,Vol.16, No.2, pp.60-64, Feb. 2002