信息检索

2009年7月21日

完成的主要工作

参加评测

评测项目

时间

主要完成人

成绩

国家863文本分类评测

2004

徐蔚然等

综合排名第1

国家863信息检索评测

2005

徐蔚然等

综合排名第5

美国TREC评测:垃圾邮件过滤

2005

杨震等

国内单位第1

2006

杨震

综合排名第8

2007

徐蔚然

 

美国TREC评测:企业检索(邮件检索)

2005

陈岳华

综合排名第8

美国TREC评测:TREC企业检索(专家检索)

2005

茹昭

综合排名第7

2006

茹昭

综合排名第4

2007

茹昭等

 

2008

王占一、刘东鑫等

 

美国TREC评测:Blog检索

2007

陈博等

综合排名第12

2008

何慧、李思等

 

美国TREC评测:相关反馈

2008

周卉、李思

 

ACM评测:SigHan分词评测

2006

陈博

综合排名第7

COAE中文倾向性分析评测

2008

何慧、杜垒等

参加全部6项测试,

观点检索单项排名第1

 

系统平台

l文本分类平台系统

文本分类平台系统包括文本分类、特征提取与特征选择、中文分词、新词发现、词性标注等模块,每模块均提供多种可选择算法。文本分类平台包括3个子系统:网页文本分类子系统、邮件过滤子系统和短信过滤子系统。

网页文本分类子系统面向网络信息过滤问题,用于研究网页、论坛、Blog等的文本信息处理技术,如分类、新话题发现、特定话题跟踪等。网页子系统于2004年开始构建,首先加入分类模块,随后加入信息采集系统(爬虫),之后一直不断改进,最新版本的改进工作计划于20094月完成。该系统下开发的文本分类模块获2004年国家863文本分类评测综合性能第1名。

邮件过滤子系统专门处理邮件文本,侧重于研究增量学习、自适应过滤、主动学习和人机交互等问题。该系统下研究的邮件过滤系统参加了TREC2005-2007SPAM测试。

短信过滤子系统是我们重点建设的平台子系统,用以研究大规模分布式手机短信的分类、过滤和检索技术。本项目组在基于内容的短信处理技术研究方面起步较早(与国内外同领域相比,于2005年完成第一版原型系统。该系统提供多类别体系分类,特定主题短信过滤,新主题发现、跟踪与识别,热点统计,基于聚类分析的新热点发现等功能。

l校园对象搜索引擎(CampusObjectSearchEngine,COSE)

2005年搭建成ADHOC检索系统平台,并参加当年的863检索系统评测,之后不断扩展功能,并参加2005~2007TREC的企业检索评测。2007年该系统已经具备数据采集、建立索引、多功能查询等全套功能;2008年加入命名实体和关系识别模块,并开发出面向北京邮电大学校园网的教师、实验室和课程等对象的特色信息搜索功能。目前正在进一步开发和完善特色技术和功能。

 

完成的研究项目

(1)手机短信的分类与过滤,项目批准号:60675001;时间:2007-012007-12

该项目在现有的文本分类与过滤技术的基础上,研究短信的分类与过滤,为短信的自动监管提供必要基础。主要研究内容包括:面向监管需求的短信分类体系;面向分类与过滤的短信表示模型;自适应短信过滤机制与算法;短信数据库建立等。项目在短信语言模型、特征补偿、特征降维、增量学习、反馈学习等方面进行了理论和方法的创新。

(2)网络图像文档过滤中的若干关键问题研究,项目批准号:60475007;时间:2005-012005-12

为了更好实现网络信息过滤(IF),该项目研究图像文档过滤中的若干关键问题,主要包括实现适应于IF目的的中文关键词高速识别;根据过滤任务对错误的文档(识别文档)的内容进行数值化描述,对其有关语义进行表示;根据过滤任务获得语义级过滤模型。该项目已结题,并获得了优的评价成绩。

 

发表论文

2008

[1]茹昭,徐蔚然,郭军,improvingexpertrecommendingsystemsbyoddsratioAsianinformationretrievalsymposium2008.01

[2]WeihongDeng,JunGuo,JianiHu,HongangZhang,Commenton100%AccuracyinAutomaticFaceRecognition””,Science,vol.321.no.5891,pp.912,2008[SCIIDSNumber:337LD]

[3]WeihongDeng,JianiHu,JunGuo,HongangZhang,ChuangZhang,CommentsonGloballyMaximizing,LocallyMinimizing:UnsupervisedDiscriminantProjectionwithApplicationtoFaceandPalmBiometrics””,IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.30.no.8,pp.15031504,2008[SCIIDSNumber:312OC,EIAccessionnumber:082811356850]

2007

[4]胡佳妮,邓伟洪,郭军,徐蔚然,LocalityDiscriminatingIndexingforDocumentClassificationThe30thAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval(SIGIR’07)689-690,2007.07

[5]胡佳妮,郭军,徐蔚然,一种基于短文本的独立语义特征抽取算法,全国网络与信息安全研讨会,2007

[6]杨震,王坚,徐蔚然,郭军,Combininglabeledandunlabeleddataforspamclassification,InProc.ofICCSA’07,2007.08

[7]茹昭,徐蔚然,郭军,AnExpertExperienceProbabilisticModelforEnterpriseExpertFindingICNC-FSKD2007

[8]茹昭,郭军,徐蔚然,GenerativeLanguageModel:FromTextRetrievaltoNamedEntityRetrievalICIF2007

[9]茹昭,徐蔚然,郭军,AutomaticallyFindingExpertsinLargeOrganizationsGSIS2007

[10]何慧,陈博,徐蔚然,郭军,ShortTextFeatureExtractionandClusteringforWebTopicMiningthe3rdInternationalConferenceonSemantics,KnowledgeandGrid(SKG’07)

[11]JianiHu,WeihongDeng,JunGuoetc,“LearningLocalityDiscriminatingIndexingforTextCategorization”The4thInternationalConferenceonFuzzySystemsandKnowledgeDiscovery,2007.[EIAccessionnumber:082211281955]

[12]JianiHu,WeihongDeng,JunGuo,“AClusteringAlgorithmBasedonAdaptiveSubclusterMerging”The20thCanadianConferenceonArtificialIntelligence,LectureNotesinArtificialIntelligence,vol.4509,pp.241-249,2007.[EIAccessionnumber:075210988620]

 

2006

[13]徐蔚然,胡佳妮等,PRIS信息检索技术报告,中文信息学报,ISSN1003-0077/CN11-2325/N2006.3

[14]徐蔚然,王谦,郭军, Documentimageclassificationwithoutopticalcharacterrecognition,TheJournalofchinauniversitiesofpostsandtelecommunications,ISSN1005-8885/CODENJCUPCO,2006.11

[15]Ya-xiangYuanand郑真真,Disturbedsparselinearequationsoverthe0-1finitefield,JournalofComputationalMathematics(SCI),Vol.24,No.3,2006

[16]郑真真, Ageneticalgorithmfordisturbedsparselinearequationsoverthe0-1finitefield,ProceedingsoftheeighthnationalconferenceofoperationsresearchsocietyofChina,2006

[17]YangZhen,徐蔚然etal:Multi-ScaleSupportVectorMachineforRegressionEstimation.LectureNotesinComputerScience,2006,p1030-1037(SCI,EI,ISTP已检索:SCIIDSNumber:BEM20EIAccessionnumber:062910011514)

[18]YangZhen,徐蔚然etal:ImprovingthePerformanceofNaiveBayesClassifierforSpamDetection.DynamicsofContinuous,DiscreteandImpulsiveSystems,SeriesB:ApplicationsandAlgorithms,2006,p694-698(SCI待检索)

[19]YangZhen,徐蔚然etal:AnApproachtoSpamDetectionbyNaiveBayesEnsembleBasedonDecisionInduction.TheProceedingofSixInternationalConferenceonIntelligentSystemsDesignandApplications,2006,p861-866(IDSNumber:BFK67,EI待检索)

[20]YangZhen,徐蔚然etal:ApplicationoftheCharacter-BasedStatisticalMethodinTextCategorizationTheProceedingof2006InternationalConferenceonComputationalIntelligenceandSecurity,2006,p1412-1417(IDSNumber:BFP93EI待检索)

[21]YangZhen,徐蔚然etal:BUPTatTREC2006:SpamTrack,TheProceedingofFifteenthTextREtrievalConference(TREC2006),2006,p350-355

[22]BoChen,HeHui,徐蔚然,JunGuo:POC-NLWTemplateBasedTaggingMethodforChineseWordSegmentation.AcceptedbytheProceedingofICCIS06[EI]

[23]BoChen,HeHui,徐蔚然,JunGuo:ChineseWordSegmentationasPOC-NLWTagging.AcceptedbytheProceedingofICSP06[EI]

[24]BoChen,TaoPeng,徐蔚然,JunGuo:POC-NLWTemplateforChineseWordSegmentation.ProceedingsoftheFifthSIGHANWorkshoponChineseLanguageProcessing,2006,p177-180

[25]JianiHu,WeihongDeng,JunGuo,“ImprovingRetrievalPerformancebyGlobalAnalysis”Proceedingofthe18thInternationalConferenceonPatternRecognition(ICPR2006),vol.2,pp.703–706,2006.[EIAccessionnumber:071510540778]

 

2005

[26]YangZhen,徐蔚然etal:PRISKidultAnti-SPAMSolutionattheTREC2005SpamTrack:ImprovingthePerformanceofNaiveBayesforSpamDetection,TheProceedingofFourteenthTextREtrievalConference(TREC2005),2005

 

2004年及以前

[27]徐蔚然,ZhangHonggang,GuoJunetal,DiscriminationBetweenPrintedandHandwrittenCharactersforCheckOCRSystem,Proc.of2002IEEEInternationalConferenceonMachineLearningandCybernetics,Nov.2002,Beijing(EI索引号:03127405725)

[28]徐蔚然,YuWugui,GuoJunetal,HandwritingLegalAmountsSegmentationforCheckReaderBasedonSimpleBayesianClassifler,Proc.of2002IEEEInternationalConferenceonMachineLearningandCybernetics,Nov.2002,Beijing(EI索引号:03127405726)

[29]徐蔚然,郭军:手写金融汉字识别中的可信度估计,电子学报v.33No.101879-1882,2005.1(EI索引号:06029637137)

[30]徐蔚然、郭军、潘兴德,基于评判子的字体判断,计算机学报,Vol.26,No.7,802-805,2003(EI索引号:03457708264)

[31]徐蔚然、张洪刚、刘刚、郭军,基于知识的银行票据二值化方法,中文信息学报,Vol.16,No.2,pp.60-64,Feb.2002

 

  1. 本文目前尚无任何评论.
  1. 本文目前尚无任何 trackbacks 和 pingbacks.