信息检索
完成的主要工作
参加评测
|
评测项目 |
时间 |
主要完成人 |
成绩 |
|
国家863文本分类评测 |
2004 |
徐蔚然等 |
综合排名第1名 |
|
国家863信息检索评测 |
2005 |
徐蔚然等 |
综合排名第5名 |
|
美国TREC评测:垃圾邮件过滤 |
2005 |
杨震等 |
国内单位第1名 |
|
2006 |
杨震 |
综合排名第8名 |
|
|
2007 |
徐蔚然 |
||
|
美国TREC评测:企业检索(邮件检索) |
2005 |
陈岳华 |
综合排名第8名 |
|
美国TREC评测:TREC企业检索(专家检索) |
2005 |
茹昭 |
综合排名第7名 |
|
2006 |
茹昭 |
综合排名第4名 |
|
|
2007 |
茹昭等 |
||
|
2008 |
王占一、刘东鑫等 |
||
|
美国TREC评测:Blog检索 |
2007 |
陈博等 |
综合排名第12名 |
|
2008 |
何慧、李思等 |
||
|
美国TREC评测:相关反馈 |
2008 |
周卉、李思 |
|
|
ACM评测:SigHan分词评测 |
2006 |
陈博 |
综合排名第7名 |
|
COAE中文倾向性分析评测 |
2008 |
何慧、杜垒等 |
参加全部6项测试, 观点检索单项排名第1 |
系统平台
l文本分类平台系统
文本分类平台系统包括文本分类、特征提取与特征选择、中文分词、新词发现、词性标注等模块,每模块均提供多种可选择算法。文本分类平台包括3个子系统:网页文本分类子系统、邮件过滤子系统和短信过滤子系统。
网页文本分类子系统面向网络信息过滤问题,用于研究网页、论坛、Blog等的文本信息处理技术,如分类、新话题发现、特定话题跟踪等。网页子系统于2004年开始构建,首先加入分类模块,随后加入信息采集系统(爬虫),之后一直不断改进,最新版本的改进工作计划于2009年4月完成。该系统下开发的文本分类模块获2004年国家863文本分类评测综合性能第1名。
邮件过滤子系统专门处理邮件文本,侧重于研究增量学习、自适应过滤、主动学习和人机交互等问题。该系统下研究的邮件过滤系统参加了TREC2005-2007年的SPAM测试。
短信过滤子系统是我们重点建设的平台子系统,用以研究大规模分布式手机短信的分类、过滤和检索技术。本项目组在基于内容的短信处理技术研究方面起步较早(与国内外同领域相比),于2005年完成第一版原型系统。该系统提供多类别体系分类,特定主题短信过滤,新主题发现、跟踪与识别,热点统计,基于聚类分析的新热点发现等功能。
l校园对象搜索引擎(CampusObjectSearchEngine,COSE)
于2005年搭建成ADHOC检索系统平台,并参加当年的863检索系统评测,之后不断扩展功能,并参加2005~2007年TREC的企业检索评测。2007年该系统已经具备数据采集、建立索引、多功能查询等全套功能;2008年加入命名实体和关系识别模块,并开发出面向北京邮电大学校园网的教师、实验室和课程等对象的特色信息搜索功能。目前正在进一步开发和完善特色技术和功能。
完成的研究项目
(1)手机短信的分类与过滤,项目批准号:60675001;时间:2007-01至2007-12。
该项目在现有的文本分类与过滤技术的基础上,研究短信的分类与过滤,为短信的自动监管提供必要基础。主要研究内容包括:面向监管需求的短信分类体系;面向分类与过滤的短信表示模型;自适应短信过滤机制与算法;短信数据库建立等。项目在短信语言模型、特征补偿、特征降维、增量学习、反馈学习等方面进行了理论和方法的创新。
(2)网络图像文档过滤中的若干关键问题研究,项目批准号:60475007;时间:2005-01至2005-12。
为了更好实现网络信息过滤(IF),该项目研究图像文档过滤中的若干关键问题,主要包括实现适应于IF目的的中文关键词高速识别;根据过滤任务对错误的文档(识别文档)的内容进行数值化描述,对其有关语义进行表示;根据过滤任务获得语义级过滤模型。该项目已结题,并获得了优的评价成绩。
发表论文
2008年
[1]茹昭,徐蔚然,郭军,improvingexpertrecommendingsystemsbyoddsratio,Asianinformationretrievalsymposium,2008.01
[2]WeihongDeng,JunGuo,JianiHu,HongangZhang,“Commenton“100%AccuracyinAutomaticFaceRecognition””,Science,vol.321.no.5891,pp.912,2008[SCIIDSNumber:337LD]
[3]WeihongDeng,JianiHu,JunGuo,HongangZhang,ChuangZhang,“Commentson“GloballyMaximizing,LocallyMinimizing:UnsupervisedDiscriminantProjectionwithApplicationtoFaceandPalmBiometrics””,IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.30.no.8,pp.1503–1504,2008[SCIIDSNumber:312OC,EIAccessionnumber:082811356850]
2007年
[4]胡佳妮,邓伟洪,郭军,徐蔚然,LocalityDiscriminatingIndexingforDocumentClassification,The30thAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval(SIGIR’07),689-690,2007.07
[5]胡佳妮,郭军,徐蔚然,一种基于短文本的独立语义特征抽取算法,全国网络与信息安全研讨会,2007
[6]杨震,王坚,徐蔚然,郭军,Combininglabeledandunlabeleddataforspamclassification,InProc.ofICCSA’07,2007.08
[7]茹昭,徐蔚然,郭军,AnExpertExperienceProbabilisticModelforEnterpriseExpertFinding,ICNC-FSKD2007
[8]茹昭,郭军,徐蔚然,GenerativeLanguageModel:FromTextRetrievaltoNamedEntityRetrieval,ICIF2007
[9]茹昭,徐蔚然,郭军,AutomaticallyFindingExpertsinLargeOrganizations,GSIS2007
[10]何慧,陈博,徐蔚然,郭军,ShortTextFeatureExtractionandClusteringforWebTopicMining,the3rdInternationalConferenceonSemantics,KnowledgeandGrid(SKG’07)
[11]JianiHu,WeihongDeng,JunGuoetc,“LearningLocalityDiscriminatingIndexingforTextCategorization”The4thInternationalConferenceonFuzzySystemsandKnowledgeDiscovery,2007.[EIAccessionnumber:082211281955]
[12]JianiHu,WeihongDeng,JunGuo,“AClusteringAlgorithmBasedonAdaptiveSubclusterMerging”The20thCanadianConferenceonArtificialIntelligence,LectureNotesinArtificialIntelligence,vol.4509,pp.241-249,2007.[EIAccessionnumber:075210988620]
2006年
[13]徐蔚然,胡佳妮等,PRIS信息检索技术报告,中文信息学报,ISSN1003-0077/CN11-2325/N2006.3
[14]徐蔚然,王谦,郭军, Documentimageclassificationwithoutopticalcharacterrecognition,TheJournalofchinauniversitiesofpostsandtelecommunications,ISSN1005-8885/CODENJCUPCO,2006.11
[15]Ya-xiangYuanand郑真真,Disturbedsparselinearequationsoverthe0-1finitefield,JournalofComputationalMathematics(SCI),Vol.24,No.3,2006
[16]郑真真, Ageneticalgorithmfordisturbedsparselinearequationsoverthe0-1finitefield,ProceedingsoftheeighthnationalconferenceofoperationsresearchsocietyofChina,2006
[17]YangZhen,徐蔚然etal:Multi-ScaleSupportVectorMachineforRegressionEstimation.LectureNotesinComputerScience,2006,p1030-1037(SCI,EI,ISTP已检索:SCIIDSNumber:BEM20,EIAccessionnumber:062910011514)
[18]YangZhen,徐蔚然etal:ImprovingthePerformanceofNaiveBayesClassifierforSpamDetection.DynamicsofContinuous,DiscreteandImpulsiveSystems,SeriesB:ApplicationsandAlgorithms,2006,p694-698(SCI待检索)
[19]YangZhen,徐蔚然etal:AnApproachtoSpamDetectionbyNaiveBayesEnsembleBasedonDecisionInduction.TheProceedingofSixInternationalConferenceonIntelligentSystemsDesignandApplications,2006,p861-866(IDSNumber:BFK67,EI待检索)
[20]YangZhen,徐蔚然etal:ApplicationoftheCharacter-BasedStatisticalMethodinTextCategorization,TheProceedingof2006InternationalConferenceonComputationalIntelligenceandSecurity,2006,p1412-1417(IDSNumber:BFP93,EI待检索)
[21]YangZhen,徐蔚然etal:BUPTatTREC2006:SpamTrack,TheProceedingofFifteenthTextREtrievalConference(TREC2006),2006,p350-355
[22]BoChen,HeHui,徐蔚然,JunGuo:POC-NLWTemplateBasedTaggingMethodforChineseWordSegmentation.AcceptedbytheProceedingofICCIS06[EI]
[23]BoChen,HeHui,徐蔚然,JunGuo:ChineseWordSegmentationasPOC-NLWTagging.AcceptedbytheProceedingofICSP06[EI]
[24]BoChen,TaoPeng,徐蔚然,JunGuo:POC-NLWTemplateforChineseWordSegmentation.ProceedingsoftheFifthSIGHANWorkshoponChineseLanguageProcessing,2006,p177-180
[25]JianiHu,WeihongDeng,JunGuo,“ImprovingRetrievalPerformancebyGlobalAnalysis”Proceedingofthe18thInternationalConferenceonPatternRecognition(ICPR2006),vol.2,pp.703–706,2006.[EIAccessionnumber:071510540778]
2005年
[26]YangZhen,徐蔚然etal:PRISKidultAnti-SPAMSolutionattheTREC2005SpamTrack:ImprovingthePerformanceofNaiveBayesforSpamDetection,TheProceedingofFourteenthTextREtrievalConference(TREC2005),2005
2004年及以前
[27]徐蔚然,ZhangHonggang,GuoJunetal,DiscriminationBetweenPrintedandHandwrittenCharactersforCheckOCRSystem,Proc.of2002IEEEInternationalConferenceonMachineLearningandCybernetics,Nov.2002,Beijing(EI索引号:03127405725)
[28]徐蔚然,YuWugui,GuoJunetal,HandwritingLegalAmountsSegmentationforCheckReaderBasedonSimpleBayesianClassifler,Proc.of2002IEEEInternationalConferenceonMachineLearningandCybernetics,Nov.2002,Beijing(EI索引号:03127405726)
[29]徐蔚然,郭军:手写金融汉字识别中的可信度估计,电子学报v.33No.101879-1882,2005.1(EI索引号:06029637137)
[30]徐蔚然、郭军、潘兴德,基于评判子的字体判断,计算机学报,Vol.26,No.7,802-805,2003(EI索引号:03457708264)
[31]徐蔚然、张洪刚、刘刚、郭军,基于知识的银行票据二值化方法,中文信息学报,Vol.16,No.2,pp.60-64,Feb.2002