2013 TREC KBA评测总结

一.评测内容简介

2013年KBA评测包含三个子任务:CCR(Cumulative Citation Recommendation),SSF(Stream Slot Filling)和TS(Temporal Summarization)。主办方提供了170个entity(其中150个来自Wikipedia,20个来自twitter),4.5T原始文档集,和7074篇标注文档集。

二.参加人员和参加机构介绍

我们实验室的主要参加人员

指导老师:徐蔚然,刘瑞芳,陈光

指导博士:张春云(讨论会召集人)

CCR任务:张为泰,杨静

SSF任务:张岱,纪剑书

详细情况请参考下面的介绍

主要参加机构

本次TREC KBA评测吸引了13所国内外高校机构参赛,共提交117次结果。具体高校结构为:

–    University of Illinois

–    University of Amsterdam

–    University of Avignon

–    Aix-Marseille University

–    University of Massachusetts

–    University of Delaware

–    CWI the Netherlands

–    University of Wisconsin

–    the university of Florida

–    Southern Cross University

–    RetrieWin

–    北京理工大学

–    北京邮电大学

三.评测相关链接

评测主页http://trec-kba.org/

评测论坛: https://groups.google.com/forum/#!forum/trec-kba

四.PRIS团队参赛情况

4.1 CCR

CCR的任务是从海量数据集中过滤出与目标entity相关的文档。此任务由张为泰杨静共同完成。

杨静主要负责建立模型、查询扩展、分类算法等内容;

cheap party dresses online,christian louboutin sale uk,ralph lauren sale uk,cheap louis

vuitton,michael kors sale

张为泰主要负责数据预处理、索引的建立和查询、相似度计算、SVD矩阵分解等内容。

我们的评测方案结合了文本相关性和文本分类两种思路,在保证召回率的前提下尽量提高准确率,得到了较高的F值。

【评测结果】

2013ccr结果

该的评测结果在所有参赛队伍中排名第五

张为泰_头像张为泰              杨静_头像 杨静

 

4.2  SSF

SSF的任务为基于流数据的结构化信息抽取。此任务由张岱纪剑书完成。

算法大致思路:

1.基于增强语法关系和依存关系作为特征,训练各个关系抽取的模板。

2.对建立索引后的数据集进行实体相关文档查询后,做简单的共指消解和预处理,进行语法和依存关系分析,再利用模板进行特定关系抽取。

张岱主要负责数据分布式预处理、索引建立、相关文档rank以及基于WAF的模板触发词挖掘等工作;

纪剑书主要负责基于语法关系和依存关系的特征提取,信息抽取模板分类器训练,共指消解,抽取流程系统架构搭建等工作。

【评测结果】(去除官方baseline后)

2013KBA_SSF结果

该评测结果在所有参赛队伍中排名第一

纪剑书_头像纪剑书     张岱_头像 张岱

发表评论

电子邮件地址不会被公开。 必填项已用*标注