目前,汉语问答技术的研究还处于起步阶段.国际上也没有一个公开,公认的汉语问答系统测试集以及评估方法.作为尝试,本研究小组已初步建立一个汉语问答系统评测平台(简称EPCQA).其中,EPCQA语料库,测试集和打分标准的建立基本参考TREC QA Track,NICIR和CLEF的成功经验,并针对汉语的特点进行适当的修正.
现阶段,EPCQA的答案源语料库约1.8GB,主要来自互联网网页,分布于国内,国际,娱乐,体育,社会和财经等领域的新闻报道.为评测需要,我们还对语料库进行了一定程度的深加工. EPCQA测试集的建立遵循全面性,真实性和无歧义性三个原则,且已从多个不同的渠道(自然语言搜索网站日志,百科知识问答题库,实验室工作人员,英语提问的翻译等)收集了4250个涉及事实,列表和描述等三大类型的测试提问集合.
从自然语言搜索网站的日志中提取的提问很多不是现阶段我们问答系统研究的重点.例如:省略了疑问词的提问,表达模糊的提问,要求回答的是完成某件事的程序而非简短答案的提问,等等.我们对这些提问进行人工剔除.例如:"如何网上赚钱 ","女朋友过生日送什么 ","如何申请免费空间 ","成龙的近况如何 ",等等.还有一些符合要求但表达不当的提问,我们对此进行了一定的修改. 而百科知识问答题库中的提问描述得都很书面化,不能够反映用户真实提问的方式.对此我们进行了一些口语化的处理.例如百科知识问答题库中的提问:"香港电影《花样年华》最近在第53届戛纳国际电影节上获最佳男主角奖,在该片中饰演男主角的哪一位演员 ",我们把它修改成:"谁在香港电影《花样年华》中饰演男主角 ",我们认为这样更能反映系统在实际使用中的情况. 对英语提问句的"翻译"是我们获取汉语问答系统测试集的另一个非常重要的途径.其中,英语提问句的来源主要是往届的TREC比赛的测试集.这里的"翻译"并不全是对英语提问的直译,而是对于部分可能在中文中找不出答案的提问在不改变提问类型的情况下,进行了适当的修改,例如:
英语提问:Who wrote "East is east, west is west and never the twain shall meet"
中文提问:名著《红楼梦》是谁的作品
英语提问:What is the name of CEO of Apricot Computer
中文提问:联想公司的CEO叫什么名字
EPCQA针对不同类型的提问采用不同的打分标准.初步拟定,事实提问采用MRR打分标准.列表提问采用事例召回率(IR),事例准确率(IP)和F-Measure(IF)等打分准则.而对每一个描述问题,评测员列出一个基本信息和可接受信息的表单.基本信息是指这一问题的答案中不可缺少的描述部分.可接受信息是指可以构成一个正确的答案的,但还不是必需的信息.超出基本信息和可接受信息的部分将在评分体系中给予扣分.这样可以用片断召回率(NR),片断准确率(NP)和F-Measure来评测一个描述提问的得分.
=================================================================
以上摘自《问答式检索技术及评测研究综述*》
作者:吴友政 赵军 段湘煜 徐波
2006
最新回复
目前,汉语问答技术的研究还处于起步阶段.国际上也没有一个公开,公认的汉语问答系统测试集以及评估方法.作为尝试,本研究小组已初步建立一个汉语问答系统评测平台(简称EPCQA).其中,EPCQA语料库,测试集和打分标准的建立基本参考TREC QA Track,NICIR和CLEF的成功经验,并针对汉语的特点进行适当的修正.
现阶段,EPCQA的答案源语料库约1.8GB,主要来自互联网网页,分布于国内,国际,娱乐,体育,社会和财经等领域的新闻报道.为评测需要,我们还对语料库进行了一定程度的深加工. EPCQA测试集的建立遵循全面性,真实性和无歧义性三个原则,且已从多个不同的渠道(自然语言搜索网站日志,百科知识问答题库,实验室工作人员,英语提问的翻译等)收集了4250个涉及事实,列表和描述等三大类型的测试提问集合.
从自然语言搜索网站的日志中提取的提问很多不是现阶段我们问答系统研究的重点.例如:省略了疑问词的提问,表达模糊的提问,要求回答的是完成某件事的程序而非简短答案的提问,等等.我们对这些提问进行人工剔除.例如:"如何网上赚钱 ","女朋友过生日送什么 ","如何申请免费空间 ","成龙的近况如何 ",等等.还有一些符合要求但表达不当的提问,我们对此进行了一定的修改. 而百科知识问答题库中的提问描述得都很书面化,不能够反映用户真实提问的方式.对此我们进行了一些口语化的处理.例如百科知识问答题库中的提问:"香港电影《花样年华》最近在第53届戛纳国际电影节上获最佳男主角奖,在该片中饰演男主角的哪一位演员 ",我们把它修改成:"谁在香港电影《花样年华》中饰演男主角 ",我们认为这样更能反映系统在实际使用中的情况. 对英语提问句的"翻译"是我们获取汉语问答系统测试集的另一个非常重要的途径.其中,英语提问句的来源主要是往届的TREC比赛的测试集.这里的"翻译"并不全是对英语提问的直译,而是对于部分可能在中文中找不出答案的提问在不改变提问类型的情况下,进行了适当的修改,例如:
英语提问:Who wrote "East is east, west is west and never the twain shall meet"
中文提问:名著《红楼梦》是谁的作品
英语提问:What is the name of CEO of Apricot Computer
中文提问:联想公司的CEO叫什么名字
EPCQA针对不同类型的提问采用不同的打分标准.初步拟定,事实提问采用MRR打分标准.列表提问采用事例召回率(IR),事例准确率(IP)和F-Measure(IF)等打分准则.而对每一个描述问题,评测员列出一个基本信息和可接受信息的表单.基本信息是指这一问题的答案中不可缺少的描述部分.可接受信息是指可以构成一个正确的答案的,但还不是必需的信息.超出基本信息和可接受信息的部分将在评分体系中给予扣分.这样可以用片断召回率(NR),片断准确率(NP)和F-Measure来评测一个描述提问的得分.
=================================================================
以上摘自《问答式检索技术及评测研究综述*》
作者:吴友政 赵军 段湘煜 徐波
2006
现在很少有人按照限定域来研究,因为研究这个领域,不一定适合另外一个领域,不适用。现在主要是按照问题的形式来研究,不同形式的问题,有不同的研究方法。
[ 本帖最后由 paullwell 于 2008-7-3 20:36 编辑 ]