2018-1012

问答平台建设

励马建站 无评论

  问答网站(英语:Question answering),是未来自然语言处理的明日之星。问答网站系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统[1]甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

  截至目前为止,最著名的问答系统应属IBM的沃森系统。该系统在2011年于Jeopardy节目中,与人类同场较劲,并获得最后的胜利。

  问答系统的分类

  我们可以从知识领域、答案来源等角度来替问答系统做分类。从知识领域来看,可分为“封闭领域”以及“开放领域”两类系统。封闭领域系统专注于回答特定领域的问题,如医药或特定公司等。由于问题领域受限,系统有比较大的发挥空间,可以导入如专属本体论等知识,或将答案来源全部转换成结构性资料,来有效提升系统的表现。开放领域系统则希望不设限问题的内容范围,天文地理无所不问。系统中所有知识与元件都必须尽量做到与领域不相关,当然难度也相对地提高。

  若根据答案来源来区分,可分为“数据库问答”、“常问问题问答”、“新闻问答”、“互联网问答”等系统。数据库是最常见的结构化资料储存媒介。虽然透过操控SQL语言便能够有效率地存取资料,但有些系统试图提供更直觉的自然语言查询界面,希望能进一步降低学习门槛。1970年代的LUNAR系统[5]算是早期成功的案例,其正确答题率可以达到百分之七十,可回答月球陨石相关资料。微软的English Query[6]则是近期的一个商业产品。English Query在剖析完英文问句后,会根据底层数据库结构,自动产生出相对应的SQL查询。虽然有这些成功系统案例,但数据库问答系统似乎很难被大众所接受,其中一个因素可能是因为对于结构化资料来说,结构化的查询界面在查询上更为方便。常问问题(Frequently Asked Questions, FAQs)是公司或者长期经营领域中常见的重要资源。一份FAQ资料包含了一个问句以及相对应的答案描述。FAQ问答系统的主要责任在比对使用者问句与现有FAQ问句的相似度,此与其他问答系统着重在答案语料中撷取答案的作法不同。另一种重要的系统为新闻问答系统。今日新闻媒体都已经数字化了,每日累积所产生的新闻资讯量是相当可观的,加上新闻的内容广泛丰富,作为开放领域问答系统的答案来源是最适合不过的。这样的特性使得此类系统的评估较为容易,因此稍后会提到的国际评估会议都是采用此类系统作为评估对象。最后一类的是互联网问答系统,这些系统利用搜索引擎回传的结果网页,从中撷取答案。主要挑战在于如何处理网络多异质性的资料,以及高噪声网页过滤等问题。

  问题类型

  问答系统接受的是自然语言问句,为了有效控制研究变因,多会订定可接受的问题类型来限制研究范围。最基本的类型为“仿真陈述问答”(Factoid Question Answering),此类系统根据答案语料所述资讯,取出一小段字串作为答案。由于答案的正确与否是根据答案语料的内容来决定,在现实生活中不一定为真,故称为仿真陈述问答。有些系统把问答范围进一步缩小,限定在人、地、组织等明确的专有名词上。若此类系统有能力回答如“请列举美国历届总统”这种清单型的问句,则称为“清单问答”(List Question Answering);若能回答定义问题,则称为“定义问答”(Definition Question Answering);以此类推还能定义出其他类型的问题。除了这些与问句资讯内容有关的类型外,最近评鉴会议引进如“时间限制问题”(Temporally Restricted Questions)与“序列问题”(Series of Questions)等复杂的问题类型。时间限制型的问题会在问句中明确指出答案的时间范围限制,比如说以“民国九十年时的国民党主席是谁”这问句来说,系统必须有根据答案语料结构化资料,或上下文来推论正确答案的能力。序列问题则把问答系统未来的应用定位在互动式的系统上。经过来回多次问答的方式来满足使用者的资讯需求。了解这些问题类型分类,有助于研究范围界定,同时在分析比较上也比较有依据。

上一篇:
下一篇: