Knowledge-Based Textual Inference via Parse-Tree Transformations 翻译

来源：互联网发布：java excel预览编辑：程序博客网时间：2024/06/10 23:51

摘要

Textual Inference（文本推理）是自然语言理解的一个重要组成，文本推理经典的做法是语义的逻辑表示，即自然语言的“外部”，然而，实际应用通常采用shallower词汇或词汇-句法来表示，也比较接近语言结构，在很多情况下，这种做法缺乏一个主语义表示和推理框架，新的树由应用推理规则生成，会给多种类型的推理提供一个统一的表示，我们使用人工或自动的方法来生成这些规则，包括语言结构和特别的基于词的推理
。我们也介绍一种新包装的数据结构和相应的推理算法来有效地实现它们。我们这种做法是为了两种任务：一个大的词库里的非监督关系提取和 Recognizing Textual Entailment(识别文本含义RTE) 基准测试

2 背景

2.2 Determining Entailment

看下面的（t，h）对
t The oddest thing about the UAE is that only 500,000 of the 2 million
people living in the country are UAE citizens.
h The population of the United Arab Emirates is 2 million.
t => h包括很多的推理步骤
首先我们得到命题
（1） 2 million people living in the country
然后我们推理 the country 指的是 the UAE ，就重写为
（2） 2 million people live in the UAE
通过UAE是United Arab Emirates的缩写，就得到
（3） 2 million people live in the United Arab Emirates
最后改述为
（4）The population of the United Arab Emirates is 2 million

文本推理包括很多的知识，比如改述(X people
live in Y! the population of Y is X), 词汇知识 (UAE! United Arab Emirates),也需要共同取义的词的合并，比如the country代替UAE。我们可以认为所有这些知识就是推理规则。
上面从h到t例子阐述了一串推理规则的应用，也称为forward chaining。

2.3 Knowledge-Based Inference

2.3.1 Semantic Knowledge Resources

Lexical Knowledge 最好的词汇资源是WordNet，一个人工排版覆盖广泛的词汇语义数据库，WordNet包括同义词，反义词，包含关系（小提琴-乐器），部分-全部关系（普罗旺斯-法国），衍生关系（meeting-meet）。
Paraphrases and Lexical-Syntactic Inference Rules(改述及词汇语法推理规则),例如acquisition of Y by X –> X purchase Y 。
Argument-mapped WordNet (AmWN)是动词和名词性谓语之间的推理规则，AmWN基于WordNet和NomLex-Plus,通过unary-DIRT算法验证(Szpektor &
Dagan, 2008).
Syntactic Transformations
举例：
John smiled and laughed => John laughed (conjunction)
My neighbor, John, came in => John is my neighbor (apposition)
The paper that I’m reading is interesting => I’m reading a paper (relative clause).

2.3.2 The Use of Semantic Knowledge in Textual Entailment Systems

文本释义系统通常把t和h根据句法解析 predicate-argument结构和各种语义学关系表示成树或图，释义这时就由h和t的匹配程度决定，或由t和h的估算距离决定，也被定义为t到h的转换cost。例如，把 purchase=>buy 规则应用到t需要purchase出现在t而buy出现在h。
Hickl (2008) 根据(t，h) 对，提出了discourse commitments，这个commitments由几个不同的技术生成，包括syntax (conjunctions, appositions, relative clauses）co-reference, predicate-argument结构， the extraction of certain relations, and paraphrase acquisition from the Web。
很多从t，h对生成的commitments来给下一阶段的RTE系统使用，也就是lexical alignment和entailment classication。
在commitment生成之前，要有很多预处理模块，包括syntactic dependency parsing（句法依存分析），semantic dependency parsing（语义依存分析）, named entity recognition（命名实体识别）, and co-reference resolution。
Hickl使用了有限状态transducer (FST)来做commitment生成。

2.4 Approximate Entailment Classication

语义知识总是不完整的，.这样，在大多数情况，基于知识的推理必须通过近似和探索性的手段实现释义，也就是approximate entailment classication（近似释义分类），一个通用的RTE系统包括这几个阶段：
1 语言上的处理：包括句法(也可能是语义) 分析, named-entity
recognition, co-reference resolution等等. 通常, t 和 h 被表示成树或图,里面的节点对应单词，节点的连线表示单词之间的关系。
2 Alignment: 通过考虑节点和边线的匹配，找到从h所有节点到t所有节点最好的映射。
3 释义分类: 根据找到的alignment，一组特征被抽取出来，传给分类器。这些特征衡量alignment 质量，也给失败的释义提供线索，比如，h里的一个节点是negated而它的aligned节点不是negated，那么就指示错误的释义。

3 研究目标

NLP

4. An Inference Formalism(格式，表示方法) over Parse Trees

算法1 把规则应用到树：

输入：源树s，     规则E：L->R输出：一组的生成树，组名DM = 所有在s里匹配L的 这种匹配 的setD = nullforeach f in M do    l = f对应的子树    r = R.clone()    foreach v in r do        v = f(v)     foreach ul,ur in pairs(l,r) do        foreach ul的子节点m in ul do            这块英文比较乱，我理解是其他无关节点和边拷贝过去    //未完，这块英文实在难以理解，看图较好