《论文解读-Toward an Architecture for Never-Ending Language Learning》

 

当前自己仅是简单翻译一下。

0. 论文出处

1. NELL系统概述

NELL(never-ending language learner)系统每天不间断地执行两个任务:

  1. 阅读任务:从web文本中提取信息,进一步填充结构化事实和知识的不断增长的知识库。
  2. 学习任务:学习阅读,每天都比前一天更好,这是由它的能力证明,回到昨天的文本来源,提取更多的信息更准确

2. 理论基础

网络上庞大的信息冗余(例如,许多事实以不同的方式被多次陈述)将使具有正确学习机制的系统获得成功。

3. 研究定位

这项研究的一个观点是,它是一个终生学习的案例研究。第二种观点认为,这是一种提高自然语言处理艺术水平的尝试。第三种观点认为,这是开发世界上最大的结构化知识库的一种尝试——反映万维网的事实内容,这将对许多人工智能工作有用。

4. NELL系统掌握的知识类型

目前,NELL掌握了两种类型的知识:

  1. 关于哪些名词短语指哪些特定语义类别的知识,如城市、公司和运动队;
  2. 关于哪些名词短语对满足哪些特定语义关系的知识,如hasOfficesIn(组织、位置)。

5. NELL系统的贡献

  1. 构建一个永不停息的学习代理的体系结构的进展,以及一组帮助成功实现该体系结构的设计原则
  2. 对该体系结构实现的web级实验评估
  3. 这是迄今为止规模最大、最成功的bootstrap学习实现之一

6. 系统组成

  1. 一个持续增长的共享的知识库
  2. 一系列实现了互补的知识抽取方法的阅读/学习子系统组件

7. 知识库初始定义

  1. 1个本体(定义了类别和关系的谓词集合)
  2. 这个本体中每个谓词的一些种子示例(例如,一些个示例城市)。

8. 系统目标

通过阅读不断地增长知识库,并学习更好地阅读。

9. 系统体系结构

UTOOLS1580396034044png

  • 添加到知识库中的类别和关系实例被划分为候选事实和信念。
  • 子系统组件可以从知识库中读取数据并参考其他外部资源(例如文本库或Internet),然后提出新的候选事实。
  • 组件为每个提议的候选提供一个概率,并提供支持它的源证据的摘要。
  • 知识整合器(KI)检查这些提出的候选事实,并将其中最有力的支持提升到信念状态。

10. 系统工作原理

  • 在我们的初始实现中,这个循环是迭代操作的。在每个迭代中,给定当前的知识库,每个子系统组件都运行到完成,然后KI根据新提出的候选事实做出决定。
  • 知识库在迭代中不断增长,提供了越来越多的信念,然后每个子系统组件使用这些信念来重新训练自己,以便在下一次迭代中更好地阅读。通过这种方式,我们的方法可以被看作是实现了一种耦合的、半监督的学习方法,在这种方法中,多个组件在KI的监督下学习和共享互补类型的知识。
  • 可以将此方法视为期望最大化(EM)算法的近似值,其中E步骤涉及迭代地估计共享知识库中非常大的一组虚拟候选信念的真值,M步骤涉及重新培训各种子系统组件提取方法。
  • 如果标记错误累积,这种迭代学习方法可能会出现问题。为了帮助缓解这个问题,我们将允许系统每天与人进行10-15分钟的交互,以帮助它保持“在正轨上”。“然而,在这里报道的工作中,我们对人力投入的使用有限。

11. 系统设计原则

  1. 使用产生不相关错误的子系统组件。 当多个组件出现不相关的错误时,它们都出现相同错误的概率是它们各自错误概率的乘积,从而导致错误率大大降低。
  2. 学习多种类型的相关知识。 例如,我们使用一个组件学习从文本资源中提取谓词实例,另一个组件学习从知识库中的其他信念中推断关系实例。这为相同类型的信念提供了多种独立的来源。
  3. 使用耦合半监督学习方法来利用正在学习的谓词之间的约束(Carlson et al. 2010)。 为了提供耦合的机会,将类别和关系安排到一个分类法中,该分类法定义哪些类别是其他类别的子集,以及哪些类别对是相互排斥的。另外,指定每个关系参数的期望类别以启用类型检查。子系统组件和KI可以从利用耦合的方法中获益。
  4. 将知识库中的高自信信念与低自信候选者区分开来,并保留每种信念的来源证明。
  5. 使用统一的知识库表示来捕获候选事实和促进所有类型的信念,并使用可以在此共享表示上操作的关联推理和学习机制。

12. 系统设计到的知识

  1. 半监督学习
  2. 终身学习
  3. bootstrap学习
  4. 耦合半监督学习

13. 系统子系统组件

  • 耦合模式学习器(Coupled Pattern Learner,CPL):一个用于自由文本的提取器,它学习和使用上下文模式,如“市长的X”和“X发挥Y”提取范畴和关系的实例。CPL使用名词短语和上下文模式之间的共现统计(均使用词性标记序列定义)来学习感兴趣的每个谓词的提取模式,然后使用这些模式来查找每个谓词的其他实例。谓词之间的关系用于过滤过于一般化的模式。Carlson等人(2010)对CPL进行了详细描述。CPL提取的候选实例的概率是使用公式1 0.5 c启发式分配的,其中c是提取候选实例的提升模式的数量。在我们的实验中,CPL作为20亿个句子的语料库的输入,这些句子是使用OpenNLP 包从ClueWeb09数据集中的5亿个网页英语部分提取、标记和后置标签句子生成的(Callan和Hoy 2009)。
  • 耦合密封(Coupled SEAL,CSEAL):一个半结构化的提取器,它使用来自每个类别或关系的信念集查询Internet,然后挖掘列表和表来提取相应谓词的新实例。CSEAL使用互斥关系来提供负面示例,这些示例用于过滤掉过于一般的列表和表。CSEAL也由Carlson等人(2010)描述,它基于Wang和科恩(2009)。给定一组种子实例,CSEAL通过对知识库中的信念进行子抽样并在查询中使用这些抽样的种子来执行查询。CSEAL被配置为为每个类别发出5个查询,为每个关系发出10个查询,并为每个查询获取50个web页面。CSEAL提取的候选事实使用与CPL相同的方法分配概率,只不过c是提取实例的未过滤包装器的数量。
  • 耦合形态分类器(Coupled Morphological Classifier,CMC):一组二元l2正则化逻辑回归模型,每个类别一个,根据不同的形态特征(单词、大写字母、词缀、词性等)对名词短语进行分类。来自知识库的信念被用作训练实例,但是在每个迭代中CMC被限制为至少有100个提升实例的谓词。与CSEAL一样,互斥关系用于识别负面实例。CMC检查其他组件提出的候选事实,并在每次迭代中每个谓词分类多达30个新信念,最小后验概率为0.75。这些启发式度量有助于确保较高的精度。
  • 规则学习器(Rule Learner,RL):类似于FOIL (Quinlan和Cameron-Jones 1993)的一阶关系学习算法,它学习概率性的Horn子句。这些学习到的规则用于从知识库中已经存在的其他关系实例中推断新的关系实例。

14. 知识整合器(KI)

我们对知识整合器(KI)的实现使用硬编码的、直观的策略将候选事实提升到信念的状态。从单一来源(后> 0.9)获得高可信度的候选事实将得到提升,而从多个来源获得低可信度的候选事实将得到提升。

KI通过遵守互斥和类型检查信息来利用谓词之间的关系。特别是,候选类别实例不会被提升如果他们已经属于一个互斥的类别;关系实例同样不会提升,除非他们的论元至少属于候选的合适的类别类型(而不是已经被认为是一个类别的实例与适当的类型相互排斥)。

在我们当前的实现中,一旦将候选事实提升为信念,它就永远不会降级。KI被配置为每次迭代每个谓词最多提升250个实例,但是在我们的实验中很少达到这个阈值。

NELL中的KB是基于Tokyo Cabinet2(一种快速、轻量级的键/值存储)的THEO框架表示(Mitchell et al. 1991)的重新实现。知识库可以在一台机器上处理数百万个值。

15. 实验

我们实验中使用的输入本体包括123个类别,每个类别有10-15个种子实例和5个CPL种子模式(源自Hearst模式(Hearst 1992))。 类别包括地点(例如,山脉、湖泊、城市、博物馆)、人(例如,科学家、作家、政治家、音乐家)、动物(例如,爬行动物、鸟类、哺乳动物)、组织(例如,公司、大学、网站、运动队)和其他。其中包括55个关系,还有10-15个种子实例和5个负面实例(通常通过屏蔽种子实例的参数生成)。关系捕获不同类别之间的关系(例如,teamPlaysSport、bookWriter、companyProducesProduct)。

在我们的实验中,CPL、CSEAL和CMC每次迭代运行一次。RL在每批10次迭代之后运行,并由人工筛选提议的输出规则。手动批准这些规则只需要几分钟。为了估计NELL生成的知识库中的信念的精度,最后知识库中的信念被随机抽样,并由几个人类裁判进行评估。在作出决定之前,对意见不一致的情况进行了详细的讨论。曾经正确但现在不正确的事实(例如,一个运动队的前教练)被认为是正确的评价,因为NELL目前没有处理其信仰的时间范围。虚假的形容词(如《今日芝加哥论坛报》(today ‘s Chicago Tribune)是被允许的,但很少见。

16. 抽取结果示例

UTOOLS1580396220983png

17. 结果

18. 讨论

尽管NELL的持续学习允许它每天提取更多的事实,但提取事实的准确性随着时间的推移而缓慢下降。部分原因是最简单的提取发生在早期的迭代中,而后期的迭代需要更精确的提取器来达到同样的精度。

然而,NELL犯的错误也会导致他学会犯更多的错误。虽然我们认为目前的系统很有前途,但还有许多研究工作要做。

19. 总结

我们提出了一个永不停止的语言学习代理的体系结构,并描述了该体系结构的部分实现,它使用四个子系统组件来学习以互补的方式提取知识。在运行了67天之后,这个实现填充了一个包含242,000多个事实的知识库,估计精度为74%。

这些结果说明了使用一组不同的知识提取方法的好处,这些方法适合于学习,并且一个知识库允许存储候选事实和自信的信念。

20. 可以改进之处

有许多改进的机会,包括:

  1. 反省决定下一步该做什么,

  2. 更有效地利用10的15分钟的日常人际互动,

  3. 学习新发现的谓词,

  4. 学习额外的知识类型语言,

  5. 实体级(而不是string-level)建模

  6. 更复杂的概率建模的实现。

21. 致谢

22. 参考