自然语言处理(1)基本概念

 
  1. 自然语言处理(Natural Language Processing,NLP):自然语言处理是人工智能和语言学领域的分支学科,主要研究如何让计算机处理和运用自然语言。

  2. 自然语言处理广义上分为两大部分,第一部分是自然语言理解,是指让电脑“懂”人类的语言;第二部分为自然语言生成,是指把计算机数据转化为自然语言。

  1. 自然语言处理研究的内容

    1. 机器翻译(machine translation,MT):实现一种语言到另一种语言的自动翻译。
    2. 自动文摘(automatic summarizing或automatic abstracting):将原文档的主要内容和含义自动归纳、提炼出来,形成摘要或缩写。
    3. 信息检索(information retrieval):信息检索也称情报检索,就是利用计算机系统从海量文档中找到符合用户需要的相关文档。面向两种或两种以上语言的信息检索叫做跨语言信息检索(cross-language/trans-lingual information retrieval)。
    4. 文档分类(document categorization/classification):文档分类也称文本分类(text categorization/classification)或信息分类(information categorization/classification),其目的就是利用计算机系统对大量的文档按照一定的分类标准(例如,根据主题或内容划分等)实现自动归类。
    5. 问答系统(question-answering system):通过计算机系统对用户提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的回答。
    6. 信息过滤(information filtering):通过计算机系统自动识别和过滤那些满足特定条件的文档信息。通常指网络有害信息的自动识别和过滤,主要用于信息安全和防护、网络内容管理等。
    7. 信息收取(information extraction):指从文本中收取出特定的事件(event)或事实信息,有时候又称事件抽取(event extraction)。
    8. 文本挖掘(text mining):有时又称数据挖掘(data mining),是指从文本(多指网络文本)中获取高质量信息的过程。
    9. 舆情分析(public opinion analysis):舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。
    10. 隐喻计算(metaphorical computation):“隐喻”就是用乙事物或其某种特征来描述甲事物的语言现象。简要的讲,隐喻计算就是研究自然语言语句或篇章中隐喻修辞的理解方法。
    11. 文字编辑和自动校对(automatic proofreading):对文字拼写、用词,甚至语法、文档格式等进行自动检查、校对和编排。
    12. 作文自动评分:对作文质量和写作水平进行自动评价和打分。
    13. 光读字符识别(optical character recognition,OCR):通过计算机系统对印刷体或手写体等文字进行自动识别,将其转换成计算机可以处理的电子文本,简称字符识别或文字识别。
    14. 语音识别(speech recognition):将输入计算机的语音信号识别转换成书面语表示。
    15. 文语转换(text-to-speech conversion):将书面文本自动转换成对应的语音表征,又称语音合成(speech synthesis)。
    16. 说话人识别/认证/验证(speaker recognition/identification/verification):对一说话人的言语样本做声学分析,依据推断(确定或验证)说话人的身份。
      (摘自《统计自然语言处理》(第2版))
  2. 自然语言处理涉及的几个层次:形态学(morphology)、语法学(syntax)、语义学(semantics)、语用学(pragmatics)。