今天开始探索学习使用哈工大的LTP(Language Technology Platform)。

这里是官网地址

这里是GitHub地址

这里是pyltp的使用文档

平台采用的语言是C++,但是也提供了Python和Java的封装。由于本人目前使用Python作为自然语言处理的工具语言,所以以下的探索流程都是使用本人电脑中的Window8.1操作系统的PyCharm集成开发环境,使用的Python版本是3.6。

原文

该作者也是翻译的外文,英文原文链接

引言

自然语言处理(NLP)是一种艺术与科学的结合,旨在从文本数据中提取信息。在它的帮助下,我们从文本中提炼出适用于计算机算法的信息。从自动翻译、文本分类到情绪分析,自然语言处理成为所有数据科学家的必备技能之一。

常见的10个NLP任务如下:

  1. 词干提取
  2. 词形还原
  3. 词向量化
  4. 词性标注
  5. 命名实体消岐
  6. 命名实体识别
  7. 情感分析
  8. 文本语义相似分析
  9. 语种辨识
  10. 文本总结