-1.更新

发现现在brat直接Python3就可以使用,只是brat官网上和Github上最新release版本还停留在2012年,然而brat近几年有所更新,所以我们可以直接clone Github上的brat的最新源码进行使用hhh。

0.前言

0.1 背景

近日简单调研一下NLP标注工具brat的使用,其官网示例中可以标注的任务包括命名实体识别、事件抽取、指代消解、依存句法、成分句法等等。

  1. 自然语言处理(Natural Language Processing,NLP):自然语言处理是人工智能和语言学领域的分支学科,主要研究如何让计算机处理和运用自然语言。

  2. 自然语言处理广义上分为两大部分,第一部分是自然语言理解,是指让电脑“懂”人类的语言;第二部分为自然语言生成,是指把计算机数据转化为自然语言。

经过我的探索,发现现在商用也好,学习也罢,目前提供NLP技术服务的大致分三种:

  • 一种是大学院校的教授、助教和研究生等依托团队的学术背景和技术沉淀,通过创办规模较小的公司提供技术支持,以实现技术变现。服务对象主要为科研院所、政府部门、一些没有精力或没有必要自己去做这方面服务的大公司和一些没有条件或没有必要自己去做的中小型公司。
  • 一种是大公司如Google、Facebook、Microsoft、阿里、腾讯、百度、华为、科大讯飞等,目前也都在这方面发力。其中关于自然语言处理方面在BAT三者之间应该是百度做的最早,目前腾讯的比较成熟,而阿里在这方面才刚刚开始,前两天才公测结束,服务正式上线日期官网说是4月23号。科大讯飞的特点应该主要是语音相关的。华为的不了解。这些公司相关领域技术自己是要自己开拓发展的。
  • 第三种则应该是比较专业,主打自然语言处理及其衍生相关服务的了。基本上创始人和主要的技术人员都是来自国内外知名的大学和公司,有学习相关的专业技术,并有丰富的从业经验,后来自主创业,开辟相关市场,想要在自然语言处理服务领域彻底火起来之前做大做强,多吃点蛋糕。国外的有不少,国内的现在也在发展中,估计目前至少有10家公司在做相关的了。服务对象和第一种基本相同。

前述

(妈耶!这是昨天的文章了,昨天晚上写着写着突然断电,而我的电脑是台式机。。。)

今天在忙毕设的事情,毕设项目是做一个微计划日程管理的小程序,目前已经完成了大部分的功能。

其中包括图表统计、时间轴、四象限、小卡片、数据备份和数据还原等功能。不过今天刚通知了说审核失败,理由是身份为个人的开发者不能做备忘录相关的微信小程序。

昨天想着能不能把自己的兴趣(自然语言处理+知识图谱)和毕设结合起来,打算通过调用一些开放的自然语言处理的Restful API接口来处理一些todo、plan、target相关分析统计工作。

今天开始探索学习使用哈工大的LTP(Language Technology Platform)。

这里是官网地址

这里是GitHub地址

这里是pyltp的使用文档

平台采用的语言是C++,但是也提供了Python和Java的封装。由于本人目前使用Python作为自然语言处理的工具语言,所以以下的探索流程都是使用本人电脑中的Window8.1操作系统的PyCharm集成开发环境,使用的Python版本是3.6。





博客内容遵循 署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议

本站使用 Volantis 作为主题,总访问量为
载入天数...载入时分秒...
冀ICP备20001334号