实验室现有的东西和未来的计划
实验室构造了各种基本的自然语言处理相关的程序和应用,包括基本的语义理解、文本处理、句法分析等等
为什么有这些库?
后续还可能的操作包括:发布各种中文的pretrained embeddings,可能主要是字模型
中文分词为什么是问题
分词是我们唯一不愿意去做,也不想去做的工作,因为这个工作,无法完美!
至少现有的模型无法完美
除非我们能想到一个方法来从无监督数据里面自动学习分词和如何分词,或者想办法进行一种全自动、低成本的模型实现这个功能,否则就完全没有意义
进展
- 官方aliyun账号正在注册
- 未来会有首页和各种功能的DEMO
Written on October 7, 2018