#使用ICTCLAS2015进行分词
在今年的Imagine Cup中使用到了语义分析的部分,其中需要分词作为基础,我是用的是中科院的ICTCLA2015,本篇博客我来讲讲如何使用ICTCLAS2015进行分词
##ICTCLAS2015
###简介
中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。
###下载地址
http://ictclas.nlpir.org/downloads
##使用ICTCLAS2015进行开发
###本文所采用开发平台
- 操作系统:Windows 8.1 x64
- 开发语言:Java
- 开发工具:Eclipse
###开发实例
####准备
复制Data文件夹和NLPIR.dll至开发目录
下载JNA类库, jna-platform-4.1.0.jar
####使用JNA调用C++接口
1 |
|