Python下中科院NLPIR(ICTCLAS2014)分词软件的安装与使用

28900阅读 1评论2014-05-01 五岳之巅
分类:Python/Ruby


    
ICTCLAS是张华平博士的杰作,在多版演进后,于2014年释出的新版本,当然新版改名叫做NLPIR了,支持中英文分词,词性标注,关键语义提取,微博分词,修缮了部分bug,非商用永久免费。其中,对C/C++/C#/JAVA语言的支持都已非常完善,但我用的是Python,之前选择的是SCWS组件,但在实际使用过程中感觉SCWS分词和词性标注质量并不如NLPIR好,因此打算换用NLPIR。

   第一个问题是如何安装NLPIR。由于NLPIR需要首先安装swig我首先试了“easy_install swig”和“pip install swig”都失败了。然后登陆swig官网,下载win32的包。
    sourceforege上的地址如下:
http://sourceforge.net/projects/swig/files/swigwin/swigwin-3.0.0/swigwin-3.0.0.zip/download?use_mirror=ncu


   下载后解压到C:\Program Files\swigwin,并在系统path中添加这一路径。
   快捷键win+r
cmd命令后开命令行窗口,输入swig,出现“Must specify an input file. Use -help for available options.”,说明swig已安装成功。如下图所示:



      
接下来,就需要下载安装我们的主角NLPIR了。
     虽然可以简单地从微盘下载,如这里:


     但运气不佳,我现在访问微盘时,正好赶上“扫黄打非”,而看不到他人的共享文件:

      所以,我就去GitHub上下载。
     打开浏览器,进入

     在下图所示位置,下载zip包。


    未完待续。。。
上一篇:Python的机器学习库汇总与梳理
下一篇:解答博主西方失败2913312169的C指针问题

文章评论