700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 中文分词器ICTCLAS使用方法(Java)

中文分词器ICTCLAS使用方法(Java)

时间:2019-02-28 03:46:49

相关推荐

中文分词器ICTCLAS使用方法(Java)

/CheeseZH/archive//11/27/2791037.html

吃水不忘挖井人,这篇文章给了我很大帮助:/caimo/article/details/7686872,这篇文章写的蛮详细,不过是ICTCLAS在web项目中的应用,于是我借花献佛,把它整理了一下成为java项目的应用。

1、到ICTCLAS官网下载最新版本分词器:/ictclas_download.aspx,点击下载后需要填写反馈信息——姓名,邮箱;

注:听学长说这个分词器有时间限制,所以一段时间之后需要重新下载。

2、将下载的ICTCLAS50_Windows_32_JNI.rar解压,其中有API,Demo,Doc,Sample四个文件夹;

API文件夹中的东西就是我们需要使用的;

Demo文件夹中的东西是一个用MFC实现的分词程序;

Doc文件夹中的东西是两个文档,注:ICTCLAS5.0接口文档.doc中提及的部分接口在最新的ICTCLAS中已经不再提供,还有的做了少量修改;

Sample文件夹中是一个java使用ICTCLAS例子:

比如我把ICTCLAS50_Windows_32_JNI.rar解压到C盘根目录,那我只需要在命令行中输入:

cd ICTCLAS50_Windows_32_JNI\Sample\Windows_32_jni_Demo

javac TestMain.java

java TestMain

就可以看到运行结果了;

3、如何将ICTCLAS整合到自己Java 项目中:

在myeclipse中创建项目为ICTCLAS003,那么将ICTCLAS的API目录中的ICTCLAS文件夹拷贝到ICTCLAS003文件夹的src目录下(ctrl+v粘贴到工程src即可),然后把DATA和其他的文件放到ICTCLAS003文件夹中即可。

刷新项目(Refresh)就可以看到这些内容已经导入了;

然后新建一个Test.java,

写上:import ICTCLAS.I3S.AC.ICTCLAS50;

就可以使用接口了。

下边就是API文件加中的ICTCLAS50.java文件,可以看出它提供的几个接口:

package ICTCLAS.I3S.AC;import java.io.*;public class ICTCLAS50{//public enum eCodeType//{// CODE_TYPE_UNKNOWN,//type unknown // CODE_TYPE_ASCII,//ASCII// CODE_TYPE_GB,//GB2312,GBK,GB10380// CODE_TYPE_UTF8,//UTF-8// CODE_TYPE_BIG5//BIG5//}public native boolean ICTCLAS_Init(byte[] sPath);public native boolean ICTCLAS_Exit();public native int ICTCLAS_ImportUserDictFile(byte[] sPath,int eCodeType);public native int ICTCLAS_SaveTheUsrDic();public native int ICTCLAS_SetPOSmap(int nPOSmap);public native boolean ICTCLAS_FileProcess(byte[] sSrcFilename, int eCodeType, int bPOSTagged,byte[] sDestFilename);public native byte[] ICTCLAS_ParagraphProcess(byte[] sSrc, int eCodeType, int bPOSTagged);public native byte[] nativeProcAPara(byte[] sSrc, int eCodeType, int bPOStagged);/* Use static intializer */static{System.loadLibrary("ICTCLAS50");}}

下边是我自己写的测试TestMain.java:

/** ICTCLAS_Init* ICTCLAS_ParagraphProcess* ICTCLAS_Exit* ICTCLAS_ImportUserDictFile[接口文档中的函数为:ICTCLAS_ImportUserDict]* ICTCLAS_SetPOSmap* */import ICTCLAS.I3S.AC.ICTCLAS50;public class TestMain {public static void main(String[] args){try{ICTCLAS50 testICTCLAS50 = new ICTCLAS50();String argu = ".";if(testICTCLAS50.ICTCLAS_Init(argu.getBytes("GB2312")) == false){System.out.println("Init Fail");}else{System.out.println("Init Succeed!");}String sInput = "随后温总理就离开了舟曲县城,预计温总理今天下午就回到北京。以上就是今天上午的最新动态。";//未导入用户词典byte nativeBytes[] = testICTCLAS50.ICTCLAS_ParagraphProcess(sInput.getBytes("GB2312"), 0, 1);System.out.println(nativeBytes.length); String nativeStr = new String(nativeBytes,0,nativeBytes.length,"GB2312");System.out.println("未导入用户词典分词结果:"+nativeStr);//导入用户词典int nCount = 0;String usrdir = "userdict.txt";byte[] usrdirb = usrdir.getBytes();//第一个参数为用户字典路径,第二个参数为用户字典的编码类型(0:type unknown;1:ASCII码;2:GB2312,GBK,GB10380;3:UTF-8;4:BIG5)nCount = testICTCLAS50.ICTCLAS_ImportUserDictFile(usrdirb, 2); System.out.println("导入用户词个数:"+nCount);nCount = 0; //导入用户词典之后再分词byte[] nativeBytes1 = testICTCLAS50.ICTCLAS_ParagraphProcess(sInput.getBytes("GB2312"), 0, 1);System.out.println(nativeBytes1.length);String nativeStr1 = new String(nativeBytes1,0,nativeBytes1.length,"GB2312");System.out.println("导入用户词典分词结果:"+nativeStr1);/** ICT_POS_MAP_SECOND 计算所二级标注集 0* ICT_POS_MAP_FIRST 计算所一级标注集 1* PKU_POS_MAP_SECOND 北大二级标注集 2* PKU_POS_MAP_FIRST 北大一级标注集 3* *///使用计算所二级标注集testICTCLAS50.ICTCLAS_SetPOSmap(0);byte[] nativeBytes2 = testICTCLAS50.ICTCLAS_ParagraphProcess(sInput.getBytes("GB2312"), 0, 1);System.out.println(nativeBytes2.length);String nativeStr2 = new String(nativeBytes2,0,nativeBytes2.length,"GB2312");System.out.println("计算所二级标注集:"+nativeStr2);//使用北大二级标注集testICTCLAS50.ICTCLAS_SetPOSmap(2);byte[] nativeBytes3 = testICTCLAS50.ICTCLAS_ParagraphProcess(sInput.getBytes("GB2312"), 0, 1);System.out.println(nativeBytes3.length);String nativeStr3 = new String(nativeBytes3,0,nativeBytes3.length,"GB2312");System.out.println("北大二级标注集:"+nativeStr3); //释放分词组件资源 testICTCLAS50.ICTCLAS_Exit();}catch(Exception ex){}}}

使用的时候需要注意一下各个函数不同参数的含义。

boolICTCLAS_Init();参数就是一个目录的String,这个目录下包含分词器所需的系统词表以及配置文件;

booleanICTCLAS_Exit();无参数

intICTCLAS_ImportUserDictFile(byte[]sPath);参数就是用户自定义词表文件名字,记得把词表放在工程根目录中;返回值是词表中的词条数目;

publicnativebyte[]ICTCLAS_ParagraphProcess(byte[]sSrc,inteCodeType,intbPOSTagged);第一个参数就是待处理文本,注意要将String转换为bytes数组,第二个参数是字符集类型【我的源码中有介绍】,第三个参数0:无标注,1:有标注

publicnativeintICTCLAS_SetPOSmap(intnPOSmap);选择标注集【我的源码中有介绍】

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。