Lucene5.x 集成中文分词库Ansj

Lucene5.x 集成中文分词库Ansj

  •  2019 年 4 月 2 日
  •  1212
  •  Java Lucene Ansj 

Ansj中文分词是一个基于n-Gram+CRF+HMM的中文分词的java实现,分词速度达到每秒钟大约200万字左右,准确率能达到96%以上,目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能。

重要的是这个分词器还在不断维护 :doge

整合很简单,话不多说,直接上代码

pom.xml

<dependency>
    <groupId>org.ansj</groupId>
    <artifactId>ansj_seg</artifactId>
    <version>5.1.2</version>
</dependency>
<dependency>
    <groupId>org.ansj</groupId>
    <artifactId>ansj_lucene5_plug</artifactId>
    <version>5.1.2.0</version>
</dependency>

使用

Analyzer analyzer = new AnsjAnalyzer(AnsjAnalyzer.TYPE.index_ansj);

更详细的说明请看官方文档

扫一扫分享到微信

已有 条评论
写评论