Solr集成IKAnalyzer中文分词器

instein 发布于2019-06-21 15:24 / 1026人阅读

摘要：安装包包含中文分词器使用手册即本文档主包分词器扩展配置文件停止词典版权申明它的安装部署十分简单，将部署于项目的目录中与文件放置在根目录对于项目，通常是目录，同等配置文件相同下即可。配置扩展词典默认是用的分词器内置的词典进行分词的。

前言

官网：
https://code.google.com/archi...

IK Analyzer 2012 FF版本 （即For 4.0），在API和功能上保持不变，只是让其支持了Lucene4.0和Solr4.0，让这部分的用户能用起来。  
如果你还是Lucene3.2-3.6的用户，那么你只需要下载IK Analyzer 2012 U6版本。因为FF版本的API与3.x是不兼容的。

【IK Analyzer 安装包包含】：

《IKAnalyzer 中文分词器 V2012 使用手册》（即本文档）

IKAnalyzer2012.jar（主 jar 包）

IKAnalyzer.cfg.xml（分词器扩展配置文件）

stopword.dic（停止词典）

LICENSE.TXT ; NOTICE.TXT （apache 版权申明）

它的安装部署十分简单，将 IKAnalyzer2012.jar 部署于项目的lib目录中；IKAnalyzer.cfg.xml 与 stopword.dic 文件放置在 class 根目录（对于 web 项目，通常是WEB-INF/classes 目录，同 hibernate、log4j 等配置文件相同）下即可。

1. 下载安装

最新版本：IK Analyzer 2012

# 一定要下载FF版本，因为使用的是solr4.0以上版本
$ wget https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/ik-analyzer/IK%20Analyzer%202012FF_hf1.zip

#解压到IK2012目录中，并且不覆盖相同文件
$ unzip -n IKAnalyzer2012_u6.zip -d IK2012

#拷贝jar包到tomcat下solr的工程目录中
$ cp IK2012/IKAnalyzer2012FF_u1.jar /opt/tomcat-8.5.31/webapps/solr/WEB-INF/lib/

#创建classes文件夹
$ mkdir /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes

# 拷贝IKAnalyzer.cfg.xml和stopword.dic到classes文件夹下
$ cp IKAnalyzer.cfg.xml /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/
$ cp stopword.dic /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/

2. 修改配置

修改solr core中schema文件，默认位置：

$ vim /opt/solr-4.10.3/example/solr/collection1/conf/schema.xml

添加如下配置：

同时，把需要分词的字段，设置为text_ik

3. 重启服务

注意：如果之前已经创建了索引，需要将之前的索引删掉，重新创建分词后的索引。

$ /opt/tomcat-8.5.31/bin/shutdown.sh
$ /opt/tomcat-8.5.31/bin/startup.sh

4. 配置扩展词典

1.默认是用的IKAnalyzer分词器内置的词典进行分词的。我们也可以自己配置IKAnalyzer分词器的扩展词典

# 修改IKAnalyzer.cfg.xml文件
$ vim /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/IKAnalyzer.cfg.xml

配置如下


  
  
　　IK Analyzer 扩展配置
　　
　　ext.dic; 
　　
　　stopword.dic;

2.在classes下创建 ext.dic 来配置字典(每一行表示一个整体索引)

$ vim /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/ext.dic

配置如下：

别看我乱我就是索引
哈哈哈
我是第三行

stopword.dic 和 ext.dic 的编码方式为UTF-8 无BOM的编码方式。

3.重启tomcat后测试

私有云混合云中文分词中科院分词器 bosonnlp-中文分词-自然语言处理 IKAnalyzer

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/10670.html

Solr集成IKAnalyzer中文分词器

摘要：安装包包含中文分词器使用手册即本文档主包分词器扩展配置文件停止词典版权申明它的安装部署十分简单，将部署于项目的目录中与文件放置在根目录对于项目，通常是目录，同等配置文件相同下即可。配置扩展词典默认是用的分词器内置的词典进行分词的。前言官网：https://code.google.com/archi... IK Analyzer 2012 FF版本（即For 4.0），在API和功...

red_bricks 2019-08-15 15:56 评论0 收藏0
推荐十款java开源中文分词组件

摘要：最初，它是以开源项目为应用主体的，结合词典分词和文法分析算法的中文分词组件。填补了国内中文分词方面开源组件的空白，致力于此并希翼成为互联网网站首选的中文分词开源组件。中文分词追求分词的高效率和用户良好体验。 1：Elasticsearch的开源中文分词器 IK Analysis(Star:2471) IK中文分词器在Elasticsearch上的使用。原生IK中文分词是从文件系统中读取...

masturbator 2019-08-15 10:37 评论0 收藏0
sorl实现商品快速搜索

摘要：概述是的一个顶级开源项目，采用开发，它是基于的全文搜索服务器。提供了比更为丰富的查询语言，同时实现了可配置可扩展，并对索引搜索性能进行了优化。搜索只需要发送请求，然后对返回等格式的查询结果进行解析，组织页面布局。 Solr概述 Solr 是Apache的一个顶级开源项目，采用Java开发，它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言，同时实现了可...

genefy 2019-06-28 17:06 评论0 收藏0
Solr环境搭建（linux）

摘要：前言官网在版本之前无法作为独立的服务器进行使用需要将其打包为包部署在任何容器内才能使用。从开始可以单独作为一个独立的应用服务器分发使用，内部通过实现。主要将的包部署到的下，再根据的依赖导入相关的包。 1. 前言官网：http://lucene.apache.org/solr 在5.0版本之前,solr无法作为独立的服务器进行使用,需要将其打包为war包部署在任何Servlet容器内才...

ShevaKuilin 2019-08-15 15:53 评论0 收藏0
Solr环境搭建（linux）

摘要：前言官网在版本之前无法作为独立的服务器进行使用需要将其打包为包部署在任何容器内才能使用。从开始可以单独作为一个独立的应用服务器分发使用，内部通过实现。主要将的包部署到的下，再根据的依赖导入相关的包。 1. 前言官网：http://lucene.apache.org/solr 在5.0版本之前,solr无法作为独立的服务器进行使用,需要将其打包为war包部署在任何Servlet容器内才...

caozhijian 2019-05-28 18:43 评论0 收藏0