创星网络[分享知识传递快乐]

标题: solr3.6 + IKAnalyzer2012安装配置 [打印本页]

作者: luinstein 时间: 2012-12-12 12:52
标题: solr3.6 + IKAnalyzer2012安装配置

下载solr3.6 + IKAnalyzer2012；

将apache-solr-3.6.0\dist\apache-solr-3.6.0.war 拷贝的tomcat webapps目录下，名称改为：solr3.6；

将apache-solr-3.6.0\example\solr 目录拷贝的tomcat bin 目录下；

启动tomcat，浏览器打开http://127.0.0.1:8086/solr3.6，若正常打开，SOLR安装OK；

将IKAnalyzer2012.jar 拷贝到webapps\solr3.6\WEB-INF\lib 目录；

打开tomcat\bin\solr\conf\schema.xml 配置文件；

在<types></types> 内加入以下配置：

<fieldType name="text_cn" class="solr.TextField">
      <analyzer type="index">
         <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"  isMaxWordLength="false"/>
            <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
            <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
      <analyzer type="query">
         <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>
            <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
            <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
            <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
</fieldType>

在<fields></fields> 加入以下配置：

重新启动tomcat，浏览器打开 http://127.0.0.1:8086/solr3.6/admin/analysis.jsp，测试分词切割；

配置中文分词扩展：

拷贝stopword.dic，IKAnalyzer.cfg.xml，ext.dic 到webapps\solr3.6\WEB-INF\classes目录；

配置IKAnalyzer.cfg.xml: <entry key="ext_dic">ext.dic;</entry>

注意：分词器的词典文件格式是无BOM的UTF-8编码的中文文本文件，文件扩展名不限。词典中，每个中文词汇独立占一行，使用\r\n的DOS方式换行。（注，如果您不了解什么是无BOM的UTF-8格式，请保证您的词典使用UTF-8存储，并在文件的头部添加一空行），可以参考分词器源码org.wltea.analyzer.dic包下的.dic文件。在配置文件中，用户可一次配置多个扩展词典文件，文件名使用“;”号分隔

欢迎光临创星网络[分享知识传递快乐] (http://bbs.cxweb.com.cn/)

创星网络[分享知识 传递快乐]

创星网络[分享知识传递快乐]