solr3.6 + IKAnalyzer2012安装配置-Solr-开源项目研究-创星网络[分享知识传递快乐]

luinstein 发表于 2012-12-12 12:52:12

solr3.6 + IKAnalyzer2012安装配置

下载solr3.6 + IKAnalyzer2012；将apache-solr-3.6.0\dist\apache-solr-3.6.0.war 拷贝的tomcat webapps目录下，名称改为：solr3.6；将apache-solr-3.6.0\example\solr 目录拷贝的tomcat bin 目录下；启动tomcat，浏览器打开http://127.0.0.1:8086/solr3.6，若正常打开，SOLR安装OK；
将IKAnalyzer2012.jar 拷贝到webapps\solr3.6\WEB-INF\lib 目录；打开tomcat\bin\solr\conf\schema.xml 配置文件；在<types></types> 内加入以下配置：
   <fieldType name="text_cn" class="solr.TextField">
   <analyzer type="index">
         <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"isMaxWordLength="false"/>
            <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
            <filter class="solr.LowerCaseFilterFactory"/>
   </analyzer>
   <analyzer type="query">
         <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>
            <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
            <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
            <filter class="solr.LowerCaseFilterFactory"/>
   </analyzer>
</fieldType>在<fields></fields> 加入以下配置：<field name="cn" type="text_cn" indexed="true" stored="true" omitNorms="true"/>重新启动tomcat，浏览器打开 http://127.0.0.1:8086/solr3.6/admin/analysis.jsp，测试分词切割；
配置中文分词扩展：拷贝stopword.dic，IKAnalyzer.cfg.xml，ext.dic 到webapps\solr3.6\WEB-INF\classes目录；配置IKAnalyzer.cfg.xml: <entry key="ext_dic">ext.dic;</entry> 注意：分词器的词典文件格式是无BOM的UTF-8编码的中文文本文件，文件扩展名不限。词典中，每个中文词汇独立占一行，使用\r\n的DOS方式换行。（注，如果您不了解什么是无BOM的UTF-8格式，请保证您的词典使用UTF-8存储，并在文件的头部添加一空行），可以参考分词器源码org.wltea.analyzer.dic包下的.dic文件。在配置文件中，用户可一次配置多个扩展词典文件，文件名使用“;”号分隔

页: [1]

创星网络[分享知识 传递快乐]'s Archiver

solr3.6 + IKAnalyzer2012安装配置

创星网络[分享知识传递快乐]'s Archiver