solr3.6 + IKAnalyzer2012安装配置
下载solr3.6 + IKAnalyzer2012;将apache-solr-3.6.0\dist\apache-solr-3.6.0.war 拷贝的tomcat webapps目录下,名称改为:solr3.6;将apache-solr-3.6.0\example\solr 目录拷贝的tomcat bin 目录下;启动tomcat,浏览器打开http://127.0.0.1:8086/solr3.6,若正常打开,SOLR安装OK;将IKAnalyzer2012.jar 拷贝到webapps\solr3.6\WEB-INF\lib 目录;打开tomcat\bin\solr\conf\schema.xml 配置文件;在<types></types> 内加入以下配置:<!-- IKAnalyzer3.2.8 中文分词-->
<fieldType name="text_cn" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"isMaxWordLength="false"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>在<fields></fields> 加入以下配置:<field name="cn" type="text_cn" indexed="true" stored="true" omitNorms="true"/>重新启动tomcat,浏览器打开 http://127.0.0.1:8086/solr3.6/admin/analysis.jsp,测试分词切割;
配置中文分词扩展:拷贝stopword.dic,IKAnalyzer.cfg.xml,ext.dic 到webapps\solr3.6\WEB-INF\classes目录;配置IKAnalyzer.cfg.xml: <entry key="ext_dic">ext.dic;</entry> 注意:分 词器的词典文件格式是无BOM的UTF-8编码的中文文本文件,文件扩展名不限。词典中,每个中文词汇独立占一行,使用\r\n的DOS方式换行。(注, 如果您不了解什么是无BOM的UTF-8格式, 请保证您的词典使用UTF-8存储,并在文件的头部添加一空行),可以参考分词器源码org.wltea.analyzer.dic包下的.dic文件。 在配置文件中,用户可一次配置多个扩展词典文件,文件名使用“;”号分隔
页:
[1]