下载solr3.6 + IKAnalyzer2012; 将apache-solr-3.6.0\dist\apache-solr-3.6.0.war 拷贝的tomcat webapps目录下,名称改为:solr3.6; 将apache-solr-3.6.0\example\solr 目录拷贝的tomcat bin 目录下; 启动tomcat,浏览器打开http://127.0.0.1:8086/solr3.6,若正常打开,SOLR安装OK;
将IKAnalyzer2012.jar 拷贝到webapps\solr3.6\WEB-INF\lib 目录; 打开tomcat\bin\solr\conf\schema.xml 配置文件; 在<types></types> 内加入以下配置: <!-- IKAnalyzer3.2.8 中文分词-->
<fieldType name="text_cn" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType> 在<fields></fields> 加入以下配置: <field name="cn" type="text_cn" indexed="true" stored="true" omitNorms="true"/> 重新启动tomcat,浏览器打开 http://127.0.0.1:8086/solr3.6/admin/analysis.jsp,测试分词切割;
配置中文分词扩展: 拷贝stopword.dic,IKAnalyzer.cfg.xml,ext.dic 到webapps\solr3.6\WEB-INF\classes目录; 配置IKAnalyzer.cfg.xml: <entry key="ext_dic">ext.dic;</entry> 注意:分 词器的词典文件格式是无BOM的UTF-8编码的中文文本文件,文件扩展名不限。词典中,每个中文词汇独立占一行,使用\r\n的DOS方式换行。(注, 如果您不了解什么是无BOM的UTF-8格式, 请保证您的词典使用UTF-8存储,并在文件的头部添加一空行),可以参考分词器源码org.wltea.analyzer.dic包下的.dic文件。 在配置文件中,用户可一次配置多个扩展词典文件,文件名使用“;”号分隔
|