创星网络[分享知识 传递快乐]

标题: solr3.6 + IKAnalyzer2012安装配置 [打印本页]

作者: luinstein    时间: 2012-12-12 12:52
标题: solr3.6 + IKAnalyzer2012安装配置

下载solr3.6 + IKAnalyzer2012;

将apache-solr-3.6.0\dist\apache-solr-3.6.0.war 拷贝的tomcat webapps目录下,名称改为:solr3.6;

将apache-solr-3.6.0\example\solr 目录拷贝的tomcat bin 目录下;

启动tomcat,浏览器打开http://127.0.0.1:8086/solr3.6,若正常打开,SOLR安装OK;


将IKAnalyzer2012.jar 拷贝到webapps\solr3.6\WEB-INF\lib 目录;

打开tomcat\bin\solr\conf\schema.xml 配置文件;

在<types></types> 内加入以下配置:

  <!-- IKAnalyzer3.2.8 中文分词-->
        <fieldType name="text_cn" class="solr.TextField">
        <analyzer type="index">
            <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"  isMaxWordLength="false"/>
                <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
                <filter class="solr.LowerCaseFilterFactory"/>
        </analyzer>
        <analyzer type="query">
            <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>
                <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
                <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
                <filter class="solr.LowerCaseFilterFactory"/>
        </analyzer>   
    </fieldType>

在<fields></fields> 加入以下配置:

<field name="cn" type="text_cn" indexed="true" stored="true" omitNorms="true"/>

重新启动tomcat,浏览器打开 http://127.0.0.1:8086/solr3.6/admin/analysis.jsp,测试分词切割;


配置中文分词扩展

拷贝stopword.dic,IKAnalyzer.cfg.xml,ext.dic 到webapps\solr3.6\WEB-INF\classes目录;

配置IKAnalyzer.cfg.xml: <entry key="ext_dic">ext.dic;</entry>

注意:分 词器的词典文件格式是无BOM的UTF-8编码的中文文本文件,文件扩展名不限。词典中,每个中文词汇独立占一行,使用\r\n的DOS方式换行。(注, 如果您不了解什么是无BOM的UTF-8格式, 请保证您的词典使用UTF-8存储,并在文件的头部添加一空行),可以参考分词器源码org.wltea.analyzer.dic包下的.dic文件。 在配置文件中,用户可一次配置多个扩展词典文件,文件名使用“;”号分隔







欢迎光临 创星网络[分享知识 传递快乐] (http://bbs.cxweb.com.cn/) Powered by Discuz! X3