Welcome to jaever.com/diary

php中文分词的全文检索之配置过程

在上一篇http://www.jaever.com/diary/7/的安装过程成功了,就开始 配置吧:)

因为要进行中文分词,所以就要构造词典:

(为了使用方面,可以添加到全局变量中:path=$HOME/mmseg/bin:$HOME/mmseg/sphinx/bin:$PATH:$HOME/bin
 export path
)

 mmseg -u /path/to/unigram.txt

该命令执行后,将会产生一个名为unigram.txt.uni的文件,将该文件改名为uni.lib,完成词典的构造。需要注意的是,unigram.txt 必须为UTF-8编码。然后, uni.lib移到可以便于访问的目录(我的:/home/someone/dict/uni.lib)

接着,开始copy一份 sphinx/etc/sphinx.conf.dist为sphinx/etc/sphinx.conf,按照配置文件的注释,修改sphinx.conf对应的属性,但为了中文的支持,与注意以下的:

....

charset_dictpath = /Users/tian/Dict/lib
charset_type            = zh_cn.utf-8

....

应该注释掉:

#ngram_len = 1

#ngram_chars =  

# charset_table         = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF....

保存sphinx.conf,执行indexer --config /path/to/sphinx/etc/sphinx.conf somesource(or all 创建全部索引),然后,执行命令search test测试看看是不是ok?

当然,sphinx也提供了php,python,java,rails等API,来使用多语言的应用。目前,我还只有使用php测试过(http://app.chinavisual.com/app/site/seek/search_design可以试用了),不久,准备在jaever上测试python的试用。呵呵,加油!

INFO: 2008-07-03 15:08:01 | purpen | digg | link

Copyright © 2008 Jaever. All rights reserved.

This Site looks and works best when viewed using browsers enabled with JavaScript 1.5 and CSS, such as Firefox 1+ or Safari 3+.