本站首页    管理页面    写新日志    退出


«July 2025»
12345
6789101112
13141516171819
20212223242526
2728293031


公告
 本博客在此声明所有文章均为转摘,只做资料收集使用。

我的分类(专题)

日志更新

最新评论

留言板

链接

Blog信息
blog名称:
日志总数:1304
评论数量:2242
留言数量:5
访问次数:7566966
建立时间:2006年5月29日




[MySQL]测试mysql的中文搜索[待续] 
软件技术

lhwork 发表于 2007/1/8 10:29:35

软件:最新版:mysql-4.0.27-hi4.tgz(约12MB)MD5:1db4b0327a2551833760773f8e5e6815 1. 下载 点击上面的连接进行下载!2. 安装: tar zxvf mysql-4.0.27-hi4.tgzcd mysql-4.0.27-hi4./configure –prefix=/usr/local/mysql –with-charset=gb2312 –with-extra-charsets=all –enable-hightman-mbftmake -j 16make installcd /usr/local/mysql;bin/mysql_install_db –user=mysql;chown -R root .;chown -R mysql var;chgrp -R mysql .; 3. 拷入词库文件 (可自行定制, 格式参照源码目录下的: README.hightman_mbft 说明吧)其中的 $PREFIX 为编译时 configure 指定的参数 –prefix ,请勿照抄:cp -f support-files/wordlist-gbk.txt $PREFIX/share/mysql/cp -f support-files/stopwords-gbk.txt $PREFIX/share/mysql/ 4. 修改 /etc/my.cnf 在 [mysqld] 位置内加入: ft_wordlist_charset = gbkft_wordlist_file = $PREFIX/share/mysql/wordlist-gbk.txtft_stopword_file = $PREFIX/share/mysql/stopwords-gbk.txtft_min_word_len = 2ft_nlq_match_percent = 80ft_nlq_match_maxnum = 5000 说明:ft_wordlist_charset 表示词典的字符集, 目前支持良好的有(UTF-8, gbk, gb2312, big5, EUC_CN, EUC_TW …)ft_wordlist_file 是词表文件, 每行包括一个词及其词频(用若干制表符或空格分开,消岐专用)ft_stopword_file 表示过滤掉不索引的词表, 一行一个.ft_min_word_len 加入索引的词的最小长度, 缺省是 4, 为了支持中文单字故改为 2ft_nlq_match_percent 表示检索结果的匹配度, 原先 mysql 默认只要匹配查询词其中一个即满足条件返回, 我加了一个参数来控制, 100 表示要匹配所有词才返回, 默认是 50即匹配一半, 以免干扰结果太多ft_nlq_match_maxnum 经过大量测试当一次检索返回的结果集过大时严重影响性能,此参数可调节每个关键词最多只匹配几个记录即不再往下匹配,其实一次返回太多记录也没有意义,对用户来说起不到“检索”筛选的作用了。 5. 重启 mysqld 服务器$PREFIX/share/mysql/mysql.server stop$PREFIX/share/mysql/mysql.server start以上是完成了安装,测试将待续…


阅读全文(6962) | 回复(0) | 编辑 | 精华
 



发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.047 second(s), page refreshed 144768583 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号