相信很多人都研究過MYSQL的中文全文索引問題,目前MYSQL不支持中文全文索引,無奈~~~
網上找了N多關於PHP+MYSQL中文全文索引的文章都沒有一個好用的,對於一般的菜鳥根本不知道怎麼使用,PHP中文分詞有DDEDE的,DEDE的詞庫不是很強大,還算可以用吧!
還有一個是《SCWS - 簡易中文分詞系統》這個目前對於一般菜鳥根本不知道怎麼用,雖然有人編譯了Windows版的,但安裝還是挺麻煩的,我尚未測試過!
//==========================
廢話不多說了,首先去DEDE下載分詞算法函數和詞庫;下載地址:http://www.dedecms.com/html/chanpinxiazai/20061229/3.html
裡面有詳細的使用說明,我在這裡舉一個使用的例子;
MYSQL表名:music
字段:title,tag
require("lib_splitword_full.php");
$str = "這裡是你要分詞的內容,一般不要超過1024KB會好一點,否則會很慢!";
$sp = new SplitWord();//實例化
$dd = explode(" ",$sp->SplitRMM($str));
$i=0;
foreach ($dd as $key=>$var) {
if (strlen($var)>2)//UTF8編碼的請設置為3,因為UTF8編碼的中文一般為3個字節以上,過濾單個字不保存!
{
$str.=base64_encode($var)." ";//由於MYSQL不支持中文全文索引,所以在分詞中我們必須把詞轉換成字母或者數字,這裡我選擇了base64編碼
//當然大家還可以把中文轉成區碼,但我測試過區碼的方法,感覺很一般,所以在這樣我推薦大家使用base64
$i++;
}
if ($i>=50) break;//這裡是設置你要存儲多少個詞組,如果是文章可能會有N多詞組,你可以設置大一點,但如果你對標題分詞的話,50個已經足夠了!
//這樣運行未編碼得出來的結果:這裡 分詞 內容 一般 不要 超過 1024KB 一點 否則
//base64編碼後的結果:1eLA7w== t9a0yg== xNrI3Q== 0ruw4w== srvSqg== s6y5/Q== MTAyNEtC 0ru14w== t/HU8g==
}
?>
這樣我們就可以把分好詞而且轉換成編碼的分詞存進 tag 字段了,當然tag字段必須設置成全文索引 full text 而且數據表類型必須為MyISAM。
tag字段數據類型為CHAR和VARCHAR、text,有關如何創建MYSQL全文索引,大家可以搜索一下《mysql創建索引》遍地開花,到處都是!
下面的例子是根據TAG字段的內容進行全文索引查詢:
include("Mysql.class.php");
$rs = $DB->get_one("select title,tag from music where id=$id");//根據ID讀取title和tag字段內容
$title = $rs['title'];
$sql = $DB->query("select title,MATCH(tag) AGAINST('".trim($rs['tag'])."' IN BOOLEAN MODE) AS score from music where MATCH(tag) AGAINST('".trim($rs['tag'])."' IN BOOLEAN MODE) ORDER BY score DESC limit 21");//這裡是查詢20條相似的內容,而且按相似的排序,21是因為同一條記錄都會匹配出來!
while ($rs = $DB->fetch_array($sql))
{
if ($rs['title']!=$title)
{
echo $rs['title']."
";
}
}
$DB->close();
?>
如果大家想看效果可以到我的小站看演示:http://www.dj965.com
以上的例子就實現了PHP+MYSQL簡單的中文分詞全文索引!
希望對跟我一樣的菜鳥有一定的幫助吧!
本人BLOG:http://hi.baidu.com/web20/
文章來自:http://www.admin5.com/article/20080717/94313.shtml