這是一套基於詞頻詞典的機械中文分詞引擎,它能將一整段的漢字基本正確的切分成詞。詞是漢語的基本語素單位,而書寫的時候不像英語會在詞之間用空格分開,所以如何准確而又快速的分詞一直是中文分詞的攻關難點。
由於使用PHPCMS,網站配置中發現有這樣一個自動的中文分詞,好東西豈能不用。現將安裝過程來詳細記錄,絕大部分文字資料都是來源於SCWS的官網,本人只是加入了一些實際操作過程中的不同,方便表述更加准確詳細。
1. 取得 scws-1.0.4 的代碼
wget http://www.ftPHP.com/scws/down/scws-1.0.4.tar.bz2 2. 解開壓縮包
[hightman@d1 ~]$ tar xvjf scws-1.0.4.tar.bz2 3. 進入目錄執行配置腳本和編譯
[hightman@d1 ~]$ cd scws-1.0.4
[hightman@d1 ~/scws-1.0.4]$ ./configure --prefix=/usr/local/scws ; make ; make install這個地方,從configure開始就會出現眾多的Warning,提示你什麼什麼東西沒有,沒有問題,不會對安裝有任何影
響,繼續下一步就行了。 注:這裡和通用的 GNU 軟件安裝方式一樣,具體選項參數執行 ./configure --help 查看。 --prefix=<scws的安裝目錄>
--disable-mmap <這表示禁用 MMAP 來讀取 xdb,在 debian, ubuntu 的部分 Linux 中建議關閉 mmap>
--enable-developer <這表示以開發者模式編譯,主要是用於調試編譯時加入了 -g 選項及部分標准輸出的信息> 4. 順利的話已經編譯並安裝成功到 /usr/local/scws 中了,執行下面命令看看文件是否存在
[hightman@d1 ~/scws-1.0.4]$ ls -al /usr/local/scws/lib/libscws.la 5. 試試執行 scws-cli 文件
[hightman@d1 ~/scws-1.0.4]$ /usr/local/scws/bin/scws -h
scws (scws-cli/1.0.4)
Simple Chinese Word Segmentation - Command line usage.
Copyright (C)2007 by hightman.
... 6 用 wget 下載並解壓詞典,或從主頁下載然後自行解壓再將 *.xdb 放入 /usr/local/scws/etc 目錄中
[hightman@d1 ~/scws-1.0.4]$ cd /usr/local/scws/etc
[hightman@d1 /usr/local/scws/etc]$ wget http://www.ftPHP.com/scws/down/scws-dict-chs-gbk.tar.bz2
[hightman@d1 /usr/local/scws/etc]$ wget http://www.ftPHP.com/scws/down/scws-dict-chs-utf8.tar.bz2
[hightman@d1 /usr/local/scws/etc]$ tar xvjf scws-dict-chs-gbk.tar.bz2
[hightman@d1 /usr/local/scws/etc]$ tar xvjf scws-dict-chs-utf8.tar.bz2 7. 寫個小程序測試一下
[hightman@d1 ~]$ cat > test.c
#include <scws.h>
#include <stdio.h>
main() scws_t s;
s = scws_new();
scws_free(s);
printf("test ok!\n");
}這個地方其實用VIM來編寫這個test.c也是一樣的,關鍵是測試SCWS安裝成功了沒有。 8. 編譯測試程序
gcc -o test -I/usr/local/scws/include -L/usr/local/scws/lib test.c -lscws -Wl,--rpath -Wl,/usr/local/scws/lib
./test 9. 這樣就好順利安裝完畢可以使用 libscws 這套 C-API 了 10. 如果您需要在 php 中調用分詞,建議繼續閱讀本文安裝 PHP 擴展,否則可跳過不看。 假設您已經將 scws 按上述步驟安裝到 /usr/local/scws 中。
安裝此擴展要求您的 php 和系統環境安裝了相應的 autoconf automake 工具及 phpize 。 1) 進入源碼目錄的 phpext/ 目錄 ( cd ~/scws-1.0.4 ) 這個地方的目錄其實應該是/tmp/scws-1.0.4/PHPext/,如果你是按照上面的步驟來的話,要是不是就定位到剛
開始,scws的源代碼包解壓的地方就行 2) 執行 phpize (在PHP安裝目錄的bin/目錄下) 還是在剛剛提到的那個目錄下執行PHPize,不要跳出去 3) 執行 ./configure --with-scws=/usr/local/scws
若 php 安裝在特殊目錄 $php_prefix, 則請在 configure 後加上 --with-php-config=$php_prefix/bin/PHP-config
4) 執行 make 然後用 root 身份執行 make install
5) 在 php.ini 中加入以下幾行 [scws] ; 注意請檢查 PHP.ini 中的 extension_dir 的設定值是否正確, 否則請將 extension_dir 設為空,
; 再把 extension = scws.so 指定絕對路徑。 extension = scws.so
scws.default.charset = gbk
scws.default.fpath = /usr/local/scws/etc 6) 命令行下執行 php -m 就能看到 scws 了或者在 PHPinfo() 中看看關於 scws 的部分,記得要重啟 web 服務器
才能使新的 PHP.ini 生效。
7) 這樣就算安裝完成了,余下的工作只是PHP代碼編寫問題了。
關於 PHP 擴展的使用說明請參看代碼中 phpext/PHP_scws_manual.txt 文件或其它文檔章節。