程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> 關於PHP編程 >> PHP中文分詞工具ICTCLAS的使用介紹

PHP中文分詞工具ICTCLAS的使用介紹

編輯：關於PHP編程

對於中文搜索引擎來說，中文分詞是整個系統最基礎的部分之一，因為目前基於單字的中文搜索算法並不是太好。當然，本文不是要對中文搜索引擎做研究，而是分享如果用 PHP 做一個站內搜索引擎。本文是這個系統中的一篇。

我使用的分詞工具是中科院計算所的開源版本的 ICTCLAS。另外還有開源的 Bamboo，我隨後也會對該工具進行調研。

從 ICTCLAS 出發是個不錯的選擇，因為其算法傳播比較廣泛，有公開的學術文檔，並且編譯簡單，庫依賴少。但目前只提供了 C/C++， Java 和 C# 版本的代碼，並沒有 PHP 版本的代碼。怎麼辦呢? 也許可以學習它的 C/C++ 源碼和學術文檔中，然後再開發一個 PHP 版本出來。不過，我要使用進程間通信，在 PHP 代碼裡調用 C/C++ 版本的可執行文件。

下載源碼解壓後，在有 C++ 開發庫和編譯環境的機器上直接 make ictclas 即可。它的 Makefile 腳本有個錯誤，執行測試的代碼沒有加上'。/'，當然不能像 Windows 下執行成功了。但也不影響編譯結果。

進行中文分詞的 PHP 類就在下面了，用 proc_open() 函數來執行分詞程序，並通過管道和其交互，輸入要進行分詞的文本，讀取分詞結果。

<?php
class NLP{
    private static $cmd_path;
    // 不以'/'結尾
    static function set_cmd_path($path){
        self::$cmd_path = $path;
    }
    private function cmd($str){
        $descriptorspec = array(
           0 => array("pipe", "r"),
           1 => array("pipe", "w"),
        );
        $cmd = self::$cmd_path . "/ictclas";
        $process = proc_open($cmd, $descriptorspec, $pipes);
        if (is_resource($process)) {
            $str = iconv('utf-8', 'gbk', $str);
            fwrite($pipes[0], $str);
            $output = stream_get_contents($pipes[1]);
            fclose($pipes[0]);
            fclose($pipes[1]);
            $return_value = proc_close($process);
        }
        /*
        $cmd = "printf '$input' | " . self::$cmd_path . "/ictclas";
        exec($cmd, $output, $ret);
        $output = join("\n", $output);
        */
        $output = trim($output);
        $output = iconv('gbk', 'utf-8', $output);
        return $output;
    }
    /**
     * 進行分詞, 返回詞語列表.
     */
    function tokenize($str){
        $tokens = array();
        $output = self::cmd($input);
        if($output){
            $ps = preg_split('/\s+/', $output);
            foreach($ps as $p){
                list($seg, $tag) = explode('/', $p);
                $item = array(
                    'seg' => $seg,
                    'tag' => $tag,
                    );
                $tokens[] = $item;
            }
        }
        return $tokens;
    }
}
NLP::set_cmd_path(dirname(__FILE__));
?>

使用起來很簡單(確保 ICTCLAS 編譯後的可執行文件和詞典在當前目錄)：

<?php
require_once('NLP.php');
var_dump(NLP::tokenize('Hello, World!'));
?>

上一頁:從兩種handler看PHP的session機制
下一頁:從Discuz裡拿出來的PHP字符串加密函數

關於PHP編程

為 PHP 開發者准備的 12 個調試工具

PHP是在實踐中發展迅速並被最多使用的腳本語言；包含了諸如詳

PHP5.X主要版本性能比對測試

下圖展示的是 PHP 不同版本的性能測試，用的是 be

PHP生成條形圖的方法，php生成條形

PHP生成條形圖的方法，php生成條形本文實例講述了PHP

網站開發系列1——服務器環境搭建，網站開發搭建

網站開發系列1——服務器環境搭建，網站開發搭建　　首先，這系

ajax跨域往php程序post數據時，php程序總是執行兩次的解決方法，ajaxpost

ajax跨域往php程序post數據時，php程序總是執行兩

仿牛華數碼頻道網整站源碼，牛華數碼頻道

仿牛華數碼頻道網整站源碼，牛華數碼頻道仿牛華數碼頻道網整站源

閱讀排行榜

綁定 PHP實現顯示照片exif信息的方法 PHP.MVC的模板標簽系統(二) 建立動態的WML站點(三) PHP定時執行任務的3種方法詳解，第二節對象模型 [2] php字符串中查找字符 PHP中如何在輸出內容後再輸出頭信息? PHP程序漏洞產生的原因分析與防范方法說明 php實現對象克隆的方法，php對象克隆 Deprecated: Function set_magic_quotes_runtime() is deprecate

熱門圖文

再學GDI+[49](2) httputils-xutils的http請求結果 [C++基礎]C++4個轉型操作符——數據類型轉換 PHP中常用的幾個mysql語句 uva 12034 Race PHP中使用imagick實現把PDF轉成圖片， C語言編程時常犯十八個錯誤小結淺析SVN常見問題及解決方法

欄目導航

PHP基礎知識 PHP綜合 PHP入門知識關於PHP編程