機器人 小叮咚的中文分詞終於跨出了第一步
主頁: http://xiaodingdong.myshow.cn/index.ASP
網絡上有很多算法,借鑒了一下,然後自己用最普通得方法做了一個分詞
現在還沒有和小叮咚集成,等效果比較滿足後,加入小叮咚得問答程序組件。
原理是:
對 待解析得句子(長度N)做N次循環
在每次循環中尋找從當前開始位置開始出現的最大詞組
(遞歸實現,先判定第一個,比如“我”,假如存在,把“我們”加起來判定,以此類推....)
找到後返回最大詞組,並跳躍到最大詞組後得字 重復循環
下面是分詞的效果
s = "我們要好好學習天天向上,努力工作,真想睡覺!";
我們要好好學習天天向上
s = "網站計數器都是一種最簡單的網絡程序應用";
網站計數器都是一種最簡單的網絡程序應用
s="對我們來說他是一個創造尊嚴的人一個帶來快樂的人一個與許多巴勒斯坦人相比生活異常簡單的人他帶給巴勒斯坦希望這是難以失去他的真正原因";
對我們來說他是一個創造尊嚴的人一個帶來快樂的人一個與許多巴勒坦人相比生活異常簡單的人他帶給巴勒坦希望這是難以失去他的真正原因