全文索引是mysql數據庫索引的一種,全文索引可以快速的實現全文的搜索,它的類型為fulltext了,下面我們一起來看看MySQL創建全文索引的創建與mysql配置全文索引的方法,希望本文章對大家有幫助。
使用索引是數據庫性能優化的必備技能之一。在MySQL數據庫中,有四種索引:聚集索引(主鍵索引)、普通索引、唯一索引以及我們這裡將要介紹的全文索引(FULLTEXT INDEX)。
全文索引(也稱全文檢索)是目前seo搜索引擎使用的一種關鍵技術。它能夠利用“分詞技術“等多種算法智能分析出文本文字中關鍵字詞的頻率及重要性,然後按照一定的算法規則智能地篩選出我們想要的搜索結果。在這裡,我們就不追根究底其底層實現原理了,現在我們來看看在MySQL中如何創建並使用全文索引。
全文索引只能在MyISAM數據表中創建 少於3個字符的單詞不會被包含在全文索引裡,可以通過修改my.cnf修改選項
ft_min_word_len=3
重新啟動MySQL服務器,用
repair table tablename quick 為有關數據表重新生成全文索引
select * from tablename
where match(column1,column2) against('word1 word2 word3')>0.001
match ... against 把column1,column2數據列中至少包含word1,word2,word3三個單詞之一的數據記錄查找到,在關鍵字match後的數據列必須跟創建全文索引的數據列相同,檢索詞不區分大小寫和先後順序,少於3個字符的單詞通常被忽略。match... against ...表達式返回一個浮點數作為它本身的求值結果,這個數字反映了結果記錄與被檢索單詞的匹配程度。如果沒有匹配到任何記錄,或者匹配到的結果記錄太多反而被忽略,表達式將返回0,表達式>0.001的作用是排除match的返回值太小的結果記錄。
select *,match(column1,column2) against ('word1 word2 word3') as mtch
from tablename
having mtch>0.01
order by mtch desc
limit 5
找出最匹配的5條記錄,在where字句中不能使用假名,所以用having
創建全文索
在MySQL中,創建全文索引相對比較簡單。例如,我們有一個文章表(article),其中有主鍵ID(id)、文章標題(title)、文章內容(content)三個字段。現在我們希望能夠在title和content兩個列上創建全文索引,article表及全文索引的創建SQL語句如下:
代碼如下 復制代碼 --創建article表
上面就是在創建表的同時建立全文索引的SQL示例。此外,如果我們想要給已經存在的表的指定字段創建全文索引,同樣以article表為例,我們可以使用如下SQL語句進行創建:
代碼如下 復制代碼 --給現有的article表的title和content字段創建全文索引
--索引名稱為fulltext_article
ALTER TABLE article
ADD FULLTEXT INDEX fulltext_article (title, content)
在MySQL中創建全文索引之後,現在就該了解如何使用了。眾所周知,在數據庫中進行模糊查詢是使用LIKE關鍵字進行查詢,例如:
代碼如下 復制代碼SELECT * FROM article WHERE content LIKE '%查詢字符串%'
那麼,我們使用全文索引也是這樣用的嗎?當然不是,我們必須使用特有的語法才能使用全文索引進行查詢。例如,我們想要在article表的title和content列中全文檢索指定的查詢字符串,可以如下編寫SQL語句:
代碼如下 復制代碼SELECT * FROM article WHERE MATCH(title, content) AGAINST('查詢字符串')
強烈注意:MySQL自帶的全文索引只能用於數據庫引擎為MyISAM的數據表,如果是其他數據引擎,則全文索引不會生效。此外,MySQL自帶的全文索引只能對英文進行全文檢索,目前無法對中文進行全文檢索。如果需要對包含中文在內的文本數據進行全文檢索,我們需要采用Sphinx(斯芬克斯)/Coreseek技術來處理中文。本站將會在後續文章中對Sphinx以及Coreseek進行介紹
。
備注1:目前,使用MySQL自帶的全文索引時,如果查詢字符串的長度過短將無法得到期望的搜索結果。MySQL全文索引所能找到的詞的默認最小長度為4個字符。另外,如果查詢的字符串包含停止詞,那麼該停止詞將會被忽略。
備注2:如果可能,請盡量先創建表並插入所有數據後再創建全文索引,而不要在創建表時就直接創建全文索引,因為前者比後者的全文索引效率要高。