以下的文章那個主要介紹的是MySQL Python 漢字亂碼的正確解決方案,MySQL Python 漢字亂碼在實際操作中帶來很多的不便,以下的文章主要介紹的是MySQL Python 漢字亂碼的正確解決方案。
1.想實現對一個二類文本問題的兩種分類方法,首先要對文檔集合的文本進行分詞,然後建立倒排表,倒排表是借助於MySQL數據庫的,但是有一個眾所周知的事情,MySQL插入漢字會出現各種莫名奇妙的情況,首當其沖是插不進去,而獲是插進去了,但是顯示是亂碼,然後將插入後的數據再讀到程序中仍然是亂碼。
這歸根結底是編碼符號不一致的問題也就是。再解決這個問題的過程中,我參考了一些網站的東東,這裡對他凌亂的內容加以總結,讓和我一樣的菜鳥能夠快速入門。
我們所說的編碼格式一致:可以如下圖所示:character_set_client,character_set_connection,character_set_database,
character_set_results,character_set_server編碼要一致。下面說說如何將這三者調為一致。
1.首先,修改my.ini文件該文件在MySQL安裝目錄下)
(1)修改 my.ini(MySQL Server Instance Configuration 文件)
- # CLIENT SECTION
- [client]
- port=3306
- [MySQL]
- default-character-set=gbk
- # SERVER SECTION
- [MySQLd]
- default-character-set=gbk
然後修改character_set_server 這個是最麻煩的,也是最關鍵的,具體方法如下:
先關掉服務,
DOS-》MySQL安裝目錄,bin
MySQLadmin -u root -p shutdown (回車)然後系統將提示輸入密碼
因為停止MySQL數據庫是需要MySQL的root權限的
然後MySQLd –C GBK啟動服務器 –C是character_set_server的一個簡寫可以也可以寫成MySQLd –character_set_server gbk).
其次,創建新數據庫,方法如下:MySQLCommandLineClient下:
- create database yourDB CHARACTER SET gbk;
- set names 'gbk'
然後重啟將MySQL 服務關掉,再重啟後就可以插入漢字了
完成以上操作後,在MySQLCommandLineClient下輸入 use nlpprocess;(注:我新建的數據庫)
show variables like 'character%'就會出現博文開頭的圖,也就說明字符集設置一致了。
下面我們看看修改後數據庫顯示情況我的系統為MySQL5.1+administrator+querybrowser)
上圖中的數據是C#向MySQL中加入的,需要注意的是鏈接字符串應該如下構造,
- string conmyengine="server=localhost;user=root;database=nlpprocess;port=3306;password=xxxx;charset=gbk";
下面說下MySQL Python如何設置才能正確無誤,沒有亂碼地從數據庫中讀取漢字字段。
MySQL Python讀取有漢字值的表單
- import MySQLdb
- db=MySQLdb.connect(user='root',db='nlpprocess',passwd='xxx',host='localhost')
- cursor=db.cursor()
- select='select term_id,stemroot from nlpinvert where term_id between 10 and 14'
- cursor.execute("set NAMES GBK")
- cursor.execute(select)
- for r in cursor.fetchall():
- print str(r[0])+':'+r[1]
- cursor.close()
- db.close()
結果如下:
以上的相關內容就是對MySQL Python 漢字亂碼的解決方案的介紹,望你能有所收獲。