Mysql中文亂碼以及導出為sql語句和Excel問題解決
這幾天基於Heritrix寫了一個爬蟲,用到mysql,在導入導出數據時,遇到一些亂碼問題,好不容易解決了,記錄一下,以備查看。
一、導出數據。
先說明一下自己的環境:Mac OS X 10.8.3, MySQL Community Server 5.6.10, MySQL Workbench 5.2.47。
我想把本機數據庫內的數據遷移到另一台機器上,於是使用Workbench中自帶的import/export功能,其實就是調用mysqldump。不幸的是,出現了版本不一致的錯誤。
錯誤沒治了,最終找到解決方案,可以指定mysql的mysqldump,路徑為:/usr/local/mysql/bin/mysqldump,這樣是把數據導出為sql語句的insert語句。
由於需要是把數據導出為excel,所以通過mysql控制台使用select語句把數據導出到excel文件中。
下面先介紹怎麼導出為excel文件,然後介紹怎麼導出為insert語句。
1、通過終端操作。
1 cd /usr/local/mysql/bin/
2、到達bin目錄後,可以ls -l命令看看當前目錄有哪些程序可以用,這裡先用mysql,命令格式為:
mysql -h主機IP -u用戶名 -p密碼
如:
1 ./mysql -hlocalhost -uroot -p123456
注意前面加的"./"。
這時就進入mysql命令控制台,終端上顯示為:
3、然後通過show databases命令查看當前的所有數據庫,使用use命令選擇進入某個數據庫,注意每個命令都要以英文分號“;”結束。
4、使用sql語句導出需要的數據,sql語句不限於單個表的查詢。由於我的數據庫編碼是utf8格式,而office默認的編碼則是gb2312,所以當某個字段中包含中文時,導出到excel後,中文內容是會亂碼的,此時需要convert轉換編碼,具體使用方式:
我試著把文件保存到桌面,但始終提示沒有權限,應該是和用戶有關吧,無視了。當使用“./”這個路徑保存時,實際是保存到了/usr/local/mysql/data下面。打開看看,喲西,不亂碼了。
5、下面是把數據導出為sql的insert語句。
使用mysqldump命令,可以指定是單個表還是整個數據庫導出。
打開終端,定位到/usr/local/mysql/bin,使用這個目錄下的mysqldump。
導出單個表:
命令格式為:
mysqldump -u用戶名 -p密碼 -h主機地址 數據庫名 表名 > 導出文件存儲路徑
例如:
/usr/local/mysql/bin/mysqldump -uroot -p123456 -hlocalhost -t --extended-insert=false --default-character-set=utf8 SpiderBBSDB Catalog > /Users/ethan/Desktop/Catalog.sql
其中用到了幾個參數,簡單說明一下:
-t:等同於--no-create-info,只導出數據,而不添加CREATE TABLE 語句。默認導出的文件中也有create table語句。
--extended-insert:使用具有多個VALUES列的INSERT語法,也就是傳說中一次插入多條數據的INSERT句式。這樣使導出文件更小,並加速導入時的速度,但是有可能sql語句會有長度限制,所以我並不推薦此種方式,比如我某個表中有500W條數據,難保能用一條insert語句可以執行完畢。此選項默認為打開狀態,把他置為false,就是一條數據一個insert語句了。
--default-character-set:設置默認字符集,由於我的數據庫和表均是設定為utf8編碼格式,當不設置此選項時,導出的中文是亂碼,奇怪的是官方說明中,說這個選項的默認值是utf8,表示不解。
導出整個數據庫:
/usr/local/mysql/bin/mysqldump -uroot -p123456 -hlocalhost -t --extended-insert=false --default-character-set=utf8 SpiderBBSDB > /Users/ethan/Desktop/SpiderBBSDB.sql
二、導入數據。
有導出就有導入。上面第5步導出的sql文件,可以直接在mysql workbench中執行,也可以使用mysqldump導入,這裡說明一下如何使用mysqldump導入:
/usr/local/mysql/bin/mysqldump -uroot -p123456 -hlocalhost --default-character-set=utf8 SpiderBBSDB < /Users/ethan/Desktop/Catalog.sql
三、關於java連接mysql寫入中文亂碼。
關於這個中文亂碼問題,著實折騰了我好久好久。一開始就百度谷歌bing,網上大多復制粘貼的答案,在這裡記錄一下自己的情況,希望同路人不再走彎路。
其實我的修改很簡單,把數據庫的編碼改為utf-8,在新建表時,把表的默認編碼也改為utf-8,就可以了。就這麼個小小的改動,讓我足足折騰了一個通宵,表示有解決問題強迫症,問題不解決真的睡不著,唉~~~
四、總結。
似乎很多領導做報告都喜歡加個總結,說上一堆廢話,雖然回回都聽不懂,但感覺很厲害的樣子。於是我也加一個總結:中文亂碼真特麼折騰人,這些年跟你斗爭了好多回了,好了,總結完畢。