從本質上來講,計算機只識別二進制代碼,因此,不論計算機程序還是其處理的數據,最終都必須轉化為二進制碼,計算機才能識別。人們給每一個文字符號編碼以便計算機識別處理,這就是計算機字符集的由來。
MySQL5.6支持幾十種字符集,包括UCS-2、UTF-16、UTF-16LE、UTF-32、UTF-8、utf8mb4等Unicode字符集,選擇字符集可以考慮如下幾個因素:
滿足應用支持語言需求,如果應用需要處理各式各樣的文字,應該選擇Unicode編碼,對於MySQL,建議為UTF-8; 如果應用中涉及已有數據導入,要充分考慮數據庫字符集對已有數據的兼容性。 如果數據庫只需要支持一般中文,數據量大,性能要求較高,那可以選擇雙字節定長編碼的中文字符集,比如GBK,因為相對於UTF-8,GBK比較小,每個漢字只占2個字節,utf-8漢字需要3個字節;相反,如果主要處理英文字符,選擇UTF-8更好,因為GBK,UCS-2,UTF-16中的西文字符編碼都是2個字節。 如果數據庫需要做大量的字符運算,選擇定長字符集更好一些。 如果所有的客戶端程序都支持相同的字符集,則優先選擇該字符集作為數據庫的字符集。常用字符集比較:
MySQL字符集系統變量含義如下: