一個有趣的問題——MySQL中varchar的最大長度
明明維護了一個1k的最小堆,可是輸出到MySQL裡卻只有九百多行數據。
查log,發現這麼一段內容:
01 stderr logs 02 com.mysql.jdbc.MysqlDataTruncation: Data truncation: Data too long for column 'reqs' at row 1 03 at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:3595) 04 at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:3529) 05 at com.mysql.jdbc.MysqlIO.sendCommand(MysqlIO.java:1990) 06 at com.mysql.jdbc.MysqlIO.sqlQueryDirect(MysqlIO.java:2151) 07 at com.mysql.jdbc.ConnectionImpl.execSQL(ConnectionImpl.java:2625) 08 at com.mysql.jdbc.PreparedStatement.executeInternal(PreparedStatement.java:2119) 09 at com.mysql.jdbc.PreparedStatement.executeUpdate(PreparedStatement.java:2415) 10 at com.mysql.jdbc.PreparedStatement.executeUpdate(PreparedStatement.java:2333) 11 at com.mysql.jdbc.PreparedStatement.executeUpdate(PreparedStatement.java:2318) 12 at com.successfactors.perflog.hadoop.mapreduce.core.ParseRecordToDB$RecordReducer.insertData(Unknown Source) 13 at com.successfactors.perflog.hadoop.mapreduce.core.ParseRecordToDB$RecordReducer.cleanup(Unknown Source) 14 at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:178) 15 at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:649) 16 at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:417) 17 at org.apache.hadoop.mapred.Child$4.run(Child.java:255) 18 at java.security.AccessController.doPrivileged(Native Method) 19 at javax.security.auth.Subject.doAs(Subject.java:415) 20 at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121) 21 at org.apache.hadoop.mapred.Child.main(Child.java:249)
看來是column的最大長度不夠,查看DDL:
01 CREATE TABLE `record` ( 02 `eid` varchar(100) NOT NULL, 03 `module` varchar(32) NOT NULL, 04 `stime` int(11) NOT NULL, 05 `edate` varchar(32) NOT NULL, 06 `fname` varchar(100) NOT NULL, 07 `event` varchar(500) NOT NULL, 08 `reqs` varchar(10000) NOT NULL, 09 PRIMARY KEY (`eid`) 10 ) ENGINE=InnoDB DEFAULT CHARSET=utf8;
我都一萬了還不夠,試下65535吧! 發現varchar直接變成mediumtext了,這可不對。那就試試22222吧 又報錯了... 最後我設置為20000長度了,倒是通過了,通過一個復雜的減法可以計算更為臨界的值。 去網上查查,發現MySQL裡column的最大長度貌似跟很多東西有關,跑去問公司的DBA,貌似oracle是另一套機制。 附一篇別人的文章,講最大值的: http://www.BkJia.com/database/201210/159610.html
01 這不是一個固定的數字。本文簡要說明一下限制規則。 02 03 strlen 計算字符串長度,一個中文當2字符 04 05 mb_strlen根據它的字符編碼模式,統計字符quot 06 07 count計算數組中的元素數目或對象中的屬性個數 08 09 <?php 10 header('Content-Type:text/html;charset=UTF-8'); 11 $string1="謝春業";//定義中文字符變量 12 $string2="xcy";//定義英文字符變量 13 //直接輸出看看他們的長度 14 echo strlen($string1); 15 echo "</br>"; 16 echo strlen($string2); 17 echo "</br>"; 18 //用 php 多字節擴展函數 mb_strlen試試看 19 echo mb_strlen($string1,'utf8'); 20 echo "</br>"; 21 echo mb_strlen($string2,'utf8'); 22 echo "</br>"; 23 ?> 24 25 輸出結果是: 26 9 27 3 28 3 29 3 30 1、限制規則 31 32 字段的限制在字段定義的時候有以下規則: 33 34 a) 存儲限制 35 36 varchar 字段是將實際內容單獨存儲在聚簇索引之外,內容開頭用1到2個字節表示實際長度(長度超過255時需要2個字節),因此最大長度不能超過65535。 37 38 b) 編碼長度限制 39 40 字符類型若為gbk,每個字符最多占2個字節,最大長度不能超過32766; 41 42 字符類型若為utf8,每個字符最多占3個字節,最大長度不能超過21845。 43 44 對於英文比較多的論壇 ,使用GBK則每個字符占用2個字節,而使用UTF-8英文卻只占一個字節。 45 46 若定義的時候超過上述限制,則varchar字段會被強行轉為text類型,並產生warning。 47 48 c) 行長度限制 49 50 導致實際應用中varchar長度限制的是一個行定義的長度。 MySQL要求一個行的定義長度不能超過65535。若定義的表長度超過這個值,則提示 51 52 ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535. You have to change some columns to TEXT or BLOBs。 53 54 2、計算例子 55 56 舉兩個例說明一下實際長度的計算。 57 58 a) 若一個表只有一個varchar類型,如定義為 59 60 create table t4(c varchar(N)) charset=gbk; 61 62 則此處N的最大值為(65535-1-2)/2= 32766。 63 64 減1的原因是實際行存儲從第二個字節開始’; 65 66 減2的原因是varchar頭部的2個字節表示長度; 67 68 除2的原因是字符編碼是gbk。 69 70 71 72 b) 若一個表定義為 73 74 create table t4(c int, c2 char(30), c3 varchar(N)) charset=utf8; 75 76 則此處N的最大值為 (65535-1-2-4-30*3)/3=21812 77 78 減1和減2與上例相同; 79 80 減4的原因是int類型的c占4個字節; 81 82 減30*3的原因是char(30)占用90個字節,編碼是utf8。 83 84 如果被varchar超過上述的b規則,被強轉成text類型,則每個字段占用定義長度為11字節,當然這已經不是“varchar”了。