kettle向sql裡面插入,更新時,也要建立索引,可以大大提升處理時間。
但是建立索引報錯:Specified key was too long; max key length is 1000 bytes
這是mysql中,索引字段的類型設置的總體過長,看一下fields裡面字段類型,總體加起來不超過1000字節
注意,字段長度,是char長度乘以自身字段類型的位數,累加和不能超過限定的key長1000:
latin1 = 1 byte = 1 character
uft8 = 3 byte = 1 character
gbk = 2 byte = 1 character
以GBK為例:
CREATE UNIQUE INDEX `unique_record` ON reports (`report_name`, `report_client`, `report_city`);
其中report_name varchar(200), report_client varchar(200), report_city varchar(200)
(200 + 200 +200) * 2 = 1200 > 1000,就會報1071錯誤,只要將report_city改為varchar(100)那麼索引就能成功建立。
但如果表是UTF8字符集,那索引還是建立不了,因此要乘以3。
KEY `idx_1` (`packagename`,`storename`,`app_name`,`version`,`category`,`app_link_hash`) USING BTREE
字段類型都是utf8,乘3後,超過1000。
我建的表,字段長度超了,而數據不能動,所以就用了一下小技巧:
1,applink字段要200以上,用了必超。解決辦法:將applink用MD5算法,轉換為特定長度的applink_hash碼(32位長),一一對應,長度特定,用這個新字段只有32位就行了。排除過長字段,轉換成特定hashcode,一一對應。
2,kettle插入時分析唯一key。字段之間關系,很多字段聯合起來可以唯一確定某個字段,那這個字段就不用出現在索引中。kettle插入時就不用去比對這個字段
3,改成小字段的兼容類型。如果字段內容,允許,也就是包含的內容,很少,比如utf8的類型,可以修改成gbk,就可以省去一個字段。但是數據內容必須能被gbk包含,否則,內容不識別,插進去也沒用。