程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 數據庫知識 >> SqlServer數據庫 >> 關於SqlServer >> MySql更新優化策略

MySql更新優化策略

編輯:關於SqlServer

模擬場景一:

給數據庫中的一張表的結構調整,添加幾個字段,後面對之前的數據進行刷新,刷新的內容是對其中的一個已有字段url進行匹配,然後更新新加的字段type和typeid。

後來就寫了個shell腳本來刷數據,結果運行shell腳本後我就懵了,怎麼這麼慢~~~

情景再現

復制代碼 代碼如下:
CREATE TABLE `fuckSpeed` (
  `uin` bigint(20) unsigned NOT NULL DEFAULT 0,
  `id` int(11) unsigned NOT NULL DEFAULT 0,
  `url` varchar(255) NOT NULL DEFAULT '',
  `type` int(11) unsigned NOT NULL DEFAULT 0,
  `typeid` varchar(64) NOT NULL DEFAULT '',
  ......
  KEY `uin_id` (`uin`,`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

表結構大概是上面這樣的(省略了好多字段),表中只有一個聯合索引uin_id,而我在更新的時候是下面的思路:

首先根據一個id范圍獲取到一定數量的數據

復制代碼 代碼如下:
select id,url from funkSpeed where id>=101 and id<=200;

遍歷所有的數據,對每一條數據進行更新

#首先對數據進行處理,匹配獲取type和typeid

復制代碼 代碼如下:
update fuckSpeed set type=[type],typeid=[typeid] where id=[id]

按照上面的思路搞了之後,發現更新特別的慢,平均每秒鐘3~5個左右,我也是醉了,我看看要更新的數據,總共有32w+條,這樣更新下來大概需要24h+,也就是1天還要多,額~~哭了,想想肯定是哪裡出問題了。

發現問題
首先我想到的是是不是因為只有一個進程在更新,導致很慢,我啟動了5個進程,將id分段了,就像下面這樣

復制代碼 代碼如下:
./update_url.sh 0 10000 &
./update_url.sh 10000 20001 &
./update_url.sh 20001 30001 &
./update_url.sh 30002 40002 &
./update_url.sh 40003 50003 &

運行之後發現還是那樣,速度沒有提升多少,還是每秒鐘更新3~5個左右,想想也是啊,時間不可能花費在插入數據之前的那些步驟(匹配、組裝sql語句、。。。),應該是插入的時候有問題

再來看看我的sql語句

復制代碼 代碼如下:
select id,url from funkSpeed where id>=101 and id<=200;,

這裡,試著在命令行執行了下,結果如下

復制代碼 代碼如下:
mysql> select id,url from funkSpeed where id>=0 and id<=200;
Empty set (0.18 sec)

竟然花了0.18秒,這個時候我猜恍然大悟,聯合索引我沒有使用到,聯合索引生效的條件是——必須要有左邊的字段,用explain驗證下,果然是這樣:

復制代碼 代碼如下:
mysql> explain id,url from funkSpeed where id>=0 and id<=200;
+-------------+------+---------------+------+---------+------+--------+-------------+
| table       | type | possible_keys | key  | key_len | ref  | rows   | Extra       |
+-------------+------+---------------+------+---------+------+--------+-------------+
| funkSpeed   | ALL  | NULL          | NULL | NULL    | NULL | 324746 | Using where |
+-------------+------+---------------+------+---------+------+--------+-------------+
1 row in set (0.00 sec)

然後使用聯合索引:

復制代碼 代碼如下:
mysql> select uin,id from funkSpeed where uin=10023 and id=162;
+------------+----------+
| uin        |   id     |
+------------+----------+
| 10023      | 162      |
+------------+----------+
1 row in set (0.00 sec)

mysql> explain select uin,id from funkSpeed where uin=10023 and id=162;
+-------------+------+---------------+----------+---------+-------------+------+-------------+
| table       | type | possible_keys | key      | key_len | ref         | rows | Extra       |
+-------------+------+---------------+----------+---------+-------------+------+-------------+
| funkSpeed   | ref  | uin_id        | uin_id   | 12      | const,const |    4 | Using index |
+-------------+------+---------------+----------+---------+-------------+------+-------------+
1 row in set (0.00 sec)

可以看到幾乎是秒查,這個時候基本可以斷定問題是出現在索引這個地方了

我select的時候次數比較少,每兩個select之間id相差10000,所以這裡可以忽略掉,而且這裡沒辦法優化,除非在id上面添加索引。

問題發生在

復制代碼 代碼如下:
update fuckSpeed set type=[type],typeid=[typeid] where id=[id]

這裡在更新的時候也是會用到查詢的,我的mysql版本是5.5,不能explain update,不然肯定可以驗證我所說的,這裡要更新32w+條數據,每條數據都會去更新,每條數據0.2s左右,這太嚇人了~~

解決問題
問題找到了,解決起來就容易多了~~

select的時候加了一個字段uin,改為下面這樣

復制代碼 代碼如下:
select uin,id,url from funkSpeed where id>=101 and id<=200;

然後更新的時候使用

復制代碼 代碼如下:
update fuckSpeed set type=[type],typeid=[typeid] where uin=[uin] id=[id]

這樣一來索引就是用上了。

三下五除二改好了代碼,試著啟動了一個進程,看看效果如何,果然,效果提升的不是一點點,平均30+次/s,這樣大概3個小時左右就可以完成所有的更新了。

模擬場景二:
需求6個表 pid字段 寫到對應的brand_id字段

問題sql背景:項目有6個表的要根據pid字段要寫入對應的brand_id字段。但是這個其中有兩個表是千萬級別的。我的worker運行之後,線上的mysql主從同步立刻延遲了!運行了一個多小時之後,居然延遲到了40分鐘,而且只更新了十幾萬行數據。問題sql如下:

復制代碼 代碼如下:
<!-- 根據商品id更新品牌id -->
    <update id="updateBrandIdByPid" parameterClass="com.jd.chat.worker.domain.param.UpdateBrandIdParam">
        UPDATE $tableName$
        SET brand_id = #newBrandId#
        WHERE pid = #pid#
            AND brand_id = 0
    </update>

項目組的mysql專家幫我分析了下,因為pid字段沒有索引,mysql引擎要逐行掃描出與傳入的pid值相等的列,然後更新數據,也就是要掃描完1000W+行磁盤數據才能執行完這個sql。更嚴重的是,這個千萬級的表裡面有多少個不同的pid,我就要執行多少個這樣的sql。
同事給我的建議的根據id字段進行sql代碼層次的縱向分表。每次更新1000行的數據,這樣mysql引擎就不用每次在掃全表了,數據庫壓力是之前的萬分之一。而且id作為主鍵,是有索引的有索引,有索引能大大優化查詢性能,優化後的sql如下:

復制代碼 代碼如下:
<!-- 根據商品id更新品牌id -->
    <update id="updateBrandIdByPid" parameterClass="com.jd.chat.worker.domain.param.UpdateBrandIdParam">
        UPDATE $tableName$
        SET brand_id = #newBrandId#
        WHERE pid = #pid#
            AND brand_id = 0
            AND id BETWEEN #startNum# AND #endNum#
    </update>

僅僅用了id限區間的語句,將一個千萬級的大表代碼層次上進行縱向切割。重新上線worker後,mysql主從沒有任何延遲!而且經過監視,短短10分鐘就更新了十幾萬數據,效率是之前的6倍!更重要的是數據庫負載均衡,應用健康運行。

以上通過兩個問題模擬場景再現分析MySql更新優化策略,希望對大家在數據庫方面有所幫助。

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved