一般而言,slave相對master延遲較大,其根本原因就是slave上的復制線程沒辦法真正做到並發。簡單說,在master上是並發模式(以InnoDB引擎為主)完成事務提交的,而在slave上,復制線程只有一個sql thread用於binlog的apply,所以難怪slave在高並發時會遠落後master。
ORACLE MySQL 5.6版本開始支持多線程復制,配置選項 slave_parallel_workers 即可實現在slave上多線程並發復制。不過,它只能支持一個實例下多個 database 間的並發復制,並不能真正做到多表並發復制。因此在較大並發負載時,slave還是沒有辦法及時追上master,需要想辦法進行優化。
另一個重要原因是,傳統的MySQL復制是異步(asynchronous)的,也就是說在master提交完後,才在slave上再應用一遍,並不是真正意義上的同步。哪怕是後來的Semi-sync Repication(半同步復制),也不是真同步,因為它只保證事務傳送到slave,但沒要求等到確認事務提交成功。既然是異步,那肯定多少會有延遲。因此,嚴格意義上講,MySQL復制不能叫做MySQL同步(處女座的面試官有可能會在面試時把說成MySQL同步的一律刷掉哦)。
另外,不少人的觀念裡,slave相對沒那麼重要,因此就不會提供和master相同配置級別的服務器。有的甚至不但使用更差的服務器,而且還在上面跑多實例。
綜合這兩個主要原因,slave想要盡可能及時跟上master的進度,可以嘗試采用以下幾種方法:
1、采用MariaDB發行版,它實現了相對真正意義上的並行復制,其效果遠比ORACLE MySQL好的很多。在我的場景中,采用MariaDB作為slave的實例,幾乎總是能及時跟上master。如果不想用這個版本的話,那就老實等待官方5.7大版本發布吧;
關於MariaDB的Parallel Replication具體請參考:Replication and Binary Log Server System Variables#slave_parallel_threads – MariaDB Knowledge Base
2、每個表都要顯式指定主鍵,如果沒有指定主鍵的話,會導致在row模式下,每次修改都要全表掃描,尤其是大表就非常可怕了,延遲會更嚴重,甚至導致整個slave庫都被掛起,可參考案例:mysql主鍵的缺少導致備庫hang;
3、應用程序端多做些事,讓MySQL端少做事,尤其是和IO相關的活動,例如:前端通過內存CACHE或者本地寫隊列等,合並多次讀寫為一次,甚至消除一些寫請求;
4、進行合適的分庫、分表策略,減小單庫單表復制壓力,避免由於單庫單表的的壓力導致整個實例的復制延遲;
其他提高IOPS性能的幾種方法,根據效果優劣,我做了個簡單排序:
1、更換成SSD,或者PCIe SSD等IO設備,其IOPS能力的提升是普通15K SAS盤的數以百倍、萬倍,甚至幾十萬倍計;
2、加大物理內存,相應提高InnoDB Buffer Pool大小,讓更多熱數據放在內存中,降低發生物理IO的頻率;
3、調整文件系統為 XFS 或 ReiserFS,相比ext3可以極大程度提高IOPS能力。在高IOPS壓力下,相比ext4有更穩健的IOPS表現(有人認為 XFS 在特別的場景下會有很大的問題,但我們除了剩余磁盤空間少於10%時引發丟數據外,其他的尚未遇到);
4、調整RAID級別為raid 1+0,它相比raid1、raid5等更能提高IOPS性能。如果已經全部是SSD設備了,可以2塊盤做成RAID 1,或者多快盤做成RAID 5(並且可以設置全局熱備盤,提高陣列容錯性),甚至有些土豪用戶直接將多塊SSD盤組成RAID 50;
5、調整RAID的寫cache策略為WB或FORCE WB,詳情請參考:常用PC服務器陣列卡、硬盤健康監控 以及 PC服務器陣列卡管理簡易手冊;
6、調整內核的io scheduler,優先使用deadline,如果是SSD,則可以使用noop策略,相比默認的cfq,個別情況下對IOPS的性能提升至少是數倍的。
其他更多方法,歡迎大家幫忙補充 :)