接觸分布式存儲已經有一年多的時間了,首次遇到存儲側三份數據都有異常的情況,三份數據異常意味著客戶數據的丟失,這個對雲存儲來講是致命的打擊。為了保證數據的安全,CBS運維和開發的同學進行了持續兩天一夜的數據保衛戰,最終做到數據0丟失,那麼CBS運維和開發的同學是如何通過緊密合作來扭轉乾坤的?且聽我慢慢道來:
告警來襲,5個小表自動遷移異常
運維側收到一個數據遷移失敗的告警,告警內容如下:
[基礎架構部][CBS3.0_廣州_小set_快照_bonding_set4][10.182.24.13][cbs_web][check_storage_tablet][2016-09-0711:11:19] [error] [重要] CBS3.0_廣州_小set_快照_bonding_set4 有5個1份dead小表,沒空閒小表遷移或者沒有正常遷移,請檢查!
備注:這是為了能保證異常的小標都能正常遷移,提升CBS數據安全的告警。
這種問題優先級最高,因此運維第一時間介入分析,這個是前一天有一台cell的機器異常,系統自動將其剔除,此時正常的數據變成了2份(Cell2和Cell3),如下圖所示:
剔除後會自動發起容災遷移,成功遷移後就能恢復三份數據正常的狀態。查看遷移日志,發現是由於讀取cell數據異常引起