下一代異步多個主數據庫復制系統Bucardo 5發布了。這個版本刪除了老版本中兩個數據庫源的限制,允許有更多的源數據庫(即主數據庫)以及更多的目標數據庫(即備份數據庫)。Bucardo還可以復制到其他類型的目標數據庫,其中包括MySQL、MariaDB、Oracle、SQLite、MongoDB和Redis。Bucardo已經被完全重寫了,這個版本比前一版本Bucardo 4功能更強大,效率更高。你可以訪問Bucardo wiki查找最新版本的Bucardo。
這篇文章快速的介紹了一下Bucardo。以後的博客文章將會介紹Bucardo的強大功能,現在我們將介紹如何簡單地實現多主數據庫復制。
為了演示方便,我使用了亞馬遜Web服務(AWS)提供的可快速創建、隨意使用的服務器,即運行Amazon Linux的基本t1.micro服務器。如果你按照提示繼續的話,它將免費而且簡單地給你創建一個服務器實例。一旦實例創建成功,我們就可以使用ec2-user賬戶通過SSH協議登陸到服務器,這時就可以開始安裝PostgreSQL和Bucardo了。
# Always a good idea: $ sudo yum update # This also installs other postgresql packages: $ sudo yum install postgresql-plperl # Create a new Postgres cluster: $ initdb btest
此時,我們仍然不能期待哦你個PostgreSQL,因為這個發布版的socket通信目錄使用的是/var/run/postgresql和/tmp。我們調整了第一個目錄的權限後就可以啟動PostgreSQL了,然後創建第一個測試數據庫:
$ sudo chmod 777 /var/run/postgresql $ pg_ctl -D btest -l logfile start $ createdb shake1
接下來我們就可以進行數據庫復制了!為了得到樣例數據,我使用了開放源代碼的Shakespeare項目。它有一個易於裝載的小型的、可任意使用的、簡單的數據庫模式。github上的這個小型項目就包含了一個現成的PostgreSQL數據庫模式,現在我們將可以把它裝載到新的數據庫了:
$ sudo yum install git $ git clone -q https://github.com/catherinedevlin/opensourceshakespeare.git $ psql shake1 -q -f opensourceshakespeare/shakespeare.sql # You can safely ignore the 'role does not exist' errors
我們打算創建這個數據庫的副本,這些副本可被當作其他數據源。換個說法,這些服務器擁有相同的數據而且可以寫入。實現這些非常簡單:
$ createdb shake2 -T shake1 $ createdb shake3 -T shake1
Bucardo需要安裝一些依賴包。如果你安裝的操作系統發布不同,那麼你可能要安裝的依賴包就不同:下面是我寫這篇文章的時候Amazon Linux需要安裝的依賴包。(如果幸運的話,你的發布包可能已經包含了Bucardo,在這種情況下,下面的執行步驟就不需要執行了,你只要運行"yum install bucard"就可以了-不過要確定一下你使用的是版本5或者更好的版本!(通過yum info bucardo查看))
$ sudo yum install perl-ExtUtils-MakeMaker perl-DBD-Pg \ > perl-Encode-Locale perl-Sys-Syslog perl-boolean \ > perl-Time-HiRes perl-Test-Simple perl-Pod-Parser $ sudo yum install cpan $ echo y | cpan DBIx::Safe
在這個系統的yum軟件倉庫裡不包含Perl模塊DBIx::Safe,因此我們需要通過CPAN來安裝這個模塊。一旦上面的所有依賴都安裝成功,這時我們就准備安裝Bucardo。我們將獲取官方壓縮包,驗證、解壓,接著安裝:
$ wget -nv http://bucardo.org/Bucardo.tar.gz $ wget -nv http://bucardo.org/Bucardo.tar.gz.asc $ gpg -q --keyserver pgp.mit.edu --recv-key 14964AC8 $ gpg --verify Bucardo.tar.gz.asc $ tar xfz Bucardo.tar.gz $ ln -s Bucardo-5.0.0 bucardo $ cd bucardo $ perl Makefile.PL $ make $ sudo make install
我們對bucardorc文件(設置某些全局信息的文件)進行某些小的調整。然後運行"bucardo install",這條命令將創建bucardo的主數據庫,其中包含Bucardo服務進程所需的信息:
$ mkdir pid $ echo -e "piddir=pid\nlogdest=." > .bucardorc $ bucardo install --batch --quiet Creating superuser 'bucardo'
現在已經安裝好Bucardo,接下來就准備復制了。此時,我們有了三個可以彼此復制的數據庫。下面我們只使用了兩條命令就可以實現三數據庫彼此復制:
bucardo add dbs s1,s2,s3 dbname=shake1,shake2,shake3 Added databases "s1","s2","s3" $ bucardo add sync bard dbs=s1:source,s2:source,s3:source tables=all Added sync "bard" Created a new relgroup named "bard" Created a new dbgroup named "bard" Added table "public.chapter" Added table "public.character" Added table "public.character_work" Added table "public.paragraph" Added table "public.wordform" Added table "public.work"
第一條命令,我們告訴Bucardo如何連接到三個數據庫,我們告訴Bucardo數據庫的名字,然後Bucardo把這三個數據庫看作(s1,s2,s3)。你還可以指定端口和主機,不過在這個例子裡,默認的端口為5432,而且不需要主機(采用的是Unix Socket通信機制)。
第二條命令創建了一個已命名的復制系統,其sync名稱為bard。Bucardo需要知道復制到哪兒和如何復制,因此我們告訴它使用三個數據庫s1,s2和s3。每一個數據庫都可以作為源數據庫,因此我們給它們添加了這樣的信息。最後我們需要知道要復制什麼。在這個例子裡,我們需要復制的是所有表(或者更精確點,復制具有主鍵或者唯一索引的所有數據庫)。注意: Bucardo總是把數據庫和表放在命名組裡-在這個例子裡我們只是硬編碼其為10,然而通常這個值是表格視圖控制器數組的長度。現在例子裡,這一切都是自動進行的,dbgroup和relgroup都是以sync的名字命名的。
我們驗證一下復制是否運行,即檢查一下更新行是否復制到sync裡包含的所有數據庫了:
$ bucardo start $ psql shake1 -c \ > "update character set speechcount=123 where charname='Hamlet'" UPDATE 1 $ for i in {1,2,3}; do psql shake$i -tc "select \ > current_database(), speechcount from character \ > where charname='Hamlet'"; done | grep s shake1 | 123 shake2 | 123 shake3 | 123
我們還可以查看Bucardo的日志文件"log.bucardo",看看是否有復制操作:
$ tail -2 log.bucardo (25181) KID (bard) Delta count for s1.public."character": 1 (25181) KID (bard) Totals: deletes=2 inserts=2 conflicts=0
上面出現了兩條delete和兩條insert命令,這是因為更新一行意味著在其他兩個數據庫上首先運行的是delete,然後才運行insert(技術上采用的COPY)。接下來我們看看Bucardo是怎麼處理沖突的。我們將對所有服務器上的同一行進行更新,這樣就會產生沖突:
$ for i in {1,2,3}; do psql shake$i -tc \ > "update character set speechcount=$i$i$i \ > where charname='Hamlet'"; done UPDATE 1 UPDATE 1 UPDATE 1
查看日志表明確實存在沖突,而且也很好的解決了沖突。默認的沖突解決方案表明:最後一個更新的數據庫是獲勝者,現在所有三個數據庫具有與最後一個更新數據庫相同的行。
$ tail log.bucardo (25181) KID (bard) Delta count for s1.public."character": 1 (25181) KID (bard) Delta count for s2.public."character": 1 (25181) KID (bard) Delta count for s3.public."character": 1 (25181) KID (bard) Conflicts for public."character": 1 (25181) KID (bard) Conflicts have been resolved (25181) KID (bard) Totals: deletes=2 inserts=2 conflicts=1 $ for i in {1,2,3}; do psql shake$i -tc \ > "select current_database(), speechcount \ > from character where charname='Hamlet'"; done | grep s shake1 | 333 shake2 | 333 shake3 | 333
我們開發這個示例的時候,Bucardo有時運行的非常快,所以沒有發生沖突。也就是說,因為更新時順序執行的。所以在下一個更新之前,存在一個時間窗口可以讓Bucardo完成更新的復制。另外,“暫停sync"功能也非常方便,只要在你需要暫時停止運行sync的情況下,運行下面命令即可:
$ bucardo pause bard Syncs paused: bard $ psql shake1 -c "update character set speechcount=1234 where charname='Hamlet'" UPDATE 1 $ psql shake2 -c "update character set speechcount=4321 where charname='Hamlet'" UPDATE 1 $ bucardo resume bard Syncs resumed: bard $ tail log.bucardo (27344) KID (bard) Delta count for s1.public."character": 1 (27344) KID (bard) Delta count for s2.public."character": 1 (27344) KID (bard) Conflicts for public."character": 1 (27344) KID (bard) Conflicts have been resolved (27344) KID (bard) Totals: deletes=2 inserts=2 conflicts=1
Bucardo 5比我們在這兒演示的功能多很多。以後的博客文章裡我們將包含它可以完成的其他功能,從復制到比如Oracle、Mysql或者MongoDB等非PostgreSQL系統到使用自定義的沖突解決方案。以及復制時對正在運行的數據實行轉換。如果你有任何問題,請在下面的評論裡說明,或者寫一封短信給Bucardo郵件列表[email protected]。
這麼多年,如果沒有許多人貢獻代碼、提出漏洞、測試Bucardo以及詢問(或者回答!)重大問題,就不可能有這個重大版本的發布。查看 Changes文件,你就可以看到部分貢獻者的列表。謝謝你們所有人,特別感謝Jon Jensen,是他在很久之前就開啟了這個項目。