Tim Vincent:大家好。我從1991年開始就做DB2的研究了,最初是做DB2數據庫的研究,這是我今年第二次來北京,我在DB2方面有不少的經驗,今天非常高興有機會跟大家介紹一下我們這個產品的架構、種類,以及我對未來的展望。
首先介紹一下DB2的結構。
在這個裡面我們要看一下這個架構裡面的一些簡單介紹。我們為什麼開發這個產品。首先介紹一下TCO,這是很重要的問題,我們開發的一些創新技術對於DB2非常重要。第二點我要談一下分區分區越來越重要,因為我們的數據越來越多,同時對於I/O管理也是非常重要的,我們怎麼樣盡量降低I/O。然後我介紹一下XML,我們為什麼開發XML呢?我們當初開發的時候是希望達到什麼樣的好處。另外我還要介紹一下我們的客戶在XML得到了什麼好處。
現在開始我給大家介紹另外一個問題。現在人們在建立越來越的數據庫,他們把很多數據放在同一個地方,希望能夠幫助他們商務流程做出及時的決定。現在需要有更多的數據倉庫的管理。他們發現工作負載發生了爆炸,所以必須要對工作負載進行管理,因為在傳統的數據庫本來可以支持傳統的工作負載,現在發展了以後出現了很多新問題,現在系統越來越復雜、數據越來越多,工作負載爆炸性的增長,怎麼樣管理工作負載變得非常重要。
下面我要介紹一下我們的一些最佳實踐,我們的壓縮,DB2融合了很多的技術,有很多的技術當中都使用了很多不同的方式。有很多工作都是我們在最佳實踐中付出的努力,最後得到了回報。這裡我給大家舉例一個壓縮技術。還有我們產品的亮點,比如說DB2 9.5,它可以利用給Linux、Unix和window,另外還有data Studio。
首先介紹一下DB2的架構。
最初1991年開始做DB2。當時有一個發展趨勢,工作系統中工作越來越多,怎麼處理越來越多的工作負荷呢?我們采用了並行的機制,我們可以支持SQL和視頻程序,我們有分區內與分區間的並行。利用SMP通過多核的架構。同時對於SQL有查詢重寫功能。在查詢內的並行,是經常在數據倉庫中需要使用的。這個技術可以使得你的查詢可以在不同計算機上實現並行。另外一些實用程序也可以支持並行,你可以使用同樣架構在不同計算機。
利用SMP,通常是指查詢內的一種並行。所以Linux和Unix中我們通常通過操作系統的線程和進程利用所有的CPU,同時我們可以使得通過並行對於SMP進行最好的使用。我們發行了一個TPCC的基准,這個基准是衡量利用效果的一個標准。(圖)對於內存的大量使用,這也是非常重要的技術就是緩沖池技術,我們會使用頁面儲存方式,它使得我們的數據和I/O能夠有一個路線圖。它可以把我們連接到儲存的頁面,在儲存的頁面上可以使用XML,後來我們也可以用以系統操作為基礎的一個文件。現在這個文件系統是可以用PPU的文件系統,同時還有一個數據庫管理工作,可以通過文件系統對於桌面進行管理,所以我們可以支持I/O、並行的I/O,還可以支持數據的分割和自動化智能分割,我們還可以做大塊的I/0。如果回到文件系統話題,我們現在更多地使用直接的I/O,它可以使得我們可以分散和收集I/O的文件系統。為什麼我們不是使用一個文件系統的緩沖,緩沖池已經夠我們做文件的緩沖區。我們可以更快地把文件拷貝到緩沖池當中去。
(圖)如果看一下我們整個的架構,我們有一個平衡的數據倉庫,它們每一個分區都有自己的資源,它們有自己的分區,不同的分區是邏輯上的,同時也有物理的特性。你在一台機器上可以進行多個不同的邏輯分區,每個分區有自己的緩沖池,有自己的邏輯的管理,還有自己的磁盤。這種技術可以避免對可伸縮性常見的限制,我們不需要進行分步式的管理或者緩沖間的一致性的諧一。所以,我們這種分區是有很好的可擴展性、可伸縮性,無論是多大TB的容量,來分區都是沒有問題的。
這裡還有一種分區,這種分區叫做“快速通信管理器”,我們有管理,還有信息流這種方面的價值。在優化方面,我們對不同的共同操作可以進行一些優化。另外這也使得它可以在跨節點運行任何東西,非常有效、非常快。我們來看客戶機這一塊,有四大類:T2、T4,JAVA J2BC我們是支持,它是PCL的,現在還有Pure它可以使SQL提升,使得你在Java方面可以很好地開發。當我談到data Studio我會給大家講怎麼樣使用Query能夠進行提升。我們在這塊會有通訊的協議。它和數據庫進行連接,並且它在連接性方面有很好的表現。在代理方面,我們支持整個運行的環境,可以在查詢和檢測內部進行一些處理。當處理這些數據的時候它們是到了緩沖池,代理從緩沖池獲取數據,然後進行計算。其中一個代理可以從磁盤裡讀取數據,我們有一個預提取器,可以提前提取數據,這樣可以得到非同步的I/O,可以得到很好的CPU性能,所以要確保I/O是不同步的。
另外我們還有一些頁面的清理器,它可以對相關的頁面進行清除。在日志系統裡面還有相關的日志記錄系統。這是80年代提出的一項技術。這是整個數據庫裡非常核心的一項重要技術。還有“時鎖檢測機”,某一個交易進行的時候,這個交易會自動鎖定,在某一方面,鎖定就會轉入日志裡面去,你在很多時候會碰到瓶頸的情況,在很多基准測試裡面,比如說有400-600萬的產品,你在鎖和日志相關來講,可以看到“時針檢測器”可以大大提升處理速度,特別對“時鎖”情況進行很好的探索。
下面我們談一些技術亮點。
從擁有總成本來看,我們和很多CIO進行了談判。CIO從各個方面來講,從成本模型來看,70%的CIO的預算是投入在人的方面,並不是在硬件方面。當我們說到TCO的時候,我們主要要減少人力成本,因為在DB2的操作方面和維護方面會加大很大的成本,所以我們需要這些技術能夠得到最大限度的利用。所以我們需要一種可以自我管理的數據庫,它們有自動平衡的資源、自動的存儲。而且我們的TCO的時間應該花在管理業務方面,而不是在管理數據方面,而且他要有更多、更高的管理技能,使它能夠進行自動的優化。
自適應自調優內存管理。它有自己的緩沖區,這對CPU來講是非常重要的,這是做優化最重要的一個方面。另外排序也是非常重要的,它可以把你目前的I/O進行排序,還有“鎖列表”,它使用的MB參數,然後進行數據內存的容量。在這個方面進行一些控制的邏輯,然後使得它可以快速的適應,重新分配的工作負載和變化。緩沖區進行自動的平衡。這樣使CPU整個的負荷進行重新的自動平衡,這樣就可以節省很大的成本。所以你必須注意到你的工作負荷的變化,不需要人工的進行調整。
下面用一些圖表給大家講解一下,Query是一個索引系統,有時候撤銷了,這個時候整個表空間就會有很大的提升,I/O就會提升,所以如果有一個自適應調優系統,系統可以自行調整,得到更高的內存性能。
我們開始引導了自調優技術的時候,開始把它用在一個比較小的系統裡面。我們工程師們在一個月、兩個月後加入了更多的系統,我們進行相同的配置,我們把它變成基准調優的配置,在一個小時整個STIM不僅得到了更優的性能,而且比以前數據好的成績還會更好,而且降低了整體的成本。
自動存儲管理,主要目標是把成本從管理數據、管理存儲轉變到對信息的管理。
分區的概念。對於數據分區中的問題,你可以分成多少個維,比如說一個典型的TP工作負載來講,你會有一個銷售,某一個地區的數據,如果在兩個索引裡進行檢索你會發現有一些問題。比如說西北區進行檢索,在這塊是非常有效的,因為在這塊你是線性檢索,如果你是用年份的檢索,年份的數據並沒有變成集群,這樣它是混亂的,如果在I/O裡進行線性操作,會有很大的負荷。怎樣解決這樣的問題呢?我們有一個多維集群技術。這是DB2裡區別於其他數據庫的很重要的一點,我們把它分成不同的盤區,在所有感興趣的維上有相同的值。這些值會進行相關的共同的存儲。你把它在這個維裡,放著相同性質或者邏輯上有聯系的群,每一個維上我們把數據進行集群。比如說區域檢索或者年份檢索的數據,我們放在一個單一的MDC的塊中,每一塊是線性的,所有和西北區相關的方面都放在MDC塊中,如果進行查詢不需要有很大的I/O,很快可以得到查詢結果,而且它是非同步的線性I/O。如果同樣查年份的話,會有這樣一種機制,可以把你整個數據進行多維集群,能夠提高很好的I/O,得到很好的效果。
我們有一些塊的技術,我們有很好的深度壓縮,同時使得你每個快的變得很小,而且每個頁面有非常快速的顯示。我們把這些技術和其他分區結合在一起,我們可以發現我們會有分布、分區、集群。首先要有一個分布,ID通過這種范圍進行分區,我們就會有一種集群,這種集群的分區使得,比如說2月份到9月份進行日期的分區,然後對它相關的、具體的地區進行分區,同時對各種不同的產品,在MDC在底部能夠進行。所以我們分成不同級別的分級,而且實現I/O很好有效率的管理。
當我們看XML的時候。最初我們開發的時候有一個決策,我們最後決定要做的是希望能夠以客戶的需求為導向,為客戶提供一整套的解決方案。XML出現的過程中,不僅是一種數據的格式,而且是一種數據的轉換格式。當時我們所做的工作是把我們所做的工作,使得客戶對於語言和編程模型知識的需求更相關。第二點,它是很容易改變的。所以我們談到商務的最優化,意思就是必須能夠非常靈活的應對商務變化,XML允許你有這樣的方式,它非常符合你的要求。所以XML使得你的成本也可以降低。我們當時在推出XML的時候,我們行業當中有其他的一些模式,我們有一個客戶當時他們想用XPML做一個數據庫,其他的數據庫要能夠利用這個數據庫,這對於XML來講是非常容易做的。所以當時我們向這個客戶推薦我們的XML,他們後來發現我們的XML非常好,所以他們開始使用我們的XML,這說明XML的性能優於其他的同類產品。
(圖)當你把一個信息輸入到XML裡面以後,我們是利用XML對它進行分級,在這之後,就可以把它變成具有等級性、具有分類的一種數據,它不再是沒有任何規律的數據。前面我們提到了緩沖池、並行機制,所以我們采用的XML是最優化的格式。其他的一些應用,比如我們把一個XML放進一個日志當中,或者把XML放在一些管理軟件的桌面上,我們這個方法不僅僅是獨特的,而且還可以提供其他同類產品所提供的所有的好處。我們這裡有XML的指數、XML的相關模型,所以你可以有一個表格,在這個表格當中,一個是常見關系表格,一個是XML的表格,你可以對它進行比較,XML可以對這個數據進行整合、核對,可以使得你在DB2當中更加方便的使用。
工作負載的管理。首先必須知道工作負載是什麼?你的工作負載是多少?然後把工作負載回饋到商務流程當中。這裡必須要對工作負載的屬性進行了解。比如業務流程當中哪些更重要、哪些不重要,首先要進行分類。然後分清楚你的工作負載是什麼。一旦定義了你的工作負載之後,你可以把工作負載分成服務類,你做一些私人的控制,服務類意思就是有一個主服務類、子分服務類,它是定位服務質量的元素,它可以對DB進行控制,同時可以使得對工作負載進行管理,這是你怎麼樣在系統當中控制資源。當你的工作負載和服務類已經確定之後就要做一個域值,這個域值是在整個數據庫資源水平上進行域值,它有三種:一是預測性、二是反應性、三是並行式。你可以對於你實際執行時間進行一個域值,可以對同時進行活動的數量進行域值,有了阈值以後你可以做兩件事情,如果超過域值可以自動停止工作,如果有錯誤查詢或者惡意查詢,可以對域值的方式對它進行限制,盡快地停止它。更加重要的是你可以對數據進行監測。然後把這個數據配給這些工作負載,使得它們之間能夠更加相配。你通常會得到一個回饋的循環,在回饋當中你可以對它們進行配置。
下面我跟大家講一下我們DB2的最佳實踐。DB2有很強大的技術能力,它是正確的技術在正確的地方使用。所以必須對正確的任務、使用正確的DB2的技術。首先DB2的開發是我們開發人員實踐者、使用者、客戶和業務伙伴的共同努力。第二是圍繞DB2端到端生命周期,我們會定義一組建議的最佳實踐,另外盡可能使最佳實踐適應業務流程。怎麼樣使用這樣一些計劃來最佳實踐呢,使得我們的業務流程得到管理和改善呢。
深度壓縮,這是我們的最佳實踐之一。說的簡單一點,比如一個表格要進行壓縮,所做的工作對這個表格進行靜態字典的控制,通常它有一個字符串,在這個字符串當中進行壓縮,我們可以把這個字符串在數據頁面進行用其他符號進行代替,從而實現壓縮。我們可以把它壓縮到緩沖區裡。壓縮過程中還要對I/O進行壓縮。壓縮技術不僅僅是在儲存方面能夠為你節省很多,在I/O方面也可以節省很多。
我們的客戶是怎麼想的。通過使用我們的IOPS,他們節省了50%。如果在I/O上能夠節省,CPU的成本也會降低。
生命周期管理。如果在數據倉庫,數據提取和輸入。怎麼樣管理新的壓縮,怎麼樣在這個環境當中進行壓縮。這都是我們所遇到的常見問題。我們現在看一下使用DB29和存儲壓縮的結果。我們通常對這個系統進行改善之後,DB2 9和行壓縮減少了40%的寫和60%的讀。所以最大的表壓縮,超過了50%。這是一個不斷波動的線條(圖),壓縮過程中有不斷的實時的最優化調整。我們在壓縮數據業務面的時候,我們把輸入到頁面的數據壓縮到20%。
倉庫壓縮結果。我們這個客戶是POC,從15.3TB壓縮到7.9TB,表壓縮率介於80%-85%之間,吞吐率提高了15%,查詢響應時間減少了23%,這是非常大的SAP客戶。
CPU的數據。系統CPU從16.5%,減至12.3%。在壓縮的時候,它的CPU的整體利用率,等待時間從23.9%減至5.7%,用戶CPU從30.7%,增至53%,響應時間大量減少了。為什麼用戶CPU增加了,因為用戶當中有更多的工作需要做,也就是說,在你同樣的工作負載下你可以做更多的工作。
總結一下最佳實踐。2008年我們提出21條實踐,現在我們已經能夠提供12條,另外還有一些最佳實踐正在被DB2的開發內化,並幫助我們確定DB2的技術方向。我們希望整個社區都能夠了解。
從產品角度來講,說到DB2 9.5的關注點是可及性、性能和TCO(降低總擁有成本),它是HA和DRK的綜合能力。其中有一個集群功能,我們還有另外一個系統可以管理這個集群管理器,這種管理是不可見的,但是可以降低管理的負擔,並且改進我們的性能。我們還有其他的備份,在故障恢復和備份的效果,可以使得你的宕機時間降到最低。你可以自動進行壓縮,自動創造字典,自動設置域值。
我們剛才談到阈值的模型,它可以防止惡意的訪問。可以節省你的內存空間。從安全角度來說,因為現在越來越需要保密,所以在這種情況下我們需要有一種身份的認證。我們有三層的安全管理設施,在這個過程中,當你建立了一個數據庫的時候,任何用戶只有一個ID、只有一個身份,只有他才有權利,不同的ID有不同范圍內的權限,如果是另外一個名字登陸,就不可能擁有他的使用范圍和權限。所以在應用和數據層之間有很好的關聯,可以使得你的身份可以從使用層到數據層,它是統一的。
另外你還可以使用一些以Lable為基礎的數據。這是非常有用的技術。從XML的角度來說我們是快速提高了XML的性能,它的事務處理性能提高了兩倍。
下面介紹一下Data Studio,這個數據工作室對於數據的生命周期進行管理和創新,可以提高整個數據生命周期所有組成部分的生產能力。在整個過程中都應當應用Data Studio,它可以使用管理和修改,同時還可以看到模式變化和控制。當我們回到前面所謂的純查詢的時候,我們的Data Studio是可以創造ID和JAVA的應用。當你使用一個查詢的時候,比如Java當中你打如一個SQL的語句,它會把不同腳本的表格和信息都調出來,這是非常重要的功能,因為它可以把數據和應用結合起來。所以在這個過程中可以把開發時間減少50%,同時促進不同功能之間的協作。
從監管角度來看你可以實時的分析,可以分析歷史數據。有了Data Studio你可以有一個圖像性的工具。在整個檢索裡面,以前沒有用,你可以把沒有用的檢索去掉,這樣可以使你的時間得到更好地使用。
未來的展望。
未來會有很好的發展,人們在進行業務的優化,很多實時的決定,我們想數據流概念可能會引起來,因為這塊在整個系統的多核的技術,SID的價格會降下來,短期來講是非常吸引人的,技術的組合對於我們整個的“數據庫的應用會有發展。業務部門會有不同的要求,他們需要管理整個產品的生命周期,所以業務的耐久性需要增加,合規性也有更高的要求,對於公司來講越來越重要。