綜述
隨著越來越多的組織的數據從GB、TB級邁向PB級,標志著整個社會的信息化水平正在邁入新的時代 – 大數據 時代。對海量數據的處理、分析能力,日益成為組織在這個時代決勝未來的關鍵因素,而基於大數據的應用,也在潛移 默化地滲透到社會的方方面面,影響到每一個人的日常生活,人們日常生活中看到的電視節目、浏覽的網頁、接收到的 廣告,都將是基於大數據分析之後提供的有針對性的內容。
微軟在大數據領域的戰略重點,在於更好地幫助客戶“消費”大數據,讓所有的用戶都能夠從幾乎任何規 模任何類型的任何數據當中獲得可以轉化為業務執行的洞察力。基於這一戰略,微軟發布了新一代並行數據倉庫一體機 SQL Server Parallel Data Warehouse(簡稱PDW),提供大規模並行處理並具備靈活線性橫向擴展能力的數據倉庫平台 ,其主要新特性主要體現在以下3個方面:
為大數據而建: 通過Polybase這一數據處理的突破性技術統一查詢結構化、半結構劃和非結構化數據,幫助用戶使 用最熟悉的標准SQL語言即可輕松實現Hadoop表和關系型數據庫表的關聯查詢。同時,由於目前大部分常用的商業智能分 析工具都無法直接查詢Hadoop, 而Polybase技術通過從數據庫平台層面對Hadoop的集成,使用戶可以采用熟悉的現有商 業智能工具即可實現對大數據的靈活分析和展現。例如,用戶可以利用熟悉的Microsoft Excel在同一表格中分析結構化 和非結構化的數據。
新一代性能與規模:采用可更新的 xVelocity 聚集列存儲技術,實現高至50倍的性能提升。基於大規模並行處理引 擎技術,提供從幾個TB到PB級數據的線性橫向擴展能力。
最優化的軟硬件價值:SQL Server 並行數據倉庫一體機具備預裝的硬件和軟件,集成了目前微軟最新一代的軟件創 新技術如xVelocity 列存儲、Polybase、Windows Server 2012 Hyper-V虛擬化技術,Storage Spaces存儲技術等驅動精 簡高效的硬件架構,提供性價比優勢。
本文將深入介紹SQL Server 2012 Parallel Data Warehouse的Polybase技術,並結合具體業務場景示例講解 Polybase技術如何為業務人員提供簡單易用的大數據解決方案。
Polybase技術
總體來講,Polybase技術包含以下具體功能:
用一個外部表來定義Hadoop中數據的結構。
通過運行SQL語句實現對Hadoop數據的查詢。
通過PDW可關聯查詢Hadoop數據與關系型數據庫PDW中的表,實現Hadoop與PDW數據的整合。
通過運行SQL命令來查詢Hadoop並將結果集保存到PDW的表中,輕松實現將Hadoop數據導入到PDW。
Hadoop也可以作為PDW的一個在線數據歸檔系統,通過運行簡單SQL命令即可將PDW中的數據導出到Hadoop,並隨時通 過PDW對歸檔在Hadoop中的數據進行在線查詢。
下面我們通過一個示例來進一步說明上述Polybase技術的應用場景及使用方法,在這個示例當中我們將基於與美國 Sandy飓風相關的一些數據,通過對這些數據的分析來協助決策派往美國各州救援資源的調配計劃。
首先,在PDW關系型數據庫中可以創建一張表[dbo].[nws_ffg7],存儲來自於美國海洋氣象局National Oceanic and Atmospheric Administration(簡稱NOAA)的數據。與SQL Server 2012的體驗相同,我們可以通過標准的SQL Server Data Tools工具來連接PDW,如下圖所示。基於[dbo].[nws_ffg7]表可以創建一個視圖CREATE VIEW flashflood AS SELECT * FROM [dbo].[nws_ffg7]。通過查詢flashflood視圖返回的結果集可以看到,這張表裡面主要存儲美國各個州 的名稱、地理屬性信息如經度、緯度,以及各州在未來多個時間段的降雨量預測信息,如未來1小時(HR1列)、3小時( HR3列)、6小時(HR6列)等等。