繼SQL Server後,微軟終於全面加入了Hadoop陣營!
在10月12日的西雅圖舉行的SQL PASS 2011峰會上,微軟宣布將於從雅虎分拆出來的Hortonworks合作開發,在apache Hadoop上實現搭建Windows Server以及Windows Azure平台。Hortonworks作為微軟的戰略合作伙伴將會借助自己在此領域的專長幫助最大化將Hadoop集成到微軟的產品之中。
微軟表示預計在今年年底可推出基於Hadoop的Windows Azure預覽版,而基於Hadoop的Windows Server將在在2012年推出。基於Hadoop的Windows Server還會與微軟現有的BI工具聯合處理任務。同時微軟官方還證實了SQL Server “Denali”將被正式命名為SQL Server 2012。
微軟商業平台事業部高級副總裁Ted Kummert在一份聲明中表示此舉將幫助微軟的客戶更好的管理自己的大數據。越來越多的公司正在尋找收集和分析非結構化數據以幫助自身洞察業務的方法。但迄今為止,由於傳統關系數據庫主要是為處理結構化數據而設計的,其自身固有的特性導致可擴展性不佳。而Hadoop作為一個開源框架對大數據的支持正日益吸引IT主管的目光,Hadoop非常適合處理非結構化數據,如電子郵件內的內容、博客、點擊帶來的流數據、音頻及視頻等數據。
如雅虎、AOL、谷歌、Facebook等早期采用並使用Hadoop來存儲和分析PB級別的非結構化數據。其他企業的數據倉庫技術尚不具備處理這些任務的能力。Gartner分析師Merv Adrian表示這樣看來微軟與Hortonworks的聯盟就不足為奇了。同時他認為Cloudera是當今Hadoop的領導者。
當然其他巨頭也紛紛有所行動。一周前甲骨文也推出了基於Hadoop的大數據設備以及甲骨文自己的NoSQL數據庫和基於開源語言R的分布式數據統計分析系統。就在幾天前IBM宣布將收購私營的系統軟件公司Platform Computing。此舉可幫助IBM將更好地為客戶提供服務,幫助它們以更適當的方式管理並分析大規模數據,降低成本和系統復雜度。
此刻微軟自然不會無動於衷,其與Hortonworks的合作旨在努力簡化下載、安裝和配置等幾個Hadoop的相關技術。包括 HDFS、Hive、Pig。這將有利於企業通過Hadoop拓寬自身的業務。微軟將編寫新的ODBC驅動程序並擴展自己現有的查詢系統到Hive。這樣一來用戶將能夠直接從Excel、PowerVIEw執行Hadoop查詢。微軟已經宣布的為Excel編寫的BI插件被稱之為 PowerPivot。同時微軟還將加大對Javascript語言的投入,微軟將使用JavaScript實現高性能的Map/Reduce。微軟承諾將緊密與Hadoop社區合作並積極為apache軟件基金會的項目作出自身的貢獻。
SQL Server產品管理總經理Doug Leland表示微軟計劃是使Hadoop的數據通過部署在基於雲的Windows Azure獲取。並使其能夠與企業的商業智能工具一起分析數據。微軟還將Active Directory的安全性和數據訪問控制整合進Hadoop,以提供最大的可管理性,真正使我們的平台具有良好的競爭力。
微軟NoSQL數據庫Trinity架構圖
Hortonworks的CEO Eric BaldeschwIEler表示,當今生成的新數據中,超過80%都是非結構化數據。微軟與Hortonworks的合作可使Hadoop成為用於存儲和處理數據的引人注目的平台。其實早在8月微軟就增加了SQL Server在大規模數據處理和並行數據倉庫平台對開源Hadoop框架的支持。同時連接器的最終版本已提供下載。然後遠不止這些,微軟早在今年3月份就發布了其圖數據庫系統Trinity。Trinity是一款NoSQL數據庫,同時是一個基於內存的數據存儲與運算系統。Trinity包括一個圖結構數據庫(提供實時查詢與後台批量計算任務,類似於Map/Reduce,同時支持ACI的事物並提供C#的客戶端API)和一個並行計算系統。目前在微軟為 Probase和AEther這兩個產品服務。
最後Red Monk分析師Stephen O'Grady表示Windows和Hadoop的結合將是非常具有吸引力的,這將吸引大量的Windows用戶。顯然這是非常重要的,微軟具有在此領域競爭的實力。微軟明顯認為優化和調整是確保其成功的重要因素。