Sybase中國有限公司售前總監 宋一平 談數據庫技術發展的四個方向……
數據庫技術發展已經超過30年,我認為,最近幾年數據庫技術發展將會有如下4個方向。
一是規模會向兩頭發展—大的越來越大,小的越來越小。所謂大的,指的是企業級數據庫的規模。10年前,數據庫存儲的數據大都以GB為基准衡量,幾十GB就已經非常龐大。而現在,只廣東移動每個月新增的數據量,就已經以TB衡量,不出3年,很多企業要存儲的數據就要達到PB級。數據量越來越大,需要更大的數據庫做支撐,這就是數據庫的發展方向之一。另一方面,數據庫也會越來越小。現在,Sybase的數據庫已經安裝在高檔的Casio手表中了,這些手表中記錄的有天氣情況、氣壓、佩帶者的血壓、心跳等數據。這種數據庫並不要求數據存儲量大,但是要求在低計算量的情況下反應快,而且能夠適應外界環境的變化。
二是存儲方式從行到列的改變。以前數據庫都是以行的形式存儲的,理由很簡單,用戶需要的是對單條數據的讀取和存儲。而現在,單純的數據記錄已經不足以支撐企業發展了,企業更需要的是數據分析和決策支持。那麼,單純看一條記錄沒有任何意義,而是要把所有數據的某一項都統計出來進行分析,這就是列的概念。以中國移動為例,上億個用戶,每個月上TB的數據,哪些是VIP用戶,該如何根據他們的需求提供專有服務,對於那些動感地帶的用戶,到底應該制定哪些優惠政策,除了看話費,是不是還能挖掘出他們的消費特點,進行更有針對性的業務推廣活動?這些,就不是看一條數據的問題,而需要頻繁對列進行操作。我預計,不出半年,各大數據庫廠商都會推出以列為存儲方式的數據庫。
三是非結構化數據仍然不能納入數據庫中。說到這裡,可能大家都認為我在逆潮流而動,現在很多數據庫廠商都可以接受圖像、視頻等非結構化數據了,Sybase怎麼還要死守著結構化數據呢?其實我認為,非結構化數據要想進入數據庫,仍然需要結構化,只是這種結構化的方法各廠商不一樣,而且相比以前有了很大的進步和提高。以前我們圖片的記錄方式是記錄它的文件名,如果文件名中提到了某個人的名字,那麼在整個數據庫查詢的時候,就可以把這個圖片找到。而這是非常不科學的,因為很多非結構化數據的文件名起的並不可能完全。那麼,現在大家把非結構化的數據變得結構化,其實就是在用結構化的數據描述這張圖片,比如用點和位置來記錄這張圖片的每個像素。而一旦需要做查詢的時候,可以根據像素的組合記錄來比對,把符合比對要求的數據全部篩選出來。這樣就把非結構化數據以結構化的方式納入數據庫中了,並能接受查詢、檢索等操作。
四是數據庫和數據倉庫會分開。很多數據庫廠商認為,數據庫一個就行,一專多能,既能用它進行實時交易,也能用它來進行數據分析。但是,其實很多用戶現在在前台需要數據庫提供實時交易功能,需要有很快的響應速度,而在後台,則需要設立一些規則進行數據分析和商務智能分析。Sybase就認為,這兩個數據庫應該是兩種格式,畢竟它們的功能不一樣。因此,從產品設置上,Sybase有交易型數據庫和分析型數據庫兩種。
事實上,30年來,數據庫也在不斷發展進步。這些預測都是方向性的,不同的企業肯定會有不同的理解,用戶的選擇是最終的評判標准。