甲骨文公司副總裁及大中華區技術產品事業部總經理吳承楊就企業如何利用大數據來幫助企業走向精准化管理談到,企業需整合結構化和非結構化數據,從而獲得全且精准的數據來實現企業的商業價值。甲骨文企業級用戶大數據除分析預測數據外,還可保護用戶的投資。
大數據正在給商業世界和人們的生活帶來哪些改變?
舉個簡單的例子,現在大家都講是精准化營銷,也就說所謂精准化營銷,對於一個企業來講,它希望能夠找到客戶,而且給客戶提供的是它正好所需要的東西。這個來講就是非常重要的一點,因此他不僅僅是需要了解你客戶你本身,你在這個企業過去的購買歷史,同時它希望能夠了解到這個客戶他在社交媒體上,在社會上各種各樣的行為。這樣的話把兩個結合起來,他就可以給你推薦你最喜歡的產品。光有其中的一個方面是做不到的,需要很多方面。這樣的話就等於是說你給這個客戶做了一個360度的試圖,所以從精准化營銷來講,需要大數據。
當然大數據還用各種各樣的方面,比如說天氣預報,比如說智能交通,都是需要一些大數據。這也就是說為什麼今天大數據是這麼熱的一個話題。其實大數據的概念,在企業的時候就不能像一般的民眾這樣去關心大數據。民眾你可以關心大數據帶來的好處,對企業來講它到底是怎麼樣可以幫助到你的企業。而且你的投入和產出比是怎麼樣,這個是很關鍵的問題,你需要多少時間,怎麼樣能夠給你的企業帶來價值。這點來講在關系型數據庫,這個問題並不是很重要。為什麼呢?關系型數據庫建立起來以後,你的企業應用自然就會運行,所以你的價值是顯而易見的。但是在大數據就不是這樣,舉個例子,你要知道首先數據量比較大,100t大還是1000t大,其實現在你可以看到,像甲骨文的技術在一個機櫃裡面就可以做到3000tb,也就是3pb,只是在一個機櫃裡面就可以做,你說大嗎,其實也不大。
所以重要的我覺得大數據的概念應該對企業來講是叫全數據,什麼叫全數據,它的量不是最根本的問題,而在於是說它是有結構化和非結構化組合的。你只是看結構化數據不可以,你只是看非結構化數據不可以,你要把這兩個組合起來,這樣對你才有價值。就像我們剛才講的一個客戶精准化營銷這樣的例子,各種客戶精准化營銷的這樣一個例子你可以看到的問題是,其實你需要了解很多比如說銀行,你需要了解這個客戶在銀行裡過去所有的這些記錄,這些都是結構化數據,但是同時你也需要了解這個客戶在一些社會上的行為,因為你了解了這些行為以後,你才能決定,我是不是今天可以給他一個信用額度,在沒有任何擔保的情況,我可以提高一倍。這就取決於所有這些數據的分析,所以你可以看到全數據是非常非常重要的一點。
大數據是可望而不可及的嗎,如何從大數據中獲取價值?
甲骨文有一個很好的短片講的是海洋裡面捕魚,其實在海洋生物裡面有各種各樣的生物。你可能有金槍魚,你可以看到烏賊,還有海馬,還有貝殼,還有海藻各種各樣的一些海洋生物,當你捕魚的時候,你捕出來以後是各種各樣的東西在這,但是不同的海洋生物它的價值是不一樣的。它的商業價值,可能金槍魚的商業價值最高,我可以賣到最多的錢。我希望一網打下去的魚全部是金槍魚,因此我就需要把它做分門別類。把我所選擇的一些最有價值的東西把它提取出來,提取出來以後,同時你還要決定,為什麼,你還要決定說你今天市場上哪一種海洋的生物,海洋的這些食品,魚類,今天的整個市場價值最高的,或者未來期貨價值最高。你還要根據這個市場的變化來決定我要選擇哪一種海洋生物出來,這樣的話能夠讓我得到最好的價錢。
這裡面就取決於我要分門別類,然後把最有價值的取出來,而且我還根據未來的比如說你貨物有一個未來的價格變化,根據未來的市場變化來確定我到底選擇哪一種搭配是最佳的選擇。這個就需要我們把結構化數據和非結構化數據整合起來,最後幫你領導做一個判斷,幫行業的或者是企業的決策人做一個判斷,這樣可以讓整個企業的價值最大化。
所以你可以看到這個裡面最難的一個問題是怎麼樣把它融合在一起做,今天很多人說我是不是可以用比如Hadoop的技術能夠解決所有的問題,還是一樣的問題,你用Hadoop的技術去解決非結構化的數據是可以解決的,這個沒有問題。但是問題是你用Hadoop的東西去解決結構化的數據,剛才講了不可以,但是其實另外一點,如果你一定要用這樣的解決,那你就面臨一個問題,你要取火,你取火你在家裡開個煤氣一點就可以。但是如果說你用Hadoop的方法來解決呢,你可能要鑽木來取火。
所以我們覺得今天你應該用Hadoop去解決非結構化的東西,重要的是說解決完了以後把你所感興趣的東西通過裝載的方法,裝載到結構化數據裡面。然後在結構化數據裡面去進行分析、判斷,然後得到你想要的結果。這點來講是非常非常重要的一點,其實他的難點,根本的難點,最重要的難點,就是它的裝載,是把它融合。而並不是Hadoop本身的技術,因為今天從整個技術來講,Hadoop這點來講相對比較成熟的技術。
其實另外一個問題大家會講我理解了今天大數據應該是一個結構化和非結構化的融合,難點是應該我要把它裝載上來。我碰到另外一個問題,我自己的人是不是可以來我自己的非結構化的數據呢?這一點來講有一個挑戰的問題在於,今天傳統的解決Hadoop的架構是用了一個技術叫MapReduce技術,這個技術今天來講,相對來講在互聯網這個行業使用的人比較多,但是對企業級,你使用的相對比較少。這樣問題在於你是不是應該再雇這麼多的人專門去解決MapReduce,學習這種技術,然後來解決問題呢?這樣來講對你整個的投入又是很大的,所以今天在世界上你可以發現有一種新的技術,我們是通過用SQL的方法來從Hadoop的架構裡面提取數據,這個很有意思的一點,我是用一種你最熟悉的方法,在一種最傳統的非結構化數據所儲存的方法裡面,來提取你所感興趣的東西,你不需要再去學習MapReduce,你完全沒有這個必要,你只需要懂得SQL就可以。
大家說大數據最重要是全,的確是這樣一回事。其實你會發現今天我們來講,比如說你如果是要求在上百個100t這樣的要求,上百個T這樣的量級,我們要求今天都是實時的效果。也就說如果你沒有達到一個p級,1000t的結構化數據,你都應該要求是實時,也就說你領導如果今天說我希望判斷一下如果說我今天是一個漁業公司,如果我今天加大金槍魚的產量,翻一倍,我會對未來整個市場,我的整個收入這個季度的收入有多大的變化。他可以馬上不需要等待就可以得到一個結構,這個很重要的一點在於你需要實時,你需要非常實時,你所有這些都需要在結構化裡面,當然你可以需要利用上所謂的內存技術。你會發現其實很多的技術是在融合的,今天大數據不是一個把其他技術完全否定掉的一個技術,而是一個大數據是和其他原來傳統技術相輔相成能夠達到效果。這個大概就是我們對大數據的理解。
甲骨文如何幫助企業從大數據的海洋中獲取價值?
企業級用戶大數據的整個思維方式和互聯網的方式是不一樣的。為什麼呢?因為企業級你的整個數據的價值70%、80%,甚至90%都是基於結構化。我們曾經和一個銀行的CIO探討過,銀行的CIO跟我們說他說為什麼我要用Hadoop技術呢?我現在結構化數據我已經清洗過很多次了,我已經做的非常好了,我用傳統技術都可以解決了。當然我們還要解釋說,你還需要到社交媒體上,很多地方去找一些非結構化的數據。但是某一個程度來講,對於企業級最大的財富,80%、90%的財富都是在結構化裡面。但是今天你需要從市場上,從你的社交媒體上互聯網上等等這方面,非結構化的融入進來。甲骨文就是針對這樣一種發展的趨勢,所以甲骨文你可以看到,首先我們在非結構化方面我們用的是Hadoop的技術,我們用的是Cloudera的Hadoop,是現在商業化的Hadoop的架構。同時,如果你用MapReduce,我們完全支持,做完了以後,我們有一個Oracle Loader,Oracle Loader是可以把非結構化數據以後,當你提取出你所謂的精華,把它裝載到結構化裡面來,這個Loader我們的速度是傳統速度的5倍以上。
裝載很關鍵,如果你裝載慢了,即使前面再快也沒有用。你說我還是不懂MapReduce,就像我剛才講的,甲骨文發明了一個Big Data SQL,你不懂MapReduce也沒有關系,你只要按照Hadoop裝好以後,你可以用Big Data SQL去讀取這些數據,直接放在結構化裡面。放在結構化裡面你就有很多的想象空間,你可以去做數據分析,做數據挖掘,同時可以進行數據預測,數據倉庫,所有的這些傳統的工具都可以用上,你對你過去的投資是保護的,所以實際上這種我們認為是一種最佳的方案。