數據分析是指,利用合適的工具,在統計學理論的支撐下,對數據進行一定的預處理,結合業務需求分析解構數據,以期能夠監控、定位、預防、分析、解決問題,提高經營效率,發現機遇機會的過程。
啤酒和尿布
數據分析裡有一個經典的案例,超市裡經常會把嬰兒尿不濕和啤酒放在一起售賣,原因是經過數據分析發現,出來買尿不濕的家長以父親居多,如果他們在買尿不濕的同時看到了啤酒,將有很大的概率會買來犒賞自己。這樣啤酒的銷售量自然會有所提高。
由啤酒和尿布的故事可以發現,適當的數據分析能夠幫助我們進行更加正確有效的決策。
數據分析的主要目的是,挖掘大量數據背後隱藏的信息,從而總結出數據變化的內在規律。
按照目的和階段先後進行劃分,數據分析一般分為:現狀分析、原因分析、預測分析
現狀分析,是對當前所得的數據進行總結。
形式一般為日常報表,如:日報、周報、月報
原因分析,是指進行現狀分析後,找到某種現象發生的原因。
比如,某種商品銷售量突然暴增,就需要對它進行數據分析,來找到其中的原由,給以後的銷售策略提供參考。
形式一般為專題分析。
預測分析,是指通過已有的現狀分析和原因分析,對某一決定可能造成的影響進行預測。
形式一般為專題分析。常在季度、年度計劃時進行。
數據分析,分析的是從大量數據中得出來的各項指標。
一般分為總體概覽指標、對比性指標、集中趨勢指標、離散程度指標、相關性指標等
總體概覽指標,又稱統計絕對數,它反映了某一數據字段的整體規模大小和總量。
“xx總量",如一定總體范圍內糧食總產量、工農業總產值、企業單位數等。
經常關注的總體概覽指標,我們一般稱為關鍵性指標
對比性指標,它反映了同一數據字段在不同時間下的數量對比關系。常見的有同比、環比、差等。
集中趨勢指標,它反映了一個時間段內數據字段的平均水平。
又稱平均指標。分為數值平均和位置平均。
算術平均數 : A n = a 1 + a 2 + ⋅ ⋅ ⋅ + a n n = 1 n ∑ i = 1 n a i 加權平均數 : G n = w 1 a 1 + w 2 a 2 + ⋅ ⋅ ⋅ + w n a n = ∑ i = 1 n w i a i w 1 + w 2 ⋅ ⋅ ⋅ + w n = ∑ i = 1 n w i = 1 算術平均數:A_n=\frac{a_1+a_2+···+a_n}{n}=\frac{1}{n}\sum_{i=1}^{n}a_i \\ 加權平均數:G_n=w_1a_1+w_2a_2+···+w_na_n=\sum_{i=1}^{n}w_ia_i \ \ \ \ \ \ w_1+w_2···+w_n=\sum_{i=1}^{n}w_i=1 算術平均數:An=na1+a2+⋅⋅⋅+an=n1i=1∑nai加權平均數:Gn=w1a1+w2a2+⋅⋅⋅+wnan=i=1∑nwiai w1+w2⋅⋅⋅+wn=i=1∑nwi=1
離散程度指標,它反映了數據的離散(波動)情況。
常見的有全距、方差、標准差等
全距 : R = max D − min D 全距:R=\max D-\min D 全距:R=maxD−minD
全距容易受異常值的影響,為了解決這個問題,引入了四分位數。
四分位數:將數據從小到大排列,一分為四,得到三個臨界數據,稱最大的為上四分位數,最小的為下四分位數,剩下的那個為中位數。
方差:反映數據相對於平均值的波動程度。越小波動程度越低。
標准差:方差的開方。反映數據相對於平均值的波動程度。更為直接。越小波動程度越低。
方差 s 2 = 1 n [ ( a 1 − A n ) 2 + ( a 2 − A n ) 2 + ⋅ ⋅ ⋅ + ( a n − A n ) 2 ] = 1 n ∑ i = 1 n ( a i − A n ) 2 標准差 s = s 2 = 1 n ∑ i = 1 n ( a i − A n ) 2 方差\ s^2=\frac{1}{n}[(a_1-A_n)^2+(a_2-A_n)^2+···+(a_n-A_n)^2]=\frac{1}{n}\sum_{i=1}^{n}(a_i-A_n)^2\\ 標准差\ s=\sqrt {s^2}=\sqrt {\frac{1}{n}\sum_{i=1}^{n}(a_i-A_n)^2} 方差 s2=n1[(a1−An)2+(a2−An)2+⋅⋅⋅+(an−An)2]=n1i=1∑n(ai−An)2標准差 s=s2=n1i=1∑n(ai−An)2
相關性指標,它反映了兩個數據字段間的相關性。
常見的有協方差,相關系數等。
協方差:表示兩個數據字段之間的總體誤差。為正,則兩個數據字段正相關,為負,負相關。
協方差 C o v [ X , Y ] = ∑ i = 1 n ( x i − X n ) ( y i − Y n ) n 協方差\ Cov[X,Y]=\frac{\sum_{i=1}^{n}(x_i-X_n)(y_i-Y_n)}{n} 協方差 Cov[X,Y]=n∑i=1n(xi−Xn)(yi−Yn)
相關系數:范圍為 [ − 1 , 1 ] [-1,1] [−1,1],絕對值越大說明相關性越強。符號為正,代表正相關。為負,代表負相關。
相關系數 r ( X , Y ) = C o v [ X , Y ] s 2 ( X ) ⋅ s 2 ( Y ) = ∑ i = 1 n ( x i − X n ) ( y i − Y n ) ∑ i = 1 n ( x i − X n ) 2 ⋅ ∑ i = 1 n ( y i − Y n ) 2 相關系數 \ r(X,Y)=\frac{Cov[X,Y]}{\sqrt {s^2(X)·s^2(Y)}}=\frac{\sum_{i=1}^{n}(x_i-X_n)(y_i-Y_n)}{\sqrt {\sum_{i=1}^n(x_i-X_n)^2·\sum_{i=1}^n(y_i-Y_n)^2}} 相關系數 r(X,Y)=s2(X)⋅s2(Y)Cov[X,Y]=∑i=1n(xi−Xn)2⋅∑i=1n(yi−Yn)2∑i=1n(xi−Xn)(yi−Yn)
工欲善其事,必先利其器。
常見的數據分析工具有Excel、Python、R、Sql等
明確本次數據分析的目的,即希望通過數據分析解決什麼問題,想得出什麼方面的結論。
從各種渠道獲取數據源。
從各方面總覽獲取到的數據。
對特殊數據進行處理。
如:
對數據字段的各項指標進行分析
分析後得出結論
用實踐去檢驗結論的正確性。
通過數據可視化的方式向他人展示本次數據分析的結論。
重點學習Python和Excel