程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

《對比Excel,輕松學習Python數據分析》讀書筆記------數據分析簡介

編輯:Python

數據分析簡介

    • 1.1 數據分析的定義
    • 1.2 數據分析的目的
      • 1.2.1 現狀分析
      • 1.2.2 原因分析
      • 1.2.3 預測分析
    • 1.3 數據分析的指標
      • 1.3.1 總體概覽指標
      • 1.3.2 對比性指標
      • 1.3.4 集中趨勢指標
      • 1.3.5 離散程度指標
      • 1.3.6 相關性指標
    • 1.4 數據分析的一般流程
      • 1.4.1 熟悉工具
      • 1.4.2 明確目的
      • 1.4.3 獲取數據
      • 1.4.4 熟悉數據
      • 1.4.5 處理數據
      • 1.4.6 分析數據
      • 1.4.7 得出結論
      • 1.4.8 驗證結論
      • 1.4.9 展示結論
    • 1.5 數據分析工具

1.1 數據分析的定義

數據分析是指,利用合適的工具,在統計學理論的支撐下,對數據進行一定的預處理,結合業務需求分析解構數據,以期能夠監控、定位、預防、分析、解決問題,提高經營效率,發現機遇機會的過程。

1.2 數據分析的目的

啤酒和尿布

數據分析裡有一個經典的案例,超市裡經常會把嬰兒尿不濕和啤酒放在一起售賣,原因是經過數據分析發現,出來買尿不濕的家長以父親居多,如果他們在買尿不濕的同時看到了啤酒,將有很大的概率會買來犒賞自己。這樣啤酒的銷售量自然會有所提高。

由啤酒和尿布的故事可以發現,適當的數據分析能夠幫助我們進行更加正確有效的決策。

數據分析的主要目的是,挖掘大量數據背後隱藏的信息,從而總結出數據變化的內在規律

按照目的和階段先後進行劃分,數據分析一般分為:現狀分析、原因分析、預測分析

1.2.1 現狀分析

現狀分析,是對當前所得的數據進行總結。

  • 總結當前運營的整體狀態
  • 總結各項關鍵指標的變化量

形式一般為日常報表,如:日報、周報、月報

1.2.2 原因分析

原因分析,是指進行現狀分析後,找到某種現象發生的原因。

比如,某種商品銷售量突然暴增,就需要對它進行數據分析,來找到其中的原由,給以後的銷售策略提供參考。

形式一般為專題分析。

1.2.3 預測分析

預測分析,是指通過已有的現狀分析和原因分析,對某一決定可能造成的影響進行預測。

形式一般為專題分析。常在季度、年度計劃時進行。

1.3 數據分析的指標

數據分析,分析的是從大量數據中得出來的各項指標。

一般分為總體概覽指標、對比性指標、集中趨勢指標、離散程度指標、相關性指標等

1.3.1 總體概覽指標

總體概覽指標,又稱統計絕對數,它反映了某一數據字段的整體規模大小總量

“xx總量",如一定總體范圍內糧食總產量、工農業總產值、企業單位數等。

經常關注的總體概覽指標,我們一般稱為關鍵性指標

1.3.2 對比性指標

對比性指標,它反映了同一數據字段在不同時間下的數量對比關系。常見的有同比、環比、差等。

  • 同比:與過去相同時間段的相同時間點進行對比。比如今年7月份與去年7月份銷售量之間的比較。
  • 環比:與當前相同時間段的不同時間點進行對比。比如今年7月份與今年6月份銷售量之間的比較。
  • :兩個不同時間段內的指標直接作差。

1.3.4 集中趨勢指標

集中趨勢指標,它反映了一個時間段內數據字段的平均水平

又稱平均指標。分為數值平均和位置平均。

  • 數值平均:算術平均數、加權平均數等

算術平均數 : A n = a 1 + a 2 + ⋅ ⋅ ⋅ + a n n = 1 n ∑ i = 1 n a i 加權平均數 : G n = w 1 a 1 + w 2 a 2 + ⋅ ⋅ ⋅ + w n a n = ∑ i = 1 n w i a i        w 1 + w 2 ⋅ ⋅ ⋅ + w n = ∑ i = 1 n w i = 1 算術平均數:A_n=\frac{a_1+a_2+···+a_n}{n}=\frac{1}{n}\sum_{i=1}^{n}a_i \\ 加權平均數:G_n=w_1a_1+w_2a_2+···+w_na_n=\sum_{i=1}^{n}w_ia_i \ \ \ \ \ \ w_1+w_2···+w_n=\sum_{i=1}^{n}w_i=1 算術平均數:An​=na1​+a2​+⋅⋅⋅+an​​=n1​i=1∑n​ai​加權平均數:Gn​=w1​a1​+w2​a2​+⋅⋅⋅+wn​an​=i=1∑n​wi​ai​      w1​+w2​⋅⋅⋅+wn​=i=1∑n​wi​=1

  • 位置平均:中位數、眾數等
    • 中位數:將數據從小到大排列,位於正中間的一個數據或兩個數據的平均值
    • 眾數:一定區域的數據中出現次數最多的數據值

1.3.5 離散程度指標

離散程度指標,它反映了數據的離散(波動)情況

常見的有全距、方差、標准差等

  • 全距:又稱極差。反映數據字段整體波動范圍

全距 : R = max ⁡ D − min ⁡ D 全距:R=\max D-\min D 全距:R=maxD−minD

全距容易受異常值的影響,為了解決這個問題,引入了四分位數。

  • 四分位數:將數據從小到大排列,一分為四,得到三個臨界數據,稱最大的為上四分位數,最小的為下四分位數,剩下的那個為中位數。

  • 方差:反映數據相對於平均值的波動程度。越小波動程度越低。

  • 標准差:方差的開方。反映數據相對於平均值的波動程度。更為直接。越小波動程度越低。

方差  s 2 = 1 n [ ( a 1 − A n ) 2 + ( a 2 − A n ) 2 + ⋅ ⋅ ⋅ + ( a n − A n ) 2 ] = 1 n ∑ i = 1 n ( a i − A n ) 2 標准差  s = s 2 = 1 n ∑ i = 1 n ( a i − A n ) 2 方差\ s^2=\frac{1}{n}[(a_1-A_n)^2+(a_2-A_n)^2+···+(a_n-A_n)^2]=\frac{1}{n}\sum_{i=1}^{n}(a_i-A_n)^2\\ 標准差\ s=\sqrt {s^2}=\sqrt {\frac{1}{n}\sum_{i=1}^{n}(a_i-A_n)^2} 方差 s2=n1​[(a1​−An​)2+(a2​−An​)2+⋅⋅⋅+(an​−An​)2]=n1​i=1∑n​(ai​−An​)2標准差 s=s2​=n1​i=1∑n​(ai​−An​)2

1.3.6 相關性指標

相關性指標,它反映了兩個數據字段間的相關性。

常見的有協方差,相關系數等。

協方差:表示兩個數據字段之間的總體誤差。為正,則兩個數據字段正相關,為負,負相關。
協方差  C o v [ X , Y ] = ∑ i = 1 n ( x i − X n ) ( y i − Y n ) n 協方差\ Cov[X,Y]=\frac{\sum_{i=1}^{n}(x_i-X_n)(y_i-Y_n)}{n} 協方差 Cov[X,Y]=n∑i=1n​(xi​−Xn​)(yi​−Yn​)​

相關系數:范圍為 [ − 1 , 1 ] [-1,1] [−1,1],絕對值越大說明相關性越強。符號為正,代表正相關。為負,代表負相關。
相關系數  r ( X , Y ) = C o v [ X , Y ] s 2 ( X ) ⋅ s 2 ( Y ) = ∑ i = 1 n ( x i − X n ) ( y i − Y n ) ∑ i = 1 n ( x i − X n ) 2 ⋅ ∑ i = 1 n ( y i − Y n ) 2 相關系數 \ r(X,Y)=\frac{Cov[X,Y]}{\sqrt {s^2(X)·s^2(Y)}}=\frac{\sum_{i=1}^{n}(x_i-X_n)(y_i-Y_n)}{\sqrt {\sum_{i=1}^n(x_i-X_n)^2·\sum_{i=1}^n(y_i-Y_n)^2}} 相關系數 r(X,Y)=s2(X)⋅s2(Y)​Cov[X,Y]​=∑i=1n​(xi​−Xn​)2⋅∑i=1n​(yi​−Yn​)2​∑i=1n​(xi​−Xn​)(yi​−Yn​)​

1.4 數據分析的一般流程

1.4.1 熟悉工具

工欲善其事,必先利其器。

常見的數據分析工具有Excel、Python、R、Sql等

1.4.2 明確目的

明確本次數據分析的目的,即希望通過數據分析解決什麼問題,想得出什麼方面的結論。

1.4.3 獲取數據

從各種渠道獲取數據源。

  • 明確所需要的數據字段
  • 明確所需數據的時間段
  • 明確數據所在的數據表
  • 明確如何提取數據

1.4.4 熟悉數據

從各方面總覽獲取到的數據。

  • 數據的大體規模
  • 某些數據字段是否缺少或多余
  • 數據字段的類型

1.4.5 處理數據

對特殊數據進行處理。

如:

  • 異常數據:根據需求,刪除或重點研究
  • 重復數據:一般刪除即可
  • 缺失數據:缺失率高於 30 % 30\% 30% 一般直接刪除;:缺失率低於 30 % 30\% 30% 一般使用0、均值、眾數等進行填充。
  • 測試數據

1.4.6 分析數據

對數據字段的各項指標進行分析

1.4.7 得出結論

分析後得出結論

1.4.8 驗證結論

用實踐去檢驗結論的正確性。

1.4.9 展示結論

通過數據可視化的方式向他人展示本次數據分析的結論。

1.5 數據分析工具

重點學習Python和Excel


  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved