數據分析師通常都需要借助編程工具整理數量大而復雜的數據,在這些數據中挖掘有用的資料。簡而言之,數據分析師就是從凌亂的數據中整理出規則的人,而這樣的工作要求數據分析師掌握這些技巧:
這篇文章將使用 Python在線運行一系列經典的數據分析案例,讓你對數據分析工具與編程有一定的了解,通過這些數據進行可視化並呈現我們所整理的數據。
文章中所使用的數據和范例代碼已整理到項目文件中,大家只要打開就可以開始使用 Python在線運行並查看數據:https://e2f35f8cd0-share.lightly.teamcode.com
首先,我們需要使用Python中的Pandas庫來讀取 .csv
文件的數據。如果你的項目文件中還未安裝pandas,可以參考 安裝教程通過 pip install pandas
或Quick Fix一鍵安裝。
安裝好Pandas庫後,我們還需要在編輯區使用Python代碼 import pandas
導入,然後再通過下面的代碼讀取數據文件。
import pandas as pd
from tabulate import tabulate
df = pd. read_csv( 'diabetes.csv'
大家可以使用以下代碼,在編輯器中使用 Python 在線運行並查看數據效果:
print( tabulate( df, headers = 'keys', tablefmt = 'psql'))
作為數據分析師,大家應該要知道數值(Numerical)和分類(Categorical)數據之間的區別。
數值數據顧名思義,指的是具有數值意義的數據。這種數據具有實際測量的物理意義,比如血糖、血壓、年齡等。
分類數據則描述對象的性質,比性別、婚姻狀況、家鄉等。我們這次使用的數據中,其實只有“結果”屬於分類數據。在表示分類數據時,我們同樣能使用數字來進行描述,但這些數據並沒有數學意義,你不能拿他來做運算。
在這個教程中,我們會展示一系列使用Python在線運行的數據可視化效果,大家可以根據自己的數據類型選擇合適的圖表來呈現。
餅圖
使用 Python在線運行代碼: SimplePie.py
散點圖
使用 Python在線運行代碼: scatterplot.py
折線圖
使用 Python在線運行代碼: linechart.py
柱狀圖
使用 Python在線運行代碼: multibar.py
當我們完成數據分析和可視化圖表後,我們可以根據數據和圖標內容,簡要說明數據故事。例如:購買奔馳的人明顯比寶馬更多、中老年人患糖尿病的比例更高、一月份的冰箱購買量遠比其他月份高等,從而根據其他數據和實際情況繼續分析。
數據分析師也是人,我們在分析數據的時候有時也會帶有一些陷入為主的觀念。然而,數據的意義就是為了破除這些迷思。分析數據的過程中,我們需要保持開放的態度,不要讓偏見影響我們的數據結果。