您现在的位置：程式師世界 >> 編程語言 > >> 更多編程語言 >> Python

【數據處理與分析】pandas快速入門

編輯：Python

參考教程：點這裡

pandas的series和dataFrame

pandas選擇數據

pandas設置值

pandas處理丟失數據NaN

pandas導入導出

pandas數據合並

pandas結合plot繪圖

END

pandas的series和dataFrame

pandas和numpy的關系：numpy是列表，pandas是字典，pandas基於numpy構建。

Series的形式：索引在左邊，值在右邊。沒有為數據指定索引會自動創建0到N-1（N為長度）的整數型索引。

DataFrame是一個表格型的數據結構，每列可以是不同的值類型，既有行索引也有列索引。

取df的“指標1”列：df['指標1']

創建一組沒有給定行標簽和列標簽的數據：pd.DataFrame(np.arange(12).reshape((3,4)))

創建對每一列的數據進行特殊對待的數據：

查看數據類型：df.dtypes

查看索引（行）的序號：df.index

查看每種數據（列）的名：df.columns

查看df的所有值：df.values

查看數據的總結（計數、平均值、最值等）：df.describe()

翻轉數據：df.T

對數據的 index 進行排序：df.sort_index(axis=1, ascending=False)

對數據的值進行排序：df.sort_values(by='A')

pandas選擇數據

選擇某列A： df['A'] 或 df.A

選擇0到2多列：df[0:2]

根據標簽選擇1行：df.loc[0] 【選擇索引為0的一行】

選擇所有行（: 代表所有行）：df.loc[:,['A','B']] 【選擇所有行的A、B兩列】

df.loc[3,['A','B']] 【選擇第3行的A、B兩列】

根據位置（索引）進行選擇數據：df.iloc[3,1] 【第3行第1列的數據】

df.iloc[2:3,0:3] 【第2到3行，第0到3列的數據】

df.iloc[[0,3],0:3] 【第0、3行，第0到3列的數據】

通過判斷的篩選：df[df.A==2] 【選擇列A的值為2的行】

pandas設置值

利用索引：df.iloc[2,2] = 1111 【修改第2行、第2列】

利用標簽：df.loc['20190401','B'] = 2222 【修改行‘20190401’、列‘B’】

根據條件：df.B[df.A>4] = 0 【列A大於4的都改成0】

按行或列：df['F'] = np.nan 【加上新列F，並設值為NaN】

 df_original['title_keywords'] = ['' for _ in range(content_num)]

添加數據：df['G'] = pd.Series([1,2,3,4,5,6], index=pd.date_range('20190401',periods=6))

pandas處理丟失數據NaN

直接去掉有 NaN 的行或列（pd.dropna()）：

將 NaN 的值用其他值代替（pd.fillna()）：df.fillna(value=0) 【全替換成0】

判斷每個值是否是缺失數據：df.isnull()

檢測整個數據表中是否存在 NaN, 如果存在就返回 True：np.any(df.isnull()) == True

pandas導入導出

pandas可以讀取與存取的格式：csv、excel、json、html、pickle等【官方文檔】

讀取csv：data = pd.read_csv('student.csv')

將資料存取成pickle：data.to_pickle('student.pickle')

pandas數據合並

concat縱向合並：res = pd.concat([df1, df2, df3], axis=0) 【可以發現索引沒變】

concat參數之ignore_index (重置 index) ：res = pd.concat([df1, df2, df3], axis=0, ignore_index=True)

concat參數之join (合並方式，默認join='outer') ：res = pd.concat([df1, df2], axis=0, join='outer') 【依照column來做縱向合並，有相同的column上下合並在一起，其他獨自的column個自成列，原本沒有值的位置皆以NaN填充。】

concat參數之join (合並方式，改為join='inner') ：res = pd.concat([df1, df2], axis=0, join='inner') 【只有相同的column合並在一起，其他的會被拋棄】

concat參數之join_axes：【根據df1的行索引來join，下圖2為去掉join_axes】