程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

Pandas庫的基本使用方法

編輯:Python

Pandas庫的基本使用方法

  • 生成二維數組
  • 文件的讀取與寫入
    • 文件的寫入
    • 文件的讀取
  • 數據的一些預處理
    • 1.拆分,合並和分組計算
    • 2.數據的選取與清洗

生成二維數組

例:生成服從標准正態分布的24乘4隨機矩陣,行名為20191101到20191124,列名為A,B,C,D並保存為dataframe數據結構

import pandas as pd
import numpy as np
dates=pd.date_range(start="20191101",end="20191124",freq="D")#生成一組時間序列數據
a=pd.DataFrame(np.random.randn(24,4),index=dates,columns=list('ABCD'));a

文件的讀取與寫入

文件的寫入

這裡有csv和xlsx兩種格式

a.to_excel("dataframe.xlsx")
a.to_csv("dataframe1.csv")

或者:

f=pd.ExcelWriter("data.xlsx")
a.to_excel(f,'sheet1')
b=a+1
b.to_excel(f,'sheet2')
f.save()

這樣就能在一個excel中看到兩個表格:

文件的讀取

c=pd.read_csv("dataframe1.csv",usecols=range(1,5))#讀取文件並展示行名
d=pd.read_excel("data.xlsx",'sheet2',usecols=range(1,5))#讀取文件的第二個表格並展示行名

數據的一些預處理

1.拆分,合並和分組計算

import pandas as pd
import numpy as np
dates=pd.date_range(start="20191101",end="20191124",freq="D")#生成一組時間序列數據
d=pd.DataFrame(np.random.randn(24,4),index=dates,columns=list('ABCD'));a
d1=d[:4]#獲取數據的前四行數據
d2=d[4:]#讀取數據五行以後的數據
d3=pd.concat([d1],[d2])#合並行數據
s1=d.groupby("A").mean()#數據分組求均值
s2=d.groupby("A").apply(sum)#s數據分組求和

2.數據的選取與清洗

import pandas as pd
import numpy as np
data=pd.DataFrame(np.random.randint(1,3,(3,3)),index=["m","v","p"],columns=["one",'two','three'])
data.loc['m','one']=np.nan#修改第一行第一列的數據為空值
data.iloc[1:3,0:2]#提取數據的第2到3行,第1到2列
data["four"]="shit"#增加第四列數據
a2=data.reindex(["m",'v','p'])
a2.dropna()#刪除有不確定的值
a2

參考文章:https://book.douban.com/subject/35066598/


  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved