主要是記錄一下pandas學習,最近要統計一個數據,我向以前stata裡面有一個很好用的函數,就是tabstat,可以分組統計,並且輸出很多指標。
最近處理數據我的數據是這樣的。
我向按照 valid_num分組,統計avg_stand的均值,標准差,最大,最小。最先想到是的stata的tabstat,以前用的很舒服。現在換python了。感覺可以用groupby,但是不知道怎麼用。百度了 一下。
group1 = df_avg.groupby('valid_num')
group1['avg_stand'].agg(['mean', 'std', 'count'])
可以這麼用就,輸出一些,基本上是想要的。
可以得到這個結果。
另外,我需要把 valid_num分一個組,比如分成,
valid_grp = pd.cut(valid_num, [0, 1, 2, 3, 4, 5, 10, 50, 100, 200])
分完組之後,在統計,也是可以的。
df_avg['vld_grp'] = valid_grp
group2 = df_avg.groupby('vld_grp')
group2['avg_stand'].agg(['mean', 'std', 'max', 'min', 'median']).to_clipboard()
得到結果是: