程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

python_data_analysis_and_mining_action-master-7

編輯:Python
# -*- coding: utf-8 -*-
import pandas as pd
from sklearn.cluster import KMeans
"""
programmer_1-->關於原始數據的一些特征描述並保存為新表,使用describe函數
programmer_2-->對原始數據進行清理,對其中某些數據做運算,並進行保存
programmer_3-->標准化數據並進行保存
programmer_4-->使用KMeans對數據進行聚類分析
"""
def programmer_1():
datafile = 'data/air_data.csv'
resultfile = 'tmp/explore.xls'
data = pd.read_csv(datafile, encoding='utf-8')
# 包括對數據的基本描述,percentiles參數是指定計算多少的分位數表(如1/4分位數、中位數等);T是轉置,轉置後更方便查閱
explore = data.describe(percentiles=[], include='all').T
# describe()函數自動計算非空值數,需要手動計算空值數
explore['null'] = len(data) - explore['count']
explore = explore[['null', 'max', 'min']]
explore.columns = [u'空值數', u'最大值', u'最小值']
'''這裡只選取部分探索結果。

  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved