程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

Python第06章 數據加載、存儲與文件格式

編輯:Python

訪問數據是使用本書所介紹的這些工具的第一步。我會著重介紹pandas的數據輸入與輸出,雖然別的庫中也有不少以此為目的的工具。

輸入輸出通常可以劃分為幾個大類:讀取文本文件和其他更高效的磁盤存儲格式,加載數據庫中的數據,利用Web API操作網絡資源。

6.1 讀寫文本格式的數據

pandas提供了一些用於將表格型數據讀取為DataFrame對象的函數。表6-1對它們進行了總結,其中read_csv和read_table可能會是你今後用得最多的。

我將大致介紹一下這些函數在將文本數據轉換為DataFrame時所用到的一些技術。這些函數的選項可以劃分為以下幾個大類:

  • 索引:將一個或多個列當做返回的DataFrame處理,以及是否從文件、用戶獲取列名。
  • 類型推斷和數據轉換:包括用戶定義值的轉換、和自定義的缺失值標記列表等。
  • 日期解析:包括組合功能,比如將分散在多個列中的日期時間信息組合成結果中的單個列。
  • 迭代:支持對大文件進行逐塊迭代。
  • 不規整數據問題:跳過一些行、頁腳、注釋或其他一些不重要的東西(比如由成千上萬個逗號隔開的數值數據)。

因為工作中實際碰到的數據可能十分混亂,一些數據加載函數(尤其是read_csv)的選項逐漸變得復雜起來。面對不同的參數,感到頭痛很正常(read_csv有超過50個參數)。pandas文檔有這些參數的例子,如果你感到閱讀某個文件很難,可以通過相似的足夠多的例


  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved