訪問數據是使用本書所介紹的這些工具的第一步。我會著重介紹pandas的數據輸入與輸出,雖然別的庫中也有不少以此為目的的工具。
輸入輸出通常可以劃分為幾個大類:讀取文本文件和其他更高效的磁盤存儲格式,加載數據庫中的數據,利用Web API操作網絡資源。
pandas提供了一些用於將表格型數據讀取為DataFrame對象的函數。表6-1對它們進行了總結,其中read_csv和read_table可能會是你今後用得最多的。
我將大致介紹一下這些函數在將文本數據轉換為DataFrame時所用到的一些技術。這些函數的選項可以劃分為以下幾個大類:
因為工作中實際碰到的數據可能十分混亂,一些數據加載函數(尤其是read_csv)的選項逐漸變得復雜起來。面對不同的參數,感到頭痛很正常(read_csv有超過50個參數)。pandas文檔有這些參數的例子,如果你感到閱讀某個文件很難,可以通過相似的足夠多的例