我們在這裡討論6個新手容易犯的錯誤,這些錯誤與你所使用工具的API或語法無關,而是與你的知識和經驗水平直接相關。在實際中如果出現了這些問題可能不會有任何的錯
誤提示,但是在應用中卻會給我們帶來很大的麻煩。
01
使用Pandas自帶的函數讀取文件
第一個錯誤與實際使用Pandas完成某些任務有關。具體來說我們在實際處理表格的數據集都非常龐大。使用pandas的read_csv讀取大文件將是你最大的錯誤。
為什麼?因為它太慢了!看看這個測試,我們加載TPS十月數據集,它有1M行和大約300個特性,占用了2.2GB的磁盤空間。
import pandas as pd
%%time
tps_october = pd.read_csv("data/train.csv")
Wall time: 21.8 s
read_csv花了大約22秒。你可能會說22秒並不多。但是在一個項目中,需要在不同的階段執行許多實驗。我們會創建很多單獨的腳本,用於清理、特征工程、選擇模型,以及其他任務。多次等待數據加載20秒就變得很長了。此外,數據集可能會更大時間就會更長。那麼有什麼更快的解決方案呢?
解決方案是在這個階段放棄Pandas,使用其他為快速IO設計的替代方案。我最喜歡的是datatable,但你也可以選擇Dask, Vaex, cuDF等。這裡是用datatable加載相同的數據集所需要的