本書中,我已經介紹了Python數據分析的編程基礎。因為數據分析師和科學家總是在數據規整和准備上花費大量時間,這本書的重點在於掌握這些功能。
開發模型選用什麼庫取決於應用本身。許多統計問題可以用簡單方法解決,比如普通的最小二乘回歸,其它問題可能需要復雜的機器學習方法。幸運的是,Python已經成為了運用這些分析方法的語言之一,因此讀完此書,你可以探索許多工具。
本章中,我會回顧一些pandas的特點,在你膠著於pandas數據規整和模型擬合和評分時,它們可能派上用場。然後我會簡短介紹兩個流行的建模工具,statsmodels和scikit-learn。這二者每個都值得再寫一本書,我就不做全面的介紹,而是建議你學習兩個項目的線上文檔和其它基於Python的數據科學、統計和機器學習的書籍。
模型開發的通常工作流是使用pandas進行數據加載和清洗,然後切換到建模庫進行建模。開發模型的重要一環是機器學習中的“特征工程”。它可以描述從原始數據集中提取信息的任何數據轉換或分析,這些數據集可能在建模中有用。本書中學習的數據聚合和GroupBy工具常用於特征工程中。
優秀的特征工程超出了本書的范圍,我會盡量直白地介紹一些用於數據操作和建模切換的方法。
pandas與其它分析庫通常是靠NumPy的數組聯系起來的。將DataFrame轉換為NumPy數組,可以使用.values屬性:
In [10]