程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

Python第13章 Python建模庫介紹

編輯:Python

本書中,我已經介紹了Python數據分析的編程基礎。因為數據分析師和科學家總是在數據規整和准備上花費大量時間,這本書的重點在於掌握這些功能。

開發模型選用什麼庫取決於應用本身。許多統計問題可以用簡單方法解決,比如普通的最小二乘回歸,其它問題可能需要復雜的機器學習方法。幸運的是,Python已經成為了運用這些分析方法的語言之一,因此讀完此書,你可以探索許多工具。

本章中,我會回顧一些pandas的特點,在你膠著於pandas數據規整和模型擬合和評分時,它們可能派上用場。然後我會簡短介紹兩個流行的建模工具,statsmodels和scikit-learn。這二者每個都值得再寫一本書,我就不做全面的介紹,而是建議你學習兩個項目的線上文檔和其它基於Python的數據科學、統計和機器學習的書籍。

13.1 pandas與模型代碼的接口

模型開發的通常工作流是使用pandas進行數據加載和清洗,然後切換到建模庫進行建模。開發模型的重要一環是機器學習中的“特征工程”。它可以描述從原始數據集中提取信息的任何數據轉換或分析,這些數據集可能在建模中有用。本書中學習的數據聚合和GroupBy工具常用於特征工程中。

優秀的特征工程超出了本書的范圍,我會盡量直白地介紹一些用於數據操作和建模切換的方法。

pandas與其它分析庫通常是靠NumPy的數組聯系起來的。將DataFrame轉換為NumPy數組,可以使用.values屬性:

In [10]

  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved