信息可視化(也叫繪圖)是數據分析中最重要的工作之一。它可能是探索過程的一部分,例如,幫助我們找出異常值、必要的數據轉換、得出有關模型的idea等。另外,做一個可交互的數據可視化也許是工作的最終目標。Python有許多庫進行靜態或動態的數據可視化,但我這裡重要關注於matplotlib(http://matplotlib.org/)和基於它的庫。
matplotlib是一個用於創建出版質量圖表的桌面繪圖包(主要是2D方面)。該項目是由John Hunter於2002年啟動的,其目的是為Python構建一個MATLAB式的繪圖接口。matplotlib和IPython社區進行合作,簡化了從IPython shell(包括現在的Jupyter notebook)進行交互式繪圖。matplotlib支持各種操作系統上許多不同的GUI後端,而且還能將圖片導出為各種常見的矢量(vector)和光柵(raster)圖:PDF、SVG、JPG、PNG、BMP、GIF等。除了幾張,本書中的大部分圖都是用它生成的。
隨著時間的發展,matplotlib衍生出了多個數據可視化的工具集,它們使用matplotlib作為底層。其中之一是seaborn(http://seaborn.pydata.org/),本章後面會學習它。
學習本章代碼案例的最簡單方法是在Jupyter notebook進行交互式繪圖。在Jupyter notebook中執行下面的語句:
%matplotlib notebook