本書正文的最後一章,我們來看一些真實世界的數據集。對於每個數據集,我們會用之前介紹的方法,從原始數據中提取有意義的內容。展示的方法適用於其它數據集,也包括你的。本章包含了一些各種各樣的案例數據集,可以用來練習。
案例數據集可以在Github倉庫找到,見第一章。
#14.1 來自Bitly的USA.gov數據
2011年,URL縮短服務Bitly跟美國政府網站USA.gov合作,提供了一份從生成.gov或.mil短鏈接的用戶那裡收集來的匿名數據。在2011年,除實時數據之外,還可以下載文本文件形式的每小時快照。寫作此書時(2017年),這項服務已經關閉,但我們保存一份數據用於本書的案例。
以每小時快照為例,文件中各行的格式為JSON(即JavaScript Object Notation,這是一種常用的Web數據格式)。例如,如果我們只讀取某個文件中的第一行,那麼所看到的結果應該是下面這樣:
In [5]: path = 'datasets/bitly_usagov/example.txt'
In [6
Scrapy Is applicable to Python
解決方法pycharm配置環境變量:PYTHONUNBUFF
One 、 Introduction to the topi