如果我們吧互聯網比作一張大的蜘蛛網,那一台計算機上的數據便是蜘蛛網上的一個獵物,而爬蟲程序就是一只小蜘蛛,沿著蜘蛛網爬取自己想要的數據
解釋1:通過一個程序,根據url進行爬取網頁,獲取有用的信息
解釋2:使用程序模擬浏覽器,去向服務器發送請求,獲取響應信息
1.爬取網頁:爬取整個網頁,包含了網頁中所有的內容
2.解析數據:將網頁中你得到的數據進行解析
3.難點:爬蟲和反爬蟲的博弈
實例:百度、360、google、sougou等搜索引擎——伯樂在線
功能
訪問網頁->抓取數據->數據存儲->數據處理->提供檢索服務
robots協議
一個約定俗成的協議,添加robots.txt文件,來說明本網站有哪些內容不可以被抓去,起不到限制作用
自己寫的爬蟲無須遵守
網站排名(SEO)
1.根據pagerank算法值進行排名(參考個網站流量,點擊率等指標)
2.百度競價排名
缺點
1.抓去的數據大多是無用的
2.不能根據用戶的需求來精確獲取數據
功能
根據需求,實現爬蟲程序,抓取需要的數據
設計思路
1.確定要爬取的url
如何獲取url
2.模擬浏覽器通過http協議訪問url,獲取服務器返回的html代碼
如何訪問
3.解析Html字符串(根據一定規則提取需要的數據)
如何解析
User Agent中文名為用戶代理,簡稱UA,它是一個特殊字符串頭,使得服務器能夠識別客戶使用的操作系統及版本、CPU類型、浏覽器及版本、浏覽器渲染引擎、浏覽器語言、浏覽器插件等
西次代理
快代理
什麼是高匿名、匿名和透明代理?它們有什麼區別?
1.使用透明代理,對方服務器可以知道你使用了代理,並且也知道你的真實IP
2.使用匿名代理,對方服務器可以知道你使用了代理,但是不知道你的真實IP
3.使用高匿名代理,對方服務器不知道你是用了代理,更不知道你的真實IP
打碼平台
雲打碼平台
超級
selenium驅動真實的浏覽器發送請求
分析js代碼