程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

【Python基礎】什麼是互聯網爬蟲?

編輯:Python

1、什麼是互聯網爬蟲?

如果我們吧互聯網比作一張大的蜘蛛網,那一台計算機上的數據便是蜘蛛網上的一個獵物,而爬蟲程序就是一只小蜘蛛,沿著蜘蛛網爬取自己想要的數據

解釋1:通過一個程序,根據url進行爬取網頁,獲取有用的信息

解釋2:使用程序模擬浏覽器,去向服務器發送請求,獲取響應信息

2、爬蟲核心?

1.爬取網頁:爬取整個網頁,包含了網頁中所有的內容

2.解析數據:將網頁中你得到的數據進行解析

3.難點:爬蟲和反爬蟲的博弈

3、爬蟲的用途

  • 數據分析/人工數據集
  • 社交軟件冷啟動
  • 輿情監控
  • 競爭對手監控

4、爬蟲分類

通用爬蟲:

        實例:百度、360、google、sougou等搜索引擎——伯樂在線

        功能

        訪問網頁->抓取數據->數據存儲->數據處理->提供檢索服務

        robots協議

        一個約定俗成的協議,添加robots.txt文件,來說明本網站有哪些內容不可以被抓去,起不到限制作用

        自己寫的爬蟲無須遵守

網站排名(SEO)

        1.根據pagerank算法值進行排名(參考個網站流量,點擊率等指標)

        2.百度競價排名

缺點

        1.抓去的數據大多是無用的

        2.不能根據用戶的需求來精確獲取數據

聚焦爬蟲

功能

        根據需求,實現爬蟲程序,抓取需要的數據

設計思路

        1.確定要爬取的url

        如何獲取url

        2.模擬浏覽器通過http協議訪問url,獲取服務器返回的html代碼

        如何訪問

        3.解析Html字符串(根據一定規則提取需要的數據)

        如何解析

5.反爬手段

1.User-Agent:

User Agent中文名為用戶代理,簡稱UA,它是一個特殊字符串頭,使得服務器能夠識別客戶使用的操作系統及版本、CPU類型、浏覽器及版本、浏覽器渲染引擎、浏覽器語言、浏覽器插件等

2.代理IP

        西次代理

        快代理

        什麼是高匿名、匿名和透明代理?它們有什麼區別?

        1.使用透明代理,對方服務器可以知道你使用了代理,並且也知道你的真實IP

        2.使用匿名代理,對方服務器可以知道你使用了代理,但是不知道你的真實IP

        3.使用高匿名代理,對方服務器不知道你是用了代理,更不知道你的真實IP

3.驗證碼訪問

        打碼平台

        雲打碼平台

        超級

4.動態加載頁面 網站返回的是js數據,並不是網頁的真實數據

 selenium驅動真實的浏覽器發送請求

5.數據加密

分析js代碼


  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved