程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

Python數據挖掘—爬蟲基礎

編輯:Python

Python數據挖掘—爬蟲基礎

    • 反爬手段
      • 1.User‐Agent
      • 2.代理IP
      • 3. 驗證碼訪問
      • 4.動態加載網頁
      • 5.數據加密
    • urllib庫
    • 請求對象的定制
    • 正則表達式

反爬手段

1.User‐Agent

User Agent中文名為用戶代理,簡稱 UA,它是一個特殊字符串頭,使得服務器能夠識別客戶使用的操作系統及版本、CPU 類型、浏覽器及版本、浏覽器渲染引擎、浏覽器語言、浏覽器插件等。

2.代理IP

西次代理
快代理
什麼是高匿名、匿名和透明代理?它們有什麼區別?
1. 使用透明代理,對方服務器可以知道你使用了代理,並且也知道你的真實IP。
2. 使用匿名代理,對方服務器可以知道你使用了代理,但不知道你的真實IP。
3.
4. 使用高匿名代理,對方服務器不知道你使用了代理,更不知道你的真實IP。

3. 驗證碼訪問

打碼平台
雲打碼平台
超級

4.動態加載網頁

網站返回的是js數據 並不是網頁的真實數據
selenium驅動真實的浏覽器發送請求

5.數據加密

分析js代碼

urllib庫

urllib.request.urlopen() 模擬浏覽器向服務器發送請求
response 服務器返回的數據
response的數據類型是HttpResponse
字節‐‐>字符串
解碼decode
字符串‐‐>字節
編碼encode
read() 字節形式讀取二進制 擴展:rede(5)返回前幾個字節
readline() 讀取一行
readlines() 一行一行讀取 直至結束
getcode() 獲取狀態碼
geturl() 獲取url
getheaders() 獲取headers
urllib.request.urlretrieve()
請求網頁
請求圖片
請求視頻

請求對象的定制

語法:request = urllib.request.Request()

正則表達式


  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved