您现在的位置：程式師世界 >> 編程語言 > >> 更多編程語言 >> Python

10分鐘入門Python爬蟲【新手必備】

編輯：Python

歡迎小伙伴的點評，相互學習、互關必回、全天在線
博主🧑🧑 總結了近期學習python 爬蟲的心得，10分鐘入門爬蟲，文章如下

文章目錄

一、淺談python爬蟲流程
- 1.1 獲取網頁
- 1.2解析網頁（提取數據）
- 1.3 存儲數據
二、3個流程的技術實現
- 2.1獲取網頁技術
- 2.2解析網頁技術
- 2.3存儲數據的技術
三、編寫一個簡單的網絡爬蟲實例
- 3.1使用工具簡介
- 3.2實例源碼1
- - 3.2.1 、爬取百度的html頁面並保存
  - 3.2.2效果圖如下
- 3.3實例源碼2
- - 3.3.1 爬取百度logo圖片並保存
  - 3.3.2效果圖如下
四、Python爬蟲總結

一、淺談python爬蟲流程

網絡爬蟲的流程其實非常簡單，主要可以分三個部分：

1.1 獲取網頁

獲取網頁：就是給一個網址發送請求，該網址會返回整個網頁的數據。類似與在浏覽器中鍵入網址並按回車鍵，然後可以看到網站的整個頁面。

1.2解析網頁（提取數據）

解析網頁：就是從整個網頁的數據中提取想要的數據。類似於你在頁面中想找到產品的價格，價格就是你要提取的數據。

1.3 存儲數據

存儲數據：就是把數據存儲下來。我們可以存儲csv中，也可以存儲在數據庫中。

二、3個流程的技術實現

2.1獲取網頁技術

獲取網頁的基礎技術：requests、urllib和selenium。

2.2解析網頁技術

解析網頁的基礎技術：re正則表達式、BeautifulSoup和lxml。

2.3存儲數據的技術

存儲數據的基礎技術：存入txt文件和存入csv文件。

三、編寫一個簡單的網絡爬蟲實例

3.1使用工具簡介

PyCharm Community Edition 2022.1.4
Python3.10
requests
安裝好python後打開cmd安裝requests的命令

pip install requests

3.2實例源碼1

3.2.1 、爬取百度的html頁面並保存


import requests
url = "http://www.baidu.com"
response = requests.get( url )
response.encoding = "utf-8" #設置接收編碼格式
print(" r的類型" + str( type(response) ) )
print(" 狀態碼是:" + str( response.status_code ) )
print(" 頭部信息:" + str( response.headers ) )
print( " 響應內容:" )
print( response.text )
#保存文件
file = open("baidu.html","w",encoding="utf") #打開一個文件，w是文件不存在則新建一個文件，這裡不用wb是因為不用保存成二進制
file.write( response.text )
file.close()

3.2.2效果圖如下

這裡有一個問題打開頁面沒有百度logo
沒關系咱們去把logo爬下來就好了，看一下爬取的信息發現了百度的logo如下圖

把百度logo的URL拷貝下來用來抓取圖片

3.3實例源碼2

3.3.1 爬取百度logo圖片並保存


import requests #先導入爬蟲的庫，不然調用不了爬蟲的函數
response = requests.get("https://www.baidu.com/img/bd_logo1.png") #get方法的到圖片響應
file = open("bd_logo1.png","wb") #打開一個文件,保存到本地
file.write(response.content) #寫入文件
file.close()#關閉操作