程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

10分鐘入門Python爬蟲【新手必備】

編輯:Python

歡迎小伙伴的點評,相互學習、互關必回、全天在線
博主🧑🧑 總結了近期學習python 爬蟲的心得,10分鐘入門爬蟲,文章如下

文章目錄

  • 一 、淺談python爬蟲流程
    • 1.1 獲取網頁
    • 1.2解析網頁(提取數據)
    • 1.3 存儲數據
  • 二、3個流程的技術實現
    • 2.1獲取網頁技術
    • 2.2解析網頁技術
    • 2.3存儲數據的技術
  • 三、編寫一個簡單的網絡爬蟲實例
    • 3.1使用工具簡介
    • 3.2實例源碼1
      • 3.2.1 、爬取百度的html頁面並保存
      • 3.2.2效果圖如下
    • 3.3實例源碼2
      • 3.3.1 爬取百度logo圖片並保存
      • 3.3.2效果圖如下
  • 四、Python爬蟲總結


一 、淺談python爬蟲流程

網絡爬蟲的流程其實非常簡單,主要可以分三個部分:

1.1 獲取網頁

獲取網頁:就是給一個網址發送請求,該網址會返回整個網頁的數據。類似與在浏覽器中鍵入網址並按回車鍵,然後可以看到網站的整個頁面。

1.2解析網頁(提取數據)

解析網頁:就是從整個網頁的數據中提取想要的數據。類似於你在頁面中想找到產品的價格,價格就是你要提取的數據。

1.3 存儲數據

存儲數據:就是把數據存儲下來。我們可以存儲csv中,也可以存儲在數據庫中。

獲取網頁解析網頁存儲數據

二、3個流程的技術實現

2.1獲取網頁技術

獲取網頁的基礎技術:requests、urllib和selenium。

2.2解析網頁技術

解析網頁的基礎技術:re正則表達式、BeautifulSoup和lxml。

2.3存儲數據的技術

存儲數據的基礎技術:存入txt文件和存入csv文件。

三、編寫一個簡單的網絡爬蟲實例

3.1使用工具簡介

  • PyCharm Community Edition 2022.1.4
  • Python3.10
  • requests
  • 安裝好python後打開cmd安裝requests的命令
pip install requests

3.2實例源碼1

3.2.1 、爬取百度的html頁面並保存


import requests
url = "http://www.baidu.com"
response = requests.get( url )
response.encoding = "utf-8" #設置接收編碼格式
print(" r的類型" + str( type(response) ) )
print(" 狀態碼是:" + str( response.status_code ) )
print(" 頭部信息:" + str( response.headers ) )
print( " 響應內容:" )
print( response.text )
#保存文件
file = open("baidu.html","w",encoding="utf") #打開一個文件,w是文件不存在則新建一個文件,這裡不用wb是因為不用保存成二進制
file.write( response.text )
file.close()

3.2.2效果圖如下


這裡有一個問題 打開頁面沒有百度logo
沒關系咱們去把logo爬下來就好了,看一下爬取的信息發現了百度的logo如下圖


把百度logo的URL拷貝下來用來抓取圖片

3.3實例源碼2

3.3.1 爬取百度logo圖片並保存


import requests #先導入爬蟲的庫,不然調用不了爬蟲的函數
response = requests.get("https://www.baidu.com/img/bd_logo1.png") #get方法的到圖片響應
file = open("bd_logo1.png","wb") #打開一個文件,保存到本地
file.write(response.content) #寫入文件
file.close()#關閉操作

3.3.2效果圖如下



四、Python爬蟲總結

對於網絡爬蟲技術的學習,我們應該從宏觀的角度出發去思考

  • Python爬蟲的流程是怎樣的,數據是怎麼從網絡端下載到本地端的;
  • Python爬蟲流程技術是怎麼實現的;

  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved