您现在的位置：程式師世界 >> 編程語言 > >> 更多編程語言 >> Python

Python項目:爬蟲實戰

編輯：Python

博主：不許代碼碼上紅
項目：python爬蟲實戰
格言：莫道君行早，更有早行人。

文章目錄

- 項目概述
- 項目創建過程
- 效果圖
- 項目源碼

項目概述

1、bs4、BeautifulSoup

是一個可以從HTML或XML文件中提取數據的Python庫.它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式。
BeautifulSoup會幫你節省數小時甚至數天的工作時間。

2、re

指定了一組與之匹配的字符串；模塊內的函數可以檢查某個字符串是否與給定的正則表達式匹配（或者正則表達式是否匹配到字符串，這兩種說法含義相同）。

3、urllib

是一個收集了多個涉及 URL 的模塊的包：
urllib.request 打開和讀取 URL
urllib.error 包含 urllib.request 拋出的異常
urllib.parse 用於解析 URL
urllib.robotparser 用於解析 robots.txt 文件

4、️️️xlwt️️️

xlwt是Python中操作Excel的一個庫，可以將數據保存成Excel。

項目創建過程

第一步：引入所需要的庫

from bs4 import BeautifulSoup #網頁解析，獲取數據
import re #正則表達式，進行文字匹配
import urllib.request,urllib.error
import xlwt #進行excel操作

第二步：定義主函數

def main():

主函數用來統籌所有功能模塊函數，可以使真個項目的結構更加清晰。
第三步：定義的正則表達式規則

#影片詳情連接的規則
findLink=re.compile(r'<a href="(.*?)"')#創建規則，正則表達式對象,r忽視特殊符號

正則表達式通常被用來檢索、替換那些符合某個模式(規則)的文本。
第四步：創建抓取網頁函數getData

def getData(baseurl):

將我們所要抓取的網頁發放入，例如：

baseurl="https://movie.douban.com/top250?start="

讓後將baseurl傳入getData。

效果圖

數據抓取成功

項目源碼

鏈接：https://pan.baidu.com/s/1FFrEDZyRi8-6CqUiPB9WbA
提取碼：9527

希望大家多多支持，一起學習、一起進步！

上一篇文章：【Python3】基礎 - 基本數據類型
下一篇文章： Why do hackers love to use Python?What are the advantages of Python?

Python

求幫助，有關＃database ＃python,先謝過！

為什麼添加不了信息呀？為什麼運行不了呢？（是哪裡寫錯了嗎，

Python skill tree evaluation

Youth is the only time we have

Python用ARIMA ，ARIMAX預測商店商品銷售需求時間序列數據

原文鏈接：http://tecdat.cn/?p=27363

fc 有django現成的框架麼？

fc 有django現成的框架麼？采納答案1：如圖，此答

Python crawls op.gg data -- recommendation of strong heroes in the League of heroes version

By crawling for the hanbok op.

python opencv邊緣檢測

通過Opencv進行邊緣檢測可以說是十分常見了，接下來讓我們

没有相关文章

熱門圖文

uva 10404 Bachet&#39;s Game （完全背包+博弈） java-多線程並發問題，有圖，有C幣 php獲取mysql字段名稱和其它信息的例子在Windows 7中IIS配置Asp.Net虛擬目錄的方法及常見錯誤使用主動實體(ActiveEntity)簡化繼承體系映射類的寫操作 CodeIgniter框架中_remap()使用方法2例 java Byte[] to String(hex)，bytehex About Python: docxtpl is embedded by default when inserting pictures

欄目導航