程式師世界 >> 編程語言 >> JAVA編程 >> JAVA綜合教程 >> 知乎爬蟲之3:請求分析（附贈之前爬取的數據一份），爬蟲附贈

知乎爬蟲之3:請求分析（附贈之前爬取的數據一份），爬蟲附贈

編輯：JAVA綜合教程

知乎爬蟲之3:請求分析（附贈之前爬取的數據一份），爬蟲附贈

本文由博主原創,轉載請注明出處：我的博客-知乎爬蟲之3:請求分析

git爬蟲項目地址(關注和star在哪裡~~):https://github.com/MatrixSeven/ZhihuSpider （已經完結）

附贈之前爬取的數據一份(mysql): 鏈接:https://github.com/MatrixSeven/ZhihuSpider/README.MD 只下載不點贊，不star，差評差評~藍瘦香菇）

咱們上一篇所長說了爬蟲的爬取大概思路：知乎爬蟲之2:爬蟲流程設計(附贈爬出的數據庫),這一篇幅就來研究分析下模擬登陸知乎.

ps：拿數據的好多啊~只下載不點贊，不star，藍瘦香菇

首先來說,網上模擬登陸知乎的文章已經是多不勝數,而且模擬登陸知乎也比模擬登陸微博百度簡單很多,但是本著善始善終的原則,咱們還是重頭到尾的過上一遍.

1.工具

恩,工具呢,就用咱們自己平時用的浏覽器就ok.牛逼閃閃的f12,就足夠用.然後在使用下Fiddler來查看下登陸狀態…

2.登陸分析

打開http://www.zhihu.com,點擊登陸,然後直接F12,調試出開發者工具,選擇NetWork,輸入賬號密碼和驗證碼,點擊登陸,發現右側出現了網絡請求.

發現有個email的請求,請求信息為:

請求地址:https://www.zhihu.com/login/email
請求方式:post

下面的內容先不去管它,直接拽到最下面:

..發現有如下信息

_xsrf:xxxxxxxxxxxxxxxxxx
password:xxxxx
captcha:HDMG
email:[email protected]

恩,就是Post一下,看看登陸時候成功,並且抓一下登陸失敗時的錯誤信息.

故意輸入錯誤郵箱 ,密碼

拿到如下結果:

1. 郵箱不存在:

2. 密碼錯誤:

那麼登陸成功是怎麼一種標識狀態呢?

咱們這裡借助下Fiddler

打開Fiddler,再次進項知乎登陸,然後找到 https://www.zhihu.com/login/email 這個請求.發現登陸成功後返回了一個Json串:

恩,那麼還有一個_xsrf,那麼這個參數在哪裡呢?

其實_xsrf這種東西,基本都存在於頁面的源碼裡,打開登陸頁面,右鍵查看查看源代碼,可發現:

哈哈,原來在一個隱藏域裡....

哈哈,這是不是故意就讓人爬的了...過程比我想象中的簡單很多..

但是具體行不行呢,還得上代碼試一試哈哈...

## 3.跟隨/關注分析

直接打開https://www.zhihu.com/people/Sweets07/followers,然後f12,開始分析請求.

直接滾動頁面,發現出現異步請求,請求地址為:

https://www.zhihu.com/api/v4/members/Sweets07/followers?per_page=10&include=data%5B%2A%5D.employments%2Ccover_url%2Callow_message%2Canswer_count%2Carticles_count%2Cfavorite_count%2Cfollower_count%2Cgender%2Cis_followed%2Cmessage_thread_token%2Cis_following%2Cbadge%5B%3F%28type%3Dbest_answerer%29%5D.topics&limit=10&offset=30

可發現請求參數為:

include:data[*].employments,cover_url,allow_message,answer_count,articles_count,favorite_count,follower_count,gender,is_followed,message_thread_token,is_following,badge[?(type=best_answerer)].topics

limit:10

offset:30

返回的Json為:

哇塞.裡面有各種信息...

如:

1. 下一個請求的地址

2. 人員信息,id啊,頭像啊,學校,公司,簽名啊,關注人數.....

恩,其實咱們拿一部分就夠了,對,就是那個ID...有的id就可以直接打開個人頁面了..然後說這個請求有些問題,因為直接帶著cookie get會出現一個錯誤:

{"message":"身份未經過驗證","code":100,"name":"AuthenticationException"}

這個是因為在請求的時候多了一個頭:

那麼這個參數在哪裡呢??

找來找去,最後發現,這個參數在請求個人主頁信息的cookie裡.

跟隨者和關注者差不多.....

就到這裡吧,下一步開始撸代碼...

//吾愛Java(QQ群):170936712（點擊加入）

知乎爬蟲之2:爬蟲流程設計(附贈爬出的數據庫)

JAVA綜合教程

計算機程序的思維邏輯 (42)，思維42

計算機程序的思維邏輯 (42)，思維4240節介紹了Hash

對象練習，java面向對象練習題

對象練習，java面向對象練習題（1）編寫西游記人物類（Xi

Java基礎之打印萬年歷，java打印萬年歷

Java基礎之打印萬年歷，java打印萬年歷 &

win通過dos配置注冊列表

win通過dos配置注冊列表由於服務器數量眾多，需求是配置環

純手工打造（不使用IDE）java web 項目，純手工ide

純手工打造（不使用IDE）java web 項目，純手工id

Java傳值和傳址，java傳值

Java傳值和傳址，java傳值調用函數時，傳的參數過去可能

熱門圖文

java分解質因數，java質因數 Java性能優化權威指南-讀書筆記（五）-JVM性能調優-吞吐量，-jvm調優為托管應用程序添加DPI Aware支持 VC實現文件的查找 Java Servlet和JSP教程 asp下調試程序的debug類無線消息 API JSR-205 JSR-102 整理 php fputcsv命令寫csv文件遇到的小問題（多維數組連接符）

欄目導航

JAVA編程入門知識關於JAVA J2EE J2SE J2ME JAVA綜合教程