因為最近項目需要,所以接觸到了網頁爬取。
初期接觸的都是一些比較簡單的網頁,通過Fiddler抓包分析後,就能模擬進行http請求,進行想要的操作。
後面接觸到一些復雜的網頁,模擬登錄一套比較難實現,並且網站是加密的,Fiddler抓包後根本分析不出來,所以采用了webbrower控件,直接用戶手動登錄,登錄後程序再自動完成後續操作。
再後來,遇到有些問題webbrower解決不了(點擊按鈕後無正確響應,不知道是iframe的原因還是跨域js的問題),就在網站找到了這個。
這個在網上搜索一下有很多,一些基本操作都有提到,如:獲取IE、打開指定URL、獲取控件、執行控件click、執行JS等。
但要實現自動化,一個最重要的就是判斷當前頁面加載完畢,這個網上提及到的比較少,下面是在網上辛苦搜集的一些方法:
判斷到ReadyState==tagREADYSTATE.READYSTATE_COMPLETE,則是加載完成。
但是在實際使用過程中有些情況(比如某些頁面的form提交查詢)ReadyState是不會發生變化的,及狀態一直是complete,所以此種判斷不准確。
判斷StatusText是否包含“完成 ”,如果包含則說明頁面加載完成,不包含則未加載完成。
當頁面完成加載的時候都會觸發DocumentComplete事件,所以我們可以通過DocumentComplete設置信號量來實現。