程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> C語言 >> VC >> 關於VC++ >> DOM應用 - 遍歷網頁中的元素

DOM應用 - 遍歷網頁中的元素

編輯:關於VC++

一、摘要

在我們編寫的程序中,如果想要實現對浏覽器打開的網頁進行監視、模擬操縱、動態提取用戶輸入、動態修改......等功能,那麼請你抽出寶貴的時間,繼續往下閱讀。本文介紹的知識和示例程序都是圍繞如何遍歷 HTML 中的表單(form)並枚舉出表單域的屬性為目標的,對於網頁中的其它元素,比如圖象、連接、腳本等等,應用同樣的方法都可以輕松實現。

二、網頁的文檔層次結構

IE 浏覽器,采用 DOM(文檔對象模型)來管理網頁的數據。它通過一個容器(IWebBrowser2/IHTMLWindow2)來裝載網頁文檔(IHTMLDocument2),而一個文檔,又可以由 0 或多個貞(frame)組成,管理這些貞的接口叫“框架集合(IHTMLFramesCollection2)”,而每個貞的容器又是IHTMLWindow2,和IWebBrowser2一樣,它也裝載著各自的文檔(IHTMLDocument2)。因此,我們的第一個任務,就是想方設法能夠得到IHTMLDocument2的接口。因為文檔可能包含貞,而貞又包含著子文檔,子文檔可能再包含貞......,如此要得到所有的文檔,這裡有一個遞歸遍歷的處理過程。

得到文檔(IHTMLDocument2)後,下一步任務就是要設法取得表單了(IHTMLFormElement)。因為在一個文檔中可以包含 0 或多個表單(form),而管理這些表單的又是一個表單集合(IHTMLElementCollection),所以必須先得到集合,然後再枚舉出所有的表單條目了。

得到表單(IHTMLFormElement)後,接下來的事情就簡單了,逐個提取表單中的元素(也叫表單域 IHTMLInputElement)就可以讀寫這些域的屬性了。

說了半天,我估計初次接觸的朋友一定沒有聽懂:( 呵呵,還是用圖的方式表示一下吧,這樣比較清晰一些。

三、程序實現

<1> 取得 IHTMLDocument2 的接口指針。根據IE浏覽器的運行方式,有多種不同的方式可以獲取文檔指針。

<1.1> 如果你在程序中使用MFC的 CHtmlView 視來浏覽網頁。

取得文檔的方法最簡單,調用 CHtmlView::GetHtmlDocument() 函數。

<1.2> 如果你的程序中使用了“Web 浏覽器” 的ActiveX 控件。

取得文檔的方法也比較簡單,調用 CWebBrowser2::GetDocument() 函數。

<1.3> 如果你的程序是用 ATL 寫的 ActiveX 控件。

那麼需要調用 IOleClientSite::GetContainer 得到 IOleContainer 接口,然後就可以通過 QueryInterface() 查詢得到 IHTMLDocument2 的接口。主要代碼如下:

CComPtr < IOleContainer > spContainer;
m_spClientSite->GetContainer( &spContainer );
CComQIPtr < IHTMLDocument2 > spDoc = spContainer;
if ( spDoc )
{
   // 已經得到了 IHTMLDocument2 的接口指針
}
 <1.4> 如果你的程序是用 MFC 寫的 ActiveX 控件。

那麼需要調用 COleControl::GetClientSite() 得到 IOleContainer 接口,然後的操作和<1.3>是一致的了。

<1.5> IE 浏覽器作為獨立的進程正在運行。

每個運行的浏覽器(IE 和 資源浏覽器)都會在 ShellWindows 中進行登記,因此我們要通過 IShellWindows 取得實例(示例程序中使用的就是這個方法)。主要代碼如下:

#include < atlbase.h >
#include < mshtml.h >
void FindFromShell()
{
  CComPtr< IShellWindows > spShellWin;
  HRESULT hr = spShellWin.CoCreateInstance( CLSID_ShellWindows );
  if ( FAILED( hr ) )  return;
  long nCount=0;
  spShellWin->get_Count(&nCount);  // 取得浏覽器實例個數
  for(long i=0; i<nCount; i++)
    {
       CComPtr< IDispatch ><nCount; i++)
  {
    CComPtr< IDispatch ><nCount; i++)
    {
       CComPtr< IDispatch > spDisp;
    hr=spShellWin->Item(CComVariant( i ), &spDisp );
    if ( FAILED( hr ) )  continue;
    CComQIPtr< IWebBrowser2 > spBrowser = spDisp;
    if ( !spBrowser )   continue;
    spDisp.Release();
    hr = spBrowser->get_Document( &spDisp );
    if ( FAILED ( hr ) ) continue;
    CComQIPtr< IHTMLDocument2 > spDoc = spDisp;
    if ( !spDoc )     continue;
    // 程序運行到此,已經找到了 IHTMLDocument2 的接口指針
  }
}

<1.6> IE 浏覽器控件被一個進程包裝在一個子窗口中。那麼你首先要得到那個進程的頂層窗口句柄(使用 FindWindow() 函數,或其它任何可行的方法),然後枚舉所有子窗口,通過判斷窗口類名是否是“Internet Explorer_Server”,從而得到浏覽器的窗口句柄,再向窗口發消息取得文檔的接口指針。主要代碼如下:

#include < atlbase.h >
#include < mshtml.h >
#include < oleacc.h >
#pragma comment ( lib, "oleacc" )
BOOL CALLBACK EnumChildProc(HWND hwnd,LPARAM lParam)
{
  TCHAR szClassName[100];
  ::GetClassName( hwnd, &szClassName, sizeof(szClassName) );
  if ( _tcscmp( szClassName, _T("Internet Explorer_Server") ) == 0 )
  {
    *(HWND*)lParam = hwnd;
    return FALSE;    // 找到第一個 IE 控件的子窗口就停止
  }
  else  return TRUE;    // 繼續枚舉子窗口
};
void FindFromHwnd(HWND hWnd)
{
  HWND hWndChild=NULL;
  ::EnumChildWindows( hWnd, EnumChildProc, (LPARAM)&hWndChild );
  if(NULL == hWndChild)  return;
  UINT nMsg = ::RegisterWindowMessage( _T("WM_HTML_GETOBJECT") );
  LRESULT lRes;
  ::SendMessageTimeout( hWndChild, nMsg, 0L, 0L, SMTO_ABORTIFHUNG, 1000, (DWORD*) &lRes );
  CComPtr < IHTMLDocument2 > spDoc;
  HRESULT hr = ::ObjectFromLresult ( lRes, IID_IHTMLDocument2, 0 , (LPVOID *) &spDoc );
  if ( FAILED ( hr ) )  return;
  // 程序運行到此,已經找到了 IHTMLDocument2 的接口指針
}
<2> 得到了 IHTMLDocument2 接口指針後,如果網頁是單貞的,那麼轉第<4>步驟。如果是多貞(有子框架)則還需要遍歷所有的子框架。這些子框架(IHTMLWindow2),被保存在集合中(IHTMLFramesCollection2),取得集合指針的方法比較簡單,取屬性 IHTMLDocument2::get_frames()。

<3> 首先取得子框架的總數目 IHTMLFramesCollection::get_length(),接著就可以循環調用 IHTMLFramesCollection::item()函數一個一個地取得子框架 IHTMLWindow2 指針,然後轉第<1>步。

<4> 一個文檔中可能擁有多個表單,因此還是同樣的道理,先要取得表單的集合(IHTMLElementCollection,其實這個不光是表單的集合,其他元素的集合,比如圖片集合也是用它)。這個操作也很簡單,取得屬性 IHTMLDocument2::get_forms()。

<5> 屬性 IHTMLElementCollection::get_length() 得到表單總數目,就可以循環取得每一個表單指針了 IHTMLElementCollection::item()。

<6> 在第<5>步中的item()函數,得到的是一個IDispatch的指針,你通過QueryInterface()查詢,就可以得到 某類型輸入的指針,代碼如下: // 假設 spDisp 是由IHTMLElementCollection::item() 得到的 IDispatch 指針
CComQIPtr < IHTMLInputTextElement >   spInputText(spDisp);
CComQIPtr < IHTMLInputButtonElement >  spInputButton(spDisp);
CComQIPtr < IHTMLInputHiddenElement >  spInputHidden(spDisp);
......
if ( spInputText )
{
  //如果是文本輸入表單域
}
else if ( spInputButton )
{
  //如果是按紐輸入表單域
}
else if ( spInputHiddent )
{
  //如果是隱藏輸入表單域
}
else if ........  //其它輸入類型

上面的方法,由於使用具體類型的接口指針,因此程序的效率比較高。但是通過 QueryInterface 接口查詢,然後再進行條件判斷顯然是比較煩瑣的,所以這個方法適合於特定的已知網頁設計內容的程序。在示例程序中,我則是直接使用 IDispatch 接口進行操作的,這個方式執行起來稍微慢一些,但程序比較簡單。主要代碼和說明如下:#include < atlbase.h >
CComModule _Module;  // 由於需要使用 CComDispatchDriver 的 IDispatch 包裝類ATL智能指針,所以這個是必須的
#include < atlcom.h >
......
long nElemCount=0;    //表單域的總數目
spFormElement->get_length( &nElemCount );
for(long j=0; j< nElemCount; j++)
{
  CComDispatchDriver spInputElement;  // IDispatch 的智能指針
  spFormElement->item( CComVariant( j ), CComVariant(), &spInputElement );
  CComVariant vName,vVal,vType;  // 域名稱,域值,域類型
  spInputElement.GetPropertyByName( L"name", &vName );
  spInputElement.GetPropertyByName( L"value",&vVal );
  spInputElement.GetPropertyByName( L"type", &vType );
  // 使用 IDispatch 的智能指針的好處就是:象上面這樣讀取、設置屬性很簡單
  // 另外調用 Invoke 函數也異常方便,Invoke0(),Invoke1(),Invoke2()....
  ......
}

四、結束語

示例程序在 VC6 下編譯執行通過。運行方法:隨便啟動幾個 IE 浏覽網頁,最好是有表單輸入的網頁。然後執行示例的 EXE 程序即可。到這裡,就到這裡了......祝大家學習快樂 ^-^

本文配套源碼

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved