程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> C語言 >> VC >> 關於VC++ >> 如何提取網頁中所有鏈接

如何提取網頁中所有鏈接

編輯:關於VC++

見過“網際快車”的“使用網際快車下載全部鏈接”這個功能嗎?想實現它,我們可以這樣做:

IE有幾個有用的接口,我們可以用它來提取網頁所有鏈接。

一、基本原理

首先是用IHTMLDocument2的get_links,來獲取IHTMLElementCollection接口,再通過IHTMLElementCollection來獲取IHTMLAnchorElement,而IHTMLAnchorElement接口的get_href就是我們想要的,通過循環獲取,我們就可以得到網頁的所有鏈接了!

二、具體代碼

{
  TCHAR HostName[2*MAX_PATH];
  CComPtr<IDispatch> spDispatch;
  CComQIPtr<IHTMLDocument2, &IID_IHTMLDocument2> pDoc2;
  CComPtr<IHTMLElementCollection> pElementCol;
  CComPtr<IHTMLAnchorElement> pLoct;
  // TODO: Add your control notification handler code here
  int n = m_LinksList.GetItemCount();//GetCount();
  for (int i = 0; i < n; i ++){
    IWebBrowser2 *pBrowser = (IWebBrowser2 *)m_LinksList.GetItemData(i);
    if (pBrowser){
      pBrowser->Release();
    }
  }
  m_LinksList.DeleteAllItems();
  m_LinksNum = 0;
  Log("**************************************************************");
  Log("\r\n");
  if (m_spSHWinds){
    int n = m_spSHWinds->GetCount();
    for (int i = 0; i < n; i++){
      _variant_t v = (long)i;
      IDispatchPtr spDisp = m_spSHWinds->Item(v);
      SHDocVw::IWebBrowser2Ptr spBrowser(spDisp);  //生成一個IE窗口的智能指針
      if (spBrowser){
        if (SUCCEEDED(spBrowser->get_Document( &spDispatch)))
          pDoc2 = spDispatch;
        if(pDoc2!=NULL)
        {
          if (SUCCEEDED(pDoc2->get_links(&pElementCol)))
          {
            //  AfxMessageBox("IHTMLElementCollection");
            long p=0;
            if(SUCCEEDED(pElementCol->get_length(&p)))
              if(p!=0)
              { 
                m_LinksNum = m_LinksNum+p;
                UpdateData(FALSE);
                for(long i=0;i<=(p-1);i++)
                {
                  BSTR String;
                  _variant_t index = i;
                  if(SUCCEEDED(pElementCol->item( index, index, &spDispatch)))
                  if(SUCCEEDED(spDispatch->QueryInterface( IID_IHTMLAnchorElement,(void **) &pLoct)))
                  pLoct->get_href(&String);
                  ZeroMemory(HostName,2*MAX_PATH);
                  lstrcpy(HostName,_bstr_t(String));
                  m_LinksList.InsertItem(i,HostName);
                  m_LinksList.SetCheck(i,TRUE);

                  pLoct->get_hostname(&String);
                  ZeroMemory(HostName,2*MAX_PATH);
                  lstrcpy(HostName,_bstr_t(String));
                  if(lstrlen(HostName))
                  {
                    m_LinksList.SetItemText(i,1,HostName);
                    Log(HostName );
                    Log("\r\n");
                  }

                }
              }
          }
        }
      }
    }
  }
}

本程序在VC7+WINXP下編譯通過,詳細請看源代碼!

本文配套源碼

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved