程式師世界 >> 編程語言 >> 更多編程語言 >> Delphi >> Delphi實現網頁采集.

Delphi實現網頁采集.

編輯：Delphi

說到網頁采集，通常大家以為到網上偷數據，然後把到收集到的數據掛到自己網上去。其實也可以將采集到的數據做為公司的參考，或把收集的數據跟自己公司的業務做對比等。

目前網頁采集多為3P代碼為多（3P即ASP、PHP 、JSP）。用得最有代表的就動易科技公司BBS中新聞采集系統，和網上流傳的新浪新聞采集系統等都是用ASP程序來使用，但速度從理論上來說不是很好。如果嘗試用其它軟件的多線程采集是不是更快？答案是肯定的。用DELPHI、VC、VB、JB都可以，PB似乎比較不好做。以下用Delphi來解釋采集網頁數據。

　　簡單的新聞采集

新聞采集是最簡單的，只要識別標題、副題、作者、出處、日期、新聞主體、分頁就可以了。在采集之前肯定要取得網頁的內容，所以在Delphi裡加入idHTTP控件（在indy ClIEnts面板），然後用idHTTP1.GET 方法取得網頁的內容，聲明如下：

function Get(AURL: string): string; overload;

AURL參數，是string類型，指定一個URL地址字符串。函數返回也是string類型，返回網頁的Html源文件。比如我們可以　　這樣調用：

tmpStr:= idHTTP1.Get(‘http://www.163.com’);

調用成功後，tmpstr變量裡存儲的就是網易主頁的代碼了。

接下來，講一下數據的截取，這裡，我定義了這麼一個函數：

function TForm1.GetStr(StrSource,StrBegin,StrEnd:string):string;

var

in_star,in_end:integer;

begin

in_star:=AnsiPos(strbegin,strsource)+length(strbegin);

in_end:=AnsiPos(strend,strsource);

result:=copy(strsource,in_sta,in_end-in_star);

end;

StrSource：string類型，表示Html源文件。

StrBegin：string類型，表示截取開始的標記。

StrEnd：string，表示截取結束的標記。

函數返回字符串StrSource中從StrSource到StrBegin之間的一段文本。

比如：

strtmp:=TForm1.GetStr(‘A123BCD’,‘A’,‘BC’);

運行後，strtmp的值為：’123’。

關於函數裡用到的AnsiPos和copy，都是系統定義的，可以從Delphi的幫助文件裡找到相關說明，我在這裡也簡單羅嗦一下：

function AnsiPos(const Substr, S: string): Integer

返回Substr在S中第一次出現的位置。

function copy(strsource,in_sta,in_end-in_star): string;

返回字符串strsource中,從in_sta（整型數據）開始到in_end-in_star（整型數據）結束的字符串。

有了以上函數，我們就可以通過設置各種標記，來截取想要的文章內容了。在程序中，比較麻煩的是我們需要設置許多標記，要定位某一項內容，必須設置它的開始和結束標志。比如要取得網頁上的文章標題，必須事先查看網頁代碼，查看出文章標題前邊和後邊的一些特征代碼，通過這些特征代碼，來截取文章的標題。

下面我們來實際演示一下，假設要采集的文章地址為http://www.xxx.com/test.htm

代碼為：

<Html>

<head>

</head>

<body>

文章標題

</table>

這裡是文章內容正文。

</body>

</Html>

第一步，我們用StrSource:= idHTTP1.Get(‘http://www.xxx.com/test.htm ’);將網頁代碼保存在strsource變量中。

然後定義strTitle、strAuthor、strCopyFrom、strContent：

strTitle:= GetStr(StrSource,’ ’,’ ’):

strAuthor:= GetStr(StrSource,’ <tr><td width="60%">’,’ </td>’):

strCopyFrom:= GetStr(StrSource,’ <td width="40%">’,’ </td></tr>’):

strContent:= GetStr(StrSource,’ ,’ ’):

這樣，就能把文章的標題、副題、作者、出處、日期、內容和分頁分別存儲在以上變量中。

第二步，用循環的辦法，打開下一頁，並取得內容，加到strContent變量中。

StrSource:= idHTTP1.Get(‘new_ne.ASP’);

strContent:= strContent +GetStr(StrSource,’ ,’ ’):

然後再判斷有沒有下一頁，如果還有就接著取得下一頁的內容。

這樣就完成了一個簡單的截取過程。從以上的程序代碼可以看到，我們使用的截取辦法都是找截取內容的頭部和尾部的，如果遇到這個頭部和尾部有多個怎麼辦？似乎沒辦法，只會找到第一個，所以在找之前應該驗證一下是不是只有一處有這個截取的內容的前後部。

上一頁:Delphi ListView的用法
下一頁:Delphi網吧P2P三層更新BT源碼

Delphi

開發一個基於DCOM的局域網聊天室(一)

難度：★★★☆☆先行知識：Delphi / 接口 / OL

再學GDI+[40]: 文本輸出 - 選擇畫刷

本例效果圖:代碼文件:unit Unit1;i

再學GDI+[57]: 路徑 - Widen

路徑的 Widen 方法可以把路徑中的線, 根

Delphi中用多媒體庫Bass.dll播放mp3 [9] - 繪制波形圖

本例效果圖:代碼文件:unit Unit1;i

Delphi 2009 之 TButtonedEdit

本例效果圖:　　代碼文件:unit Unit1;inter

多線程編程(10) - 多線程同步之Mutex(互斥對象)

原理分析:互斥對象是系統內核對象, 各線程都可

閱讀排行榜

Delphi2009的Indy全接觸之UDP篇(4) TreeView使用筆記使用 IntraWeb (22) [升級] 升級到 Delphi 10.2 Tokyo 筆記，tokyo Delphi圖像處理 -- RGB與HSL轉換 Dephi中獲取webbrowser選取區域的html代碼示例 Delphi將圖片數據顯示在IntraWeb中 QQ窗體自動隱藏效果探究 Delphi中用命令行參數實現啟動時最小化 Delphi的繪圖功能[11] - TPen類(上) Delphi中資源文件使用詳解

熱門圖文

.NET連接數據庫的字符串，密碼數據丟失的解決方法(persist security info=true;) spring-Struts 關於在jsp中獲取 xxxAction中model值的問題 smarty section簡介與用法分析 PHP遠程關機操作的代碼 jquery js 前端-var rdp = rdp = {};為什麼聲明需要用到兩個=號；求大神解釋一下，謝謝！！環境-Spring基於請求的的國際化問題 Python類的定義、繼承及類對象使用方法簡明教程 rest-用存儲的REST調用也是401錯誤~~

欄目導航

匯編語言 Delphi Groovy WebSphere Rational Python Ruby 編程解疑編程綜合問答更多關於編程編程問題解答