說到網頁采集,通常大家以為到網上偷數據,然後把到收集到的數據掛到自己網上去。其實也可以將采集到的數據做為公司的參考,或把收集的數據跟自己公司的業務做對比等。
目前網頁采集多為3P代碼為多(3P即ASP、PHP 、JSP)。用得最有代表的就動易科技公司BBS中新聞采集系統,和網上流傳的新浪新聞采集系統等都是用ASP程序來使用,但速度從理論上來說不是很好。如果嘗試用其它軟件的多線程采集是不是更快?答案是肯定的。用DELPHI、VC、VB、JB都可以,PB似乎比較不好做。以下用Delphi來解釋采集網頁數據。
一、 簡單的新聞采集
新聞采集是最簡單的,只要識別標題、副題、作者、出處、日期、新聞主體、分頁就可以了。在采集之前肯定要取得網頁的內容,所以在Delphi裡加入idHTTP控件(在indy ClIEnts面板),然後用idHTTP1.GET 方法取得網頁的內容,聲明如下:
function Get(AURL: string): string; overload;
AURL參數,是string類型,指定一個URL地址字符串。函數返回也是string類型,返回網頁的Html源文件。比如我們可以這樣調用:
tmpStr:= idHTTP1.Get(‘http://www.163.com’);
調用成功後,tmpstr變量裡存儲的就是網易主頁的代碼了。
接下來,講一下數據的截取,這裡,我定義了這麼一個函數:
function TForm1.GetStr(StrSource,StrBegin,StrEnd:string):string;
var
in_star,in_end:integer;
begin
in_star:=AnsiPos(strbegin,strsource)+length(strbegin);
in_end:=AnsiPos(strend,strsource);
result:=copy(strsource,in_sta,in_end-in_star);
end;
StrSource:string類型,表示Html源文件。
StrBegin:string類型,表示截取開始的標記。
StrEnd:string,表示截取結束的標記。
函數返回字符串StrSource中從StrSource到StrBegin之間的一段文本。
比如:
strtmp:=TForm1.GetStr(‘A123BCD’,‘A’,‘BC’);
運行後,strtmp的值為:’123’。
關於函數裡用到的AnsiPos和copy,都是系統定義的,可以從Delphi的幫助文件裡找到相關說明,我在這裡也簡單羅嗦一下:
function AnsiPos(const Substr, S: string): Integer
返回Substr在S中第一次出現的位置。
function copy(strsource,in_sta,in_end-in_star): string;
返回字符串strsource中,從in_sta(整型數據)開始到in_end-in_star(整型數據)結束的字符串。
有了以上函數,我們就可以通過設置各種標記,來截取想要的文章內容了。在程序中,比較麻煩的是我們需要設置許多標記,要定位某一項內容,必須設置它的開始和結束標志。比如要取得網頁上的文章標題,必須事先查看網頁代碼,查看出文章標題前邊和後邊的一些特征代碼,通過這些特征代碼,來截取文章的標題。
下面我們來實際演示一下,假設要采集的文章地址為http://www.xxx.com/test.htm
代碼為:
<Html>
<head>
<meta http-equiv="Content-Language" content="zh-cn">
<meta name="GENERATOR" content="Microsoft FrontPage 5.0">
<meta name="ProgId" content="FrontPage.Editor.Document">
<meta http-equiv="Content-Type" content="text/Html; charset=gb2312">
<title>新建網頁 1</title>
</head>
<body>
<p align="center"><b>文章標題</b></p>
<table border="1" cellpadding="0" cellspacing="0" bordercolor="#111111" width="100%" id="AutoNumber1">
<tr><td width="60%">作者</td>
<td width="40%">出處</td></tr>
</table>
<p><font size="2">這裡是文章內容正文。</font></p>
<a href='..new_pr.asp'>上一頁</a> <a href='new_ne.ASP'>下一頁</a>
</body>
</Html>
第一步,我們用StrSource:= idHTTP1.Get(‘http://www.xxx.com/test.htm ’);將網頁代碼保存在strsource變量中。
然後定義strTitle、strAuthor、strCopyFrom、strContent:
strTitle:= GetStr(StrSource,’ <p align="center"><b>’,’ </b></p>’):
strAuthor:= GetStr(StrSource,’ <tr><td width="60%">’,’ </td>’):
strCopyFrom:= GetStr(StrSource,’ <td width="40%">’,’ </td></tr>’):
strContent:= GetStr(StrSource,’ <p><font size="2">,’ </font></p>’):
這樣,就能把文章的標題、副題、作者、出處、日期、內容和分頁分別存儲在以上變量中。
第二步,用循環的辦法,打開下一頁,並取得內容,加到strContent變量中。
StrSource:= idHTTP1.Get(‘new_ne.ASP’);
strContent:= strContent +GetStr(StrSource,’ <p><font size="2">,’ </font></p>’):
然後再判斷有沒有下一頁,如果還有就接著取得下一頁的內容。
這樣就完成了一個簡單的截取過程。從以上的程序代碼可以看到,我們使用的截取辦法都是找截取內容的頭部和尾部的,如果遇到這個頭部和尾部有多個怎麼辦?似乎沒辦法,只會找到第一個,所以在找之前應該驗證一下是不是只有一處有這個截取的內容的前後部。
以上內容沒有程序驗證,僅供參考,如果認為有用可以試試。