各位好,我想爬取網頁上的數據用作繪圖,但是現在只能將網頁代碼下載下來不知道該怎麼提取?用JAVA寫的。希望可以知道如何從網站上爬取數據,並保存為xml
的格式。在此謝謝
你可以了解一下JSOUP,用這個進行網頁抓取和數據提取比較簡單的,能提取各種元素和對應的數據。
你百度一下,內容很多的。發個小例子:
/**
* 抓取url網址頁面鏈接上滿足後邊正則的url鏈接
*/
public static Set<String> getHrefList(String url, String regular){
Set<String> urlSet = new HashSet<String>();
Document doc = null;
try {
doc = Jsoup.connect(url).userAgent("Mozilla").timeout(20000).get();
Elements links = doc.getElementsByTag("a");
String linkHref = "";
// String linkText = "";
// Pattern pattern = Pattern.compile("^http://blog\\.csdn\\.net/[^\\s]*/article/details/[0-9]+$");
Pattern pattern = Pattern.compile(regular);
Matcher matcher = null;
for (Element link : links) {
linkHref = link.attr("href");
// linkText = link.text();
matcher = pattern.matcher(linkHref);
if(matcher.find()){
urlSet.add(linkHref);
}
}
} catch (IOException e) {
e.printStackTrace();
}
return urlSet;
}