程式師世界 >> 編程語言 >> 更多編程語言 >> 編程綜合問答 >> java-JAVA網頁數據爬取，保存為xml

java-JAVA網頁數據爬取，保存為xml

編輯：編程綜合問答

JAVA網頁數據爬取，保存為xml: 各位好，我想爬取網頁上的數據用作繪圖，但是現在只能將網頁代碼下載下來不知道該怎麼提取？用JAVA寫的。希望可以知道如何從網站上爬取數據，並保存為xml
的格式。在此謝謝

最佳回答：

你可以了解一下JSOUP，用這個進行網頁抓取和數據提取比較簡單的，能提取各種元素和對應的數據。
你百度一下，內容很多的。發個小例子：

 /**
     * 抓取url網址頁面鏈接上滿足後邊正則的url鏈接
     */
    public static Set<String> getHrefList(String url, String regular){

        Set<String> urlSet = new HashSet<String>();

        Document doc = null;
        try {
            doc = Jsoup.connect(url).userAgent("Mozilla").timeout(20000).get();

            Elements links = doc.getElementsByTag("a");

            String linkHref = "";
//          String linkText = "";

//          Pattern pattern = Pattern.compile("^http://blog\\.csdn\\.net/[^\\s]*/article/details/[0-9]+$");
            Pattern pattern = Pattern.compile(regular);
            Matcher matcher = null;

            for (Element link : links) {
                linkHref = link.attr("href");
//              linkText = link.text();

                matcher = pattern.matcher(linkHref);

                if(matcher.find()){
                    urlSet.add(linkHref);
                }
            }

        } catch (IOException e) {
            e.printStackTrace();
        }
        return urlSet;
    }

上一頁:java-有誰用瘋狂JAVA講義麼？為什麼裡面的 Lambda的代碼都會報錯
下一頁:求大神解答一下-php和jsp各有什麼好處和缺點呀？求大神指點

編程綜合問答

 javascript-奇怪的Javascript,這樣的代碼你見過嗎
奇怪的Javascript,

javascript-如何給springy.js的節點添加可以跳轉的超鏈接
如何給springy.js的

 javascript-不支持jsonp 回調格式網站路徑請求問題
不支持jsonp 回調格式

 java-EditText插入連續兩個ImageSpan,但是中間不能顯示文字了
EditText插入連續兩個

 eclipse-Case variant exists 錯誤
Case variant e

java-誰知道68行到底哪裡錯了?
誰知道68行到底哪裡錯了?