程式師世界 >> 編程語言 >> JAVA編程 >> 關於JAVA >> Jsoup解析HTML實例及文檔辦法詳解

Jsoup解析HTML實例及文檔辦法詳解

編輯：關於JAVA

Jsoup解析HTML實例及文檔辦法詳解。本站提示廣大學習愛好者：（Jsoup解析HTML實例及文檔辦法詳解）文章只能為提供參考，不一定能成為您想要的結果。以下是Jsoup解析HTML實例及文檔辦法詳解正文

解析和遍歷一個HTML文檔

若何解析一個HTML文檔：

String html = "<html><head><title>First parse</title></head>"
+ "<body>Parsed HTML into a doc.</body></html>";
Document doc = Jsoup.parse(html);

其解析器可以或許盡最年夜能夠從你供給的HTML文檔來創見一個清潔的解析成果，不管HTML的格局能否完全。好比它可以處置：

1、沒有封閉的標簽 (好比： Lorem Ipsum parses to Lorem Ipsum)
2、隱式標簽 (好比. 它可以主動將 <td>Table data</td>包裝成<table><tr><td>?)
3、創立靠得住的文檔構造（html標簽包括head 和 body，在head只湧現適當的元素）

一個文檔的對象模子

1、文檔由多個Elements和TextNodes構成 (和其它幫助nodes).
2、其繼續構造以下：Document繼續Element繼續Node. TextNode繼續 Node.
3、一個Element包括一個子節點聚集，並具有一個父Element。他們還供給了一個獨一的子元素過濾列表。

從一個URL加載一個Document

存在成績
你須要從一個網站獲得息爭析一個HTML文檔，並查找個中的相干數據。你可使用上面處理辦法：

處理辦法
應用 Jsoup.connect(String url)辦法:

Document doc = Jsoup.connect("http://www.jb51.net/").get();
String title = doc.title();

解釋
connect(String url) 辦法創立一個新的 Connection, 和 get() 獲得息爭析一個HTML文件。假如從該URL獲得HTML時產生毛病，便會拋出 IOException，應恰當處置。

Connection 接口還供給一個辦法鏈來處理特別要求，詳細以下：

Document doc = Jsoup.connect("http://www.jb51.net")
.data("query", "Java")
.userAgent("Mozilla")
.cookie("auth", "token")
.timeout(3000)
.post();

這個辦法只支撐Web URLs (http和https 協定); 假設你須要從一個文件加載，可使用parse(File in, String charsetName) 取代。

從一個文件加載一個文檔

成績
在本機硬盤上有一個HTML文件，須要對它停止解析從中抽取數據或停止修正。

方法
可使用靜態 Jsoup.parse(File in, String charsetName, String baseUri) 辦法：

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://www.jb51.net/");

解釋
parse(File in, String charsetName, String baseUri) 這個辦法用來加載息爭析一個HTML文件。如在加載文件的時刻產生毛病，將拋出IOException，應作恰當處置。
baseUri 參數用於處理文件中URLs是絕對途徑的成績。假如不須要可以傳入一個空的字符串。
別的還有一個辦法parse(File in, String charsetName) ，它應用文件的途徑做為 baseUri。這個辦法實用於假如被解析文件位於網站的當地文件體系，且相干鏈接也指向該文件體系。

應用DOM辦法來遍歷一個文檔

成績
你有一個HTML文檔要從中提取數據，並懂得這個HTML文檔的構造。

辦法
將HTML解析成一個Document以後，便可以應用相似於DOM的辦法停止操作。示例代碼：

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://www.jb51.net/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
String linkHref = link.attr("href");
String linkText = link.text();
}

解釋
Elements這個對象供給了一系列相似於DOM的辦法來查找元素，抽取並處置個中的數據。詳細以下：
查找元素
getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) (and related methods)
Element siblings: siblingElements(), firstElementSibling(), lastElementSibling();nextElementSibling(), previousElementSibling()
Graph: parent(), children(), child(int index)

元素數據
attr(String key)獲得屬性attr(String key, String value)設置屬性
attributes()獲得一切屬性
id(), className() and classNames()
text()獲得文本內容text(String value) 設置文本內容
html()獲得元素內HTMLhtml(String value)設置元素內的HTML內容
outerHtml()獲得元素外HTML內容
data()獲得數據內容（例如：script和style標簽)
tag() and tagName()

操作HTML和文本
append(String html), prepend(String html)
appendText(String text), prependText(String text)
appendElement(String tagName), prependElement(String tagName)
html(String value)

應用選擇器語法來查找元素
成績
你想應用相似於CSS或jQuery的語法來查找和操作元素。

辦法
可使用Element.select(String selector) 和 Elements.select(String selector) 辦法完成：

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://www.jb51.net./");

Elements links = doc.select("a[href]"); //帶有href屬性的a元素
Elements pngs = doc.select("img[src$=.png]");
//擴大名為.png的圖片

Element masthead = doc.select("div.masthead").first();
//class等於masthead的div標簽

Elements resultLinks = doc.select("h3.r > a"); //在h3元素以後的a元素

解釋
jsoup elements對象支撐相似於CSS (或jquery)的選擇器語法，來完成異常壯大和靈巧的查找功效。.
這個select 辦法在Document, Element,或Elements對象中都可使用。且是高低文相干的，是以可完成指定元素的過濾，或許鏈式選擇拜訪。
Select辦法將前往一個Elements聚集，並供給一組辦法來抽取和處置成果。

Selector選擇器概述
tagname: 經由過程標簽查找元素，好比：a
ns|tag: 經由過程標簽在定名空間查找元素，好比：可以用 fb|name 語法來查找 <fb:name> 元素
#id: 經由過程ID查找元素，好比：#logo
.class: 經由過程class稱號查找元素，好比：.masthead
[attribute]: 應用屬性查找元素，好比：[href]
[^attr]: 應用屬性名前綴來查找元素，好比：可以用[^data-] 來查找帶有HTML5 Dataset屬性的元素
[attr=value]: 應用屬性值來查找元素，好比：[width=500]
[attr^=value], [attr$=value], [attr*=value]: 應用婚配屬性值開首、開頭或包括屬性值來查找元素，好比：[href*=/path/]
[attr~=regex]: 應用屬性值婚配正則表達式來查找元素，好比： img[src~=(?i)\.(png|jpe?g)]
*: 這個符號將婚配一切元素

Selector選擇器組合應用
el#id: 元素+ID，好比： div#logo
el.class: 元素+class，好比： div.masthead
el[attr]: 元素+class，好比： a[href]
隨意率性組合，好比：a[href].highlight
ancestor child: 查找某個元素下子元素，好比：可以用.body p 查找在"body"元素下的一切p元素
parent > child: 查找某個父元素下的直接子元素，好比：可以用div.content > p 查找 p 元素，也能夠用body > * 查找body標簽下一切直接子元素
siblingA + siblingB: 查找在A元素之前第一個同級元素B，好比：div.head + div
siblingA ~ siblingX: 查找A元素之前的同級X元素，好比：h1 ~ p
el, el, el:多個選擇器組合，查找婚配任一選擇器的獨一元素，例如：div.masthead, div.logo

偽選擇器selectors
:lt(n): 查找哪些元素的同級索引值（它的地位在DOM樹中是絕對於它的父節點）小於n，好比：td:lt(3) 表現小於三列的元素
:gt(n):查找哪些元素的同級索引值年夜於n，好比： div p:gt(2)表現哪些div中有包括2個以上的p元素
:eq(n): 查找哪些元素的同級索引值與n相等，好比：form input:eq(1)表現包括一個input標簽的Form元素
:has(seletor): 查找婚配選擇器包括元素的元素，好比：div:has(p)表現哪些div包括了p元素
:not(selector): 查找與選擇器不婚配的元素，好比： div:not(.logo) 表現不包括 class=logo 元素的一切 div 列表
:contains(text): 查找包括給定文本的元素，搜刮不辨別年夜不寫，好比： p:contains(jsoup)
:containsOwn(text): 查找直接包括給定文本的元素
:matches(regex): 查找哪些元素的文本婚配指定的正則表達式，好比：div:matches((?i)login)
:matchesOwn(regex): 查找本身包括文本婚配指定正則表達式的元素
留意：上述偽選擇器索引是從0開端的，也就是說第一個元素索引值為0，第二個元素index為1等
可以檢查Selector API參考來懂得更具體的內容

從元素抽取屬性，文本和HTML

成績
在解析取得一個Document實例對象，並查找到一些元素以後，你願望獲得在這些元素中的數據。

辦法
要獲得一個屬性的值，可使用Node.attr(String key) 辦法
關於一個元素中的文本，可使用Element.text()辦法
關於要獲得元素或屬性中的HTML內容，可使用Element.html(), 或 Node.outerHtml()辦法
示例：

String html = "An <a href='http://www.jb51.net/'>www.jb51.net</a> link.";
Document doc = Jsoup.parse(html);//解析HTML字符串前往一個Document完成
Element link = doc.select("a").first();//查找第一個a元素

String text = doc.body().text(); // "An www.jb51.net link"//獲得字符串中的文本
String linkHref = link.attr("href"); // "http://www.jb51.net/"//獲得鏈接地址
String linkText = link.text(); // "www.jb51.net""//獲得鏈接地址中的文本

String linkOuterH = link.outerHtml();
 // "<a href="http://www.jb51.net">www.jb51.net</a>"
String linkInnerH = link.html(); // "www.jb51.net"//獲得鏈接內的html內容

解釋
上述辦法是元素數據拜訪的焦點方法。另外還其它一些辦法可使用：

Element.id()
Element.tagName()
Element.className() and Element.hasClass(String className)
這些拜訪器辦法都有響應的setter辦法來更改數據.

示例法式: 獲得一切鏈接
這個示例法式將展現若何從一個URL取得一個頁面。然後提取頁面中的一切鏈接、圖片和其它幫助內容。並檢討URLs和文本信息。
運轉上面法式須要指定一個URLs作為參數

package org.jsoup.www.jb51.nets;

import org.jsoup.Jsoup;
import org.jsoup.helper.Validate;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

/**
* www.jb51.net program to list links from a URL.
*/
public class ListLinks {
 public static void main(String[] args) throws IOException {
 Validate.isTrue(args.length == 1, "usage: supply url to fetch");
 String url = args[0];
 print("Fetching %s...", url);

 Document doc = Jsoup.connect(url).get();
 Elements links = doc.select("a[href]");
 Elements media = doc.select("[src]");
 Elements imports = doc.select("link[href]");

 print("\nMedia: (%d)", media.size());
 for (Element src : media) {
 if (src.tagName().equals("img"))
 print(" * %s: <%s> %sx%s (%s)",
 src.tagName(), src.attr("abs:src"), src.attr("width"), src.attr("height"),
 trim(src.attr("alt"), 20));
 else
 print(" * %s: <%s>", src.tagName(), src.attr("abs:src"));
 }

 print("\nImports: (%d)", imports.size());
 for (Element link : imports) {
 print(" * %s <%s> (%s)", link.tagName(),link.attr("abs:href"), link.attr("rel"));
 }

 print("\nLinks: (%d)", links.size());
 for (Element link : links) {
 print(" * a: <%s> (%s)", link.attr("abs:href"), trim(link.text(), 35));
 }
 }

 private static void print(String msg, Object... args) {
 System.out.println(String.format(msg, args));
 }

 private static String trim(String s, int width) {
 if (s.length() > width)
 return s.substring(0, width-1) + ".";
 else
 return s;
 }
}
org/jsoup/www.jb51.nets/ListLinks.java

上一頁:哲學家就餐成績中的JAVA多線程進修
下一頁:java生成圖片驗證碼示例法式

關於JAVA

在SpringSide2.0中使用Tiles模板以減少網頁代碼的重復
在Web開發中，網頁代碼的重復是一個不可避免的

 JBuilder2005實現重構之重命名
當需要對包、類、方法、值域、局域變量等這些元素

 java SE數據庫的連接操作：訪問數據庫
對於項目開發來說，數據庫是占據著相當重要的一個

 用JAXM開發Web服務
閱讀本文前您需要以下的知識和工具：JavaTM

AJAX與J2EE的新型結合提升用戶體驗
在傳統的Web應用模型下，用戶在浏覽器觸發一個動作，最典型

 快速上手Java編程
Java語言是一種優秀的高級編程語言，在使用各

相關文章

淺談Swift編程中switch與fallthrough語句的應用
Delphi實例演示Rect、Bounds生成TRect的差別
Delphi實例演示Rect、Bounds生成TRect的區別
Swift完成Selection Sort選擇排序算法的實例解說
Linux零碎下iso文件的制造和解壓以及加載
Linux下touch命令有什麼作用如何運用？
iOS中Swift指觸即開集成Touch ID指紋識別功能的方法
Swift中字典與JSON轉換的方法
基於c#用Socket做一個局域網聊天對象
處理C#中Linq GroupBy 和OrderBy掉效的辦法

閱讀排行榜

講授Java設計形式編程中的建造者形式與原型形式 Portal開源實現-Liferay的Portlet Session處理(1) 異常：org.springframework.orm.hibernate3.HibernateJdbcException 詳細解析JavaBeans與Ejb的區別 Java 阻塞隊列詳解及簡單使用謹嚴應用Java8的默許辦法整頓Java編程中經常使用的根本描寫符與運算符 Robocode基本原理之坐標鎖定 Java圖形化編程中的鍵盤事宜設計簡介深入淺出單實例Singleton設計模式 JavaBean與Java的Class的關系

熱門圖文

C＃基礎（三）（變量的聲明，變量的作用域以及常量）在Windows下使用Notepad++和xdebug調試php腳本兼容Mono的下一代雲環境Web開發框架ASP.NET vNext，monovnext ASP.NET的公共類(WebHelper.CS) 實現功能是彈出提示、“刷新”等方法 ASP.Net的幾大熱點問題 C++中CONST迭代器和 CONST_ITERATOR的區別 .Net Core MVC 網站開發（Ninesky） 2.4、添加欄目與異步方法，mvcninesky C++習題與解析-模板

欄目導航

JAVA編程入門知識關於JAVA J2EE J2SE J2ME JAVA綜合教程