程式師世界 >> 編程語言 >> JAVA編程 >> 關於JAVA >> Java中文檔對象模型DOM使用經驗

Java中文檔對象模型DOM使用經驗

編輯：關於JAVA

文檔對象模型 (DOM) 是一個文檔標准，對於完備的文檔和復雜的應用程序，DOM 提供了大量靈活性。DOM標准是標准的。它很強壯且完整，並且有許多實現。這是許多大型安裝的決定因素－－特別是對產品應用程序，以避免在API發生改變時進行大量的改寫。

以上是我在選擇處理XML數據時之所以沒有選擇JDOM或者dom4j等其它面向對象的標准的原因，不過也由於DOM從一開始就是一種與語言無關的模型，而且它更趨向用於像C或Perl這類語言，沒有利用Java的面向對象的性能，所以在使用的過程中也遇到了不少的麻煩，今天這裡做一個小結。另外，我目前使用XML主要是作為數據傳輸的統一格式，並統一用戶界面展示的接口，應用的面並不是很廣，所以使用到的DOM的內容其實不多。

在准備使用它的時候，是做了充足的准備的，也有遇到困難的准備，所以一開始就有了一個簡單的工具類來封裝DOM對象使用時必要的公共方法，實際證明這樣做是很明智的，一個簡單的創建Document對象的操作，要是每次都需要寫上5行以上代碼，並且還要處理那些煩人的Exception，實在是會打擊大家的積極性，所以在最初，做了一個XMLTool類，專門封裝了如下的公共方法：

1、Document對象創建（包括空的Document對象創建，以一個給定Node節點作為根節點創建。

2、將一個規范的XML字符串轉換成一個Document對象。

3、從物理硬盤讀取一個XML文件並返回一個Document對象。

4、將一個Node對象轉換成字符串。

其中每個方法都截獲相關的DOM操作所拋出的異常，轉換成一個RuntimeException拋出，這些異常在實際使用過程中，一般狀況下其實都不會拋出，特別是象生成一個Document對象時的ParserConfigurationException、轉換Node節點成字符串時要生成一個Transformer對象時的TransformerConfigurationException等等，沒有必要在它們身上花時間精力。而且真就出了相關的異常的話，其實根本沒有辦法處理，這樣的狀況通常是系統環境配置有問題（比如必要的DOM實現解析器等包沒有加入環境），所以包裝該異常時只是很簡要的獲取其Message拋出。

代碼如下：

/**
* 初始化一個空Document對象返回。
* @return a Document
*/
public static Document newXMLDocument() {
　try {
　　return newDocumentBuilder().newDocument();
　} catch (ParserConfigurationException e) {
　　　throw new RuntimeException(e.getMessage());
　}
}
/**
* 初始化一個DocumentBuilder
* @return a DocumentBuilder
* @throws ParserConfigurationException
*/
public static DocumentBuilder newDocumentBuilder()
throws ParserConfigurationException {
return newDocumentBuilderFactory().newDocumentBuilder();
}
/**
* 初始化一個DocumentBuilderFactory
* @return a DocumentBuilderFactory
*/
public static DocumentBuilderFactory newDocumentBuilderFactory() {
　DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
　dbf.setNamespaceAware(true);
　return dbf;
}
/**
* 將傳入的一個XML String轉換成一個org.w3c.dom.Document對象返回。
* @param xmlString 一個符合XML規范的字符串表達。
* @return a Document
*/
public static Document parseXMLDocument(String xmlString) {
　if (xmlString == null) {
　　throw new IllegalArgumentException();
　}
　try {
　　return newDocumentBuilder().parse(
　　　new InputSource(new StringReader(xmlString)));
　} catch (Exception e) {
　　throw new RuntimeException(e.getMessage());
　}
}
/**
* 給定一個輸入流，解析為一個org.w3c.dom.Document對象返回。
* @param input
* @return a org.w3c.dom.Document
*/
public static Document parseXMLDocument(InputStream input) {
　if (input == null) {
　　throw new IllegalArgumentException("參數為null！");
　}
　try {
　　return newDocumentBuilder().parse(input);
　} catch (Exception e) {
　　throw new RuntimeException(e.getMessage());
　}
}
/**
* 給定一個文件名，獲取該文件並解析為一個org.w3c.dom.Document對象返回。
* @param fileName 待解析文件的文件名
* @return a org.w3c.dom.Document
*/
public static Document loadXMLDocumentFromFile(String fileName) {
　if (fileName == null) {
　　throw new IllegalArgumentException("未指定文件名及其物理路徑！");
　}
　try {
　　return newDocumentBuilder().parse(new File(fileName));
　} catch (SAXException e) {
　　throw new IllegalArgumentException("目標文件（" + fileName + "）不能被正確解析為XML！\n" + e.getMessage());
　} catch (IOException e) {
　　throw new IllegalArgumentException("不能獲取目標文件（" + fileName + "）！\n" + e.getMessage());
　} catch (ParserConfigurationException e) {
　　throw new RuntimeException(e.getMessage());
　}
}
/**
* 給定一個節點，將該節點加入新構造的Document中。
* @param node a Document node
* @return a new Document
*/
public static Document newXMLDocument(Node node) {
　Document doc = newXMLDocument();
　doc.appendChild(doc.importNode(node, true));
　return doc;
}
/**
* 將傳入的一個DOM Node對象輸出成字符串。如果失敗則返回一個空字符串""。
* @param node DOM Node 對象。
* @return a XML String from node
*/
public static String toString(Node node) {
　if (node == null) {
　　throw new IllegalArgumentException();
　}
　Transformer transformer = newTransformer();
　if (transformer != null) {
　　try {
　　　StringWriter sw = new StringWriter();
　　　transformer.transform(new DOMSource(node),
　　　　new StreamResult(sw));
　　　　return sw.toString();
　　} catch (TransformerException te) {
　　　throw new RuntimeException(te.getMessage());
　　}
　}
　return errXMLString("不能生成XML信息！");
}
/**
* 將傳入的一個DOM Node對象輸出成字符串。如果失敗則返回一個空字符串""。
* @param node DOM Node 對象。
* @return a XML String from node
*/
public static String toString(Node node) {
　if (node == null) {
　　throw new IllegalArgumentException();
　}
　Transformer transformer = newTransformer();
　if (transformer != null) {
　　try {
　　　StringWriter sw = new StringWriter();
　　　transformer.transform(new DOMSource(node),new StreamResult(sw));
　　　return sw.toString();
　　} catch (TransformerException te) {
　　　　throw new RuntimeException(te.getMessage());
　　}
　}
　return errXMLString("不能生成XML信息！");
}
/**
* 獲取一個Transformer對象，由於使用時都做相同的初始化，所以提取出來作為公共方法。
* @return a Transformer encoding gb2312
*/
public static Transformer newTransformer() {
　try {
　　Transformer transformer =TransformerFactory.newInstance().newTransformer();
　　Properties properties = transformer.getOutputProperties();
　　properties.setProperty(OutputKeys.ENCODING, "gb2312");
　　properties.setProperty(OutputKeys.METHOD, "xml");
　　properties.setProperty(OutputKeys.VERSION, "1.0");
　　properties.setProperty(OutputKeys.INDENT, "no");
　　transformer.setOutputProperties(properties);
　　return transformer;
　} catch (TransformerConfigurationException tce) {
　　throw new RuntimeException(tce.getMessage());
　}
}
/**
* 返回一段XML表述的錯誤信息。提示信息的TITLE為：系統錯誤。之所以使用字符串拼裝，主要是這樣做一般
* 不會有異常出現。
* @param errMsg 提示錯誤信息
* @return a XML String show err msg
*/
public static String errXMLString(String errMsg) {
　StringBuffer msg = new StringBuffer(100);
　msg.append("<?xml version=\"1.0\" encoding=\"gb2312\" ?>");
　msg.append("<errNode title=\"系統錯誤\" errMsg=\"" + errMsg + "\"/>");
　return msg.toString();
}
/**
* 返回一段XML表述的錯誤信息。提示信息的TITLE為：系統錯誤
* @param errMsg 提示錯誤信息
* @param errClass 拋出該錯誤的類，用於提取錯誤來源信息。
* @return a XML String show err msg
*/
public static String errXMLString(String errMsg, Class errClass) {
　StringBuffer msg = new StringBuffer(100);
　msg.append("<?xml version=\"1.0\" encoding=\"gb2312\" ?>");
　msg.append("<errNode title=\"系統錯誤\" errMsg=\""+ errMsg
　　+ "\" errSource=\""
　　+ errClass.getName()
　　+ "\"/>");
　return msg.toString();
}
/**
* 返回一段XML表述的錯誤信息。
* @param title 提示的title
* @param errMsg 提示錯誤信息
* @param errClass 拋出該錯誤的類，用於提取錯誤來源信息。
* @return a XML String show err msg
*/
public static String errXMLString(
　String title,
　String errMsg,
　Class errClass) {
　　StringBuffer msg = new StringBuffer(100);
　　msg.append("<?xml version=\"1.0\" encoding=\"gb2312\" ?>");
　　msg.append("<errNode title=\""
　　　+ title
　　　+ "\" errMsg=\""
　　　+ errMsg
　　　+ "\" errSource=\""
　　　+ errClass.getName()
　　　+ "\"/>");
　　return msg.toString();
　}

以上都是DOM的基本應用，所以就不一一詳細說明了。

在實際使用過程中，有幾種狀況使用很頻繁，但是DOM的接口的設計卻使該操作很麻煩，所以分別添加了相應的處理方法。

其中最麻煩的要數獲取一個節點的Text子節點文本信息了，如下的XML節點：

<element> text </element>

在擁有element節點對象時，要獲取其中的文本信息"text"，首先要獲取element節點的子節點列表，要判斷其是否存在子節點，如果存在，那麼遍歷其子節點找到一個TextNode節點，通過getNodeValue()方法來獲取該文本信息，由於這裡element節點沒有信息時沒有子節點，所以必須判斷element節點是否存在子節點才能去訪問真正包含了文本信息的TextNode節點，那麼如果要處理的數據都是以這種形式給出的，就會增加大量的開發代碼同時讓開發工作枯燥無味，因此這裡使用了一個默認的約定實現，就是，給出了一個公共方法，該方法取給定Node下的直接子節點的Text節點文本信息，如果不存在Text節點則返回null，這個約定雖然使該方法的使用有所限制，也可能導致錯誤使用該方法，但是，按實際使用的狀況來看，這樣的約定和使用方式是沒有問題的，因為實際用到的都是上面舉的例子的狀況，代碼：

/** * 這個方法獲取給定Node下的Text節點文本信息，如果不存在Text節點則返回null。 * 注意：是直接子節點，相差2層或2層以上不會被考慮。 * @param node a Node 一個Node。 * @return a String 如果給定節點存在Text子節點，則返回第一個訪問到的Text子節點文本信息，如果不存在則返回null。 */ public static String getNodeValue(Node node) { 　 if (node == null) { 　　 return null; 　 } 　 Text text = getTextNode(node); 　 if (text != null) { 　　 return text.getNodeValue(); 　 } 　 return null; } /** * 這個方法獲取給定Node下的Text節點，如果不存在Text節點則返回null。 * 注意：是直接子節點，相差2層或2層以上不會被考慮。 * @param node a Node 一個Node。 * @return a Text 如果給定節點存在Text子節點，則返回第一個訪問到的Text子節點，如果不存在則返回null。 */ public static Text getTextNode(Node node) { 　 if (node == null) { 　　 return null; 　 } 　 if (node.hasChildNodes()) { 　　 NodeList list = node.getChildNodes(); 　　 for (int i = 0; i < list.getLength(); i++) { 　　　 if (list.item(i).getNodeType() == Node.TEXT_NODE) { 　　　　 return (Text) list.item(i); 　　　 } 　　 } 　 } 　 return null; }

上面代碼將獲取給定Node節點的直接Text子節點分開包裝。

另一個很經常碰到的狀況是，我希望直接定位到目標節點，獲取該節點對象，而不需要通過一層一層的節點遍歷來找到目標節點，DOM2接口中至少提供了如下的方式來定位節點：

1、對於Document對象：

1） getDocumentElement()――獲取根節點對象，實際很少使用的，因為根節點基本也就只是根節點而已，實際的數據節點都是根節點下的直接子節點開始的。

2） getElementById(String elementId)――這個方法本來應該是一個最佳的定位方法，但是在實際使用過程中沒有被我使用，其主要原因就是，這裡的"ID"不同於一個節點的屬性"ID"，這在org.w3c.dom.Document的API說明中是明確指出，而我找了不少的資料也沒有看到有關的使用方式，所以只好放棄了。

3） getElementsByTagName(String tagname)――這個方法其實是沒有辦法的選擇，只好用它了，不過實際倒也很合用，雖然該方法返回的是一個NodeList，但是實際使用時，將節點的tagName設計成特殊字符串，那麼就可以直接獲取了，而實際使用時，其實也差不多，很多時候會直接拿數據庫中的字段名來作為tagName，以方便得獲取該字段得值，在一個簡單得約定下，使用了如下方法：

/** * 這個方法檢索參數element下所有TagName為：tagName的節點，並返回節點列表的第一個節點。 * 如果不存在該tagName的節點，則返回null。 * @param element 待搜索節點 * @param tagName 待搜索標簽名 * @return a Element 獲得以tagName為標簽名的節點列表的第一個節點。 */ public static Element getFirstElementByName( 　 Element element,String tagName) { 　　 return (Element) getFirstElement(element.getElementsByTagName(tagName)); } /** * 從給定節點列表中獲取第一個節點返回，如果節點集合為null/空，則返回null。 * @param nodeList a NodeList * @return a Node */ private static Node getFirstElement(NodeList nodeList) { 　 if (nodeList == null || nodeList.getLength() == 0) { 　　 return null; 　 } 　 return nodeList.item(0); }

這個約定看似限制很大，其實實際使用時基本都是這樣的，只要獲取第一個給定tagName的Element節點就可以了的。

4）getElementsByTagNameNS(String namespaceURI, String localName)――這個方法基本沒有使用，因為還沒有碰到需要使用命名空間的狀況。

2、對於Element對象――――Element對象和Document對象雷同，少了getDocumentElement()方法，不過和Document一樣也都是主要使用getElementsByTagName()方法。

3、其它的節點對象基本沒有直接定位的訪問方法

還有一種，是由於DOM2的限制導致的，DOM2規范中，不能將一個Document docA的節點直接加入到另一個Document docB對象的節點的子節點列表中，要這麼做必須首先將docA的節點通過docB的importNode方法轉換後在添加到目標節點的子節點列表中，所以也有一個方法來統一處理：

/** * 這個方法將參數appendedDoc的根節點及其以下節點附加到doc的跟節點下面。 * 作為doc的跟節點的作後一個子節點。 * 相當於：doc.appendDoc(appendedDoc); * @param doc a Document * @param appendedDoc a Document */ public static void appendXMLDocument(Document doc, Document appendedDoc) { 　 if (appendedDoc != null) { 　　 doc.getFirstChild().appendChild( 　　 doc.importNode(appendedDoc.getFirstChild(), true)); 　 } } /** * 這個方法將參數appendedDoc的根節點及其以下節點附加到node節點下面。 * 作為node節點的作後一個子節點。 * 相當於：node.appendDoc(appendedNode); * @param node 待添加的節點將被添加到該節點的最後。 * @param appendedNode a Node 這個節點將被添加作為node節點的最後一個子節點。 */ public static void appendXMLDocument(Node node, Node appendedNode) { 　 if (appendedNode == null) { 　　 return; 　 } 　 if (appendedNode instanceof Document) { 　　 appendedNode = ((Document) appendedNode).getDocumentElement(); 　 } 　 node.appendChild(node.getOwnerDocument().importNode(appendedNode, true)); }