程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> 更多編程語言 >> 更多關於編程 >> Python中使用ElementTree解析XML示例

Python中使用ElementTree解析XML示例

編輯:更多關於編程

       這篇文章主要介紹了Python中使用ElementTree解析XML示例,本文同時講解了XML基本概念介紹、XML幾種解析方法和ElementTree解析實例,需要的朋友可以參考下

      【XML基本概念介紹】

      XML 指可擴展標記語言(eXtensible Markup Language)。

      XML 被設計用來傳輸和存儲數據。

      概念一:

      代碼如下:

       # foo元素的起始標簽

       # foo元素的結束標簽

      # note: 每一個起始標簽必須有對應的結束標簽來閉合, 也可以寫成

      概念二:

      代碼如下:

       # 元素可以嵌套到任意參次

       # bar元素為foo元素的子元素

       # 父元素foo的結束標簽

      概念三:

       代碼如下:

       # foo元素有個lang的屬性,該屬性值為: EN;對應Python字典(Name-Value)對;

       # bar元素有個lang的屬性,該屬性值為: CH;還有個id屬性,值為:001,放置在''或“”中;

       # bar元素中的lang屬性不會和foo元素中相沖突,每個元素都有獨立的屬性集;

      概念四:

       代碼如下:

       # 元素可以有文本內容

      # Note:如果一個元素即沒有文本內容,也沒有子元素,則為空元素。

      概念五:

       代碼如下:

       # info元素為根節點

    A # list元素為子節點

    B

    C

      

      概念六:

       代碼如下:

       # 可以通過聲明xmlns來定義默認名字空間,feed元素處於http://www.w3.org/2005/Atom命名空間中

       # title元素也是。名字空間聲明不僅會作用於當前聲明它的元素,還會影響到該元素的所有子元素

      

      也可以通過xmlns:prefix聲明來定義一個名字空間並取其名為prefix。

      然後該名字空間中的每個元素都必須顯式地使用這個前綴(prefix)來聲明。

       # feed屬於命名空間atom

      dive into mark # title元素同樣屬於該命名空間

       # xmlns(XML Name Space)

      【XML幾種解析方法】

      常見的XML編程接口有DOM和SAX,這兩種接口處理XML文件的方式不同,使用場合自然也就不同。

      Python有三種方法解析XML: SAX,DOM,以及ElementTree:

      1.SAX (Simple API for XML )

      Pyhton標准庫包含SAX解析器,SAX用事件驅動模型,通過在解析XML的過程中觸發一個個的事件並調用用戶定義的回調函數來處理XML文件。SAX是一種基於事件驅動的API。利用SAX解析XML文檔牽涉到兩個部分:解析器和事件處理器。

      解析器負責讀取XML文檔,並向事件處理器發送事件,如元素開始及結束事件;而事件處理器則負責對事件作出處理。

      優點:SAX流式讀取XML文件,比較快,占用內存少。

      缺點:需要用戶實現回調函數(handler)。

      2.DOM(Document Object Model)

      將XML數據在內存中解析成一個樹,通過對樹的操作來操作XML。一個DOM的解析器在解析一個XML文檔時,一次性讀取整個文檔,把文檔中所有元素保存在內存中的一個樹結構裡,之後你可以利用DOM提供的不同的函數來讀取或修改文檔的內容和結構,也可以把修改過的內容寫入xml文件。

      優點:使用DOM的好處是你不需要對狀態進行追蹤,因為每一個節點都知道誰是它的父節點,誰是子節點.

      缺點:DOM需要將XML數據映射到內存中的樹,一是比較慢,二是比較耗內存,使用起來也比較麻煩!

      3.ElementTree(元素樹)

      ElementTree就像一個輕量級的DOM,具有方便友好的API。代碼可用性好,速度快,消耗內存少。

      相比而言,第三種方法,即方便,又快速,我們一直用它!下面介紹用元素樹如何解析XML:

      【ElementTree解析】

      兩種實現

      ElementTree生來就是為了處理XML ,它在Python標准庫中有兩種實現。

      一種是純Python實現,例如: xml.etree.ElementTree

      另外一種是速度快一點的: xml.etree.cElementTree

      盡量使用C語言實現的那種,因為它速度更快,而且消耗的內存更少! 在程序中可以這樣寫:

       代碼如下:

      try:

      import xml.etree.cElementTree as ET

      except ImportError:

      import xml.etree.ElementTree as ET

      常用方法

       代碼如下:

      # 當要獲取屬性值時,用attrib方法。

      # 當要獲取節點值時,用text方法。

      # 當要獲取節點名時,用tag方法。

      示例XML

       代碼如下:

      

      

      Book message

      bookone

      python check

      001

    200

      

      booktwo

      python learn

      002

    300

      

      

      ###########

      ## 加載XML

      ###########

      方法一:加載文件

       代碼如下:

      root = ET.parse('book.xml')

      方法二:加載字符串

       代碼如下:

      root = ET.fromstring(xmltext)

      ###########

      ## 獲取節點

      ###########

      方法一:獲得指定節點->getiterator()方法

      代碼如下:

      book_node = root.getiterator('list')

      方法二:獲得指定節點->findall()方法

      代碼如下:

      book_node = root.findall('list')

      方法三:獲得指定節點->find()方法

       代碼如下:

      book_node = root.find('list')

      方法四:獲得兒子節點->getchildren()

      代碼如下:

      for node in book_node:

      book_node_child = node.getchildren()[0]

      print book_node_child.tag, '=> ', book_node_child.text

      ###########

      ## 例子01

      ###########

      復制代碼 代碼如下:

      # coding=utf-8

      try: # 導入模塊

      import xml.etree.cElementTree as ET

      except ImportError:

      import xml.etree.ElementTree as ET

      root = ET.parse('book.xml') # 分析XML文件

      books = root.findall('/list') # 查找所有根目錄下的list的子節點

      for book_list in books: # 對查找後的結果遍歷

      print "=" * 30 # 輸出格式

      for book in book_list: # 對每個子節點再進行遍歷,找出裡面你的屬性及值

      if book.attrib.has_key('id'): # 一句id來做條件判斷

      print "id:", book.attrib['id'] # 根據id打印出屬性值

      print book.tag + '=> ' + book.text # 輸出標簽及文本內容

      print "=" * 30

      輸出結果:

      代碼如下:

      ==============================

      head=> bookone

      name=> python check

      number=> 001

      page=> 200

      ==============================

      head=> booktwo

      name=> python learn

      number=> 002

      page=> 300

      ==============================

    1. 上一頁:
    2. 下一頁:
    Copyright © 程式師世界 All Rights Reserved