SAX概念
SAX是Simple API for XML的縮寫,它並不是由W3C官方所提出的標准,可以說是“民間”的事實標准。實際上,它是一種社區性質的討論產物。雖然如此,在XML中對SAX的應用絲毫不比DOM少,幾乎所有的XML解析器都會支持它。
與DOM比較而言,SAX是一種輕量型的方法。我們知道,在處理DOM的時候,我們需要讀入整個的XML文檔,然後在內存中創建DOM樹,生成DOM樹上的每個Node對象。當文檔比較小的時候,這不會造成什麼問題,但是一旦文檔大起來,處理DOM就會變得相當費時費力。特別是其對於內存的需求,也將是成倍的增長,以至於在某些應用中使用DOM是一件很不劃算的事(比如在applet中)。這時候,一個較好的替代解決方法就是SAX。
SAX在概念上與DOM完全不同。首先,不同於DOM的文檔驅動,它是事件驅動的,也就是說,它並不需要讀入整個文檔,而文檔的讀入過程也就是SAX的解析過程。所謂事件驅動,是指一種基於回調(callback)機制的程序運行方法。(如果你對Java新的代理事件模型比較清楚的話,就會很容易理解這種機制了)
在XMLReader接受XML文檔,在讀入XML文檔的過程中就進行解析,也就是說讀入文檔的過程和解析的過程是同時進行的,這和DOM區別很大。解析開始之前,需要向XMLReader注冊一個ContentHandler,也就是相當於一個事件監聽器,在ContentHandler中定義了很多方法,比如startDocument(),它定制了當在解析過程中,遇到文檔開始時應該處理的事情。當XMLReader讀到合適的內容,就會拋出相應的事件,並把這個事件的處理權代理給ContentHandler,調用其相應的方法進行響應。
這樣泛泛的說來或許有些不容易理解,別急,後面的例子會讓你明白SAX的解析過程。看看這個簡單XML文件:
<POEM>
<AUTHOR>Ogden Nash</AUTHOR>
<TITLE>Fleas</TITLE>
<LINE>Adam</LINE>
</POEM>
當XMLReader讀到<POEM>標簽時,就會調用ContentHandler.startElement()方法,並把標簽名POEM作為參數傳遞過去。在你實現的startElement()方法中需要做相應的動作,以處理當<POEM>出現時應該做的事情。各個事件隨著解析的過程(也就是文檔讀入的過程)一個個順序的被拋出,相應的方法也會被順序的調用,最後,當解析完成,方法都被調用後,對文檔的處理也就完成了。下面的這個表,列出了在解析上面的那個XML文件的時候,順序被調用的方法:
ContentHandler實際上是一個接口,當處理特定的XML文件的時候,就需要為其創建一個實現了ContentHandler的類來處理特定的事件,可以說,這個實際上就是SAX處理XML文件的核心。下面我們來看看定義在其中的一些方法: