|
SAX編程入門
作者: 常明 寫作日期:2000-4-26
SAX其實就是(Simple Application interface for XML),這個接口規(guī)范是XML分析器和XML處理器提供的較XML更底層的接口。它能提供應(yīng)用以較大的靈活性。
SAX誕生是在XML-DEV討論組上,提出它的原因是有一些情況不適用DOM接口,而且DOM實現(xiàn)太大而且比較慢。
SAX是一種事件驅(qū)動的接口,它的基本原理是,由接口的用戶提供符合定義的處理器,XML分析時遇到特定的事件,就去調(diào)用處理器中特定事件的處理函數(shù)。一般SAX都是JAVA的接口,但其實C++也可以用SAX接口,但C++的分析器比較少。
開發(fā)者主要關(guān)心的就是,如果我用一個SAX接口的XML分析器或處理器,我需要做些什么呢?那么,下面我們就看一下程序怎么寫吧!
SAX需要用戶提供一下幾個處理器類的實現(xiàn):
DocumentHandlerXML:文件事件的處理器;
DTDHandler:DTD中事件的處理器;
ErrorHandler:出錯處理器。
寫程序就是以下這么幾步了:
首先需要從這幾個類繼承出自己的子類, 重載其中自己感興趣的事件的處理方法。 向分析器,注冊此處理器類,其實告訴分析器使用你的處理器。 啟動分析器。 下面是我抓來的一個例子(既然有現(xiàn)成的,自己寫好象比較浪費了:PP),這個例子中的PrettyPrint類就是一個繼承DocumentHandler的實現(xiàn)類,大家可以看到PrettyPrint選擇實現(xiàn)了開始元素、結(jié)束元素、字符數(shù)據(jù)、處理指令這樣幾個事件,最后的結(jié)果就是把以不同深度的縮進(jìn)表示元素的層次的形式把XML輸出。
值得注意的是,在處理函數(shù)的參數(shù)中包含了與此事件相關(guān)的重要信息,處理函數(shù)其實就是對這些數(shù)據(jù)的處理。比如開始元素事件的參數(shù)中就會有元素名,屬性列表的信息。
void PrettyPrint::startElement(const XMLCh* constname AttributeList& attributes) { indent++; // A new element started, //it should be indented one // level further than the current level int i; for(i = 0; i < indent; i++) outStrm << "\t"; outStrm << "<" << name; unsigned int len = attributes.getLength(); for (unsigned int i = 0; i < len; i++) { outStrm << " " << attributes.getName(i) << "=\"" << attributes.getValue(i) << "\""; } outStrm << ">"; }
void PrettyPrint::endElement(const XMLCh* const name) { int i; for(i = 0; i < indent; i++) outStrm << "\t"; outStrm << "</" << name << ">"; indent--; }
void PrettyPrint::characters(const XMLCh* const chars, const unsigned int length) { for (unsigned int index = 0; index < length; index++) { switch (chars[index]) { case chAmpersand : outStrm << "&"; break; case chOpenAngle : outStrm << "<"; break; case chCloseAngle: outStrm << ">"; break; case chDoubleQuote : outStrm << """; break; default: outStrm << chars[index]; break; } } }
void PrettyPrint::processingInstruction(const XMLCh* const target, const XMLCh* const data) { int i; for(i = 0; i < indent; i++) outStrm << "\t"; outStrm << "<?" << target; if (data) outStrm << " " << data; outStrm << "?>\n"; }
看過這個例子,大家應(yīng)該是比較清楚如何寫SAX的處理器了。具體的SAX接口可以在你要用的分析器的定義中找到,JAVA中就是interface或class,C++中可能就是類的定義。寫好以后就要調(diào)用Parser類的以下函數(shù),將處理器設(shè)到parser內(nèi)去:
public abstract void setDTDHandler (DTDHandler handler); public abstract void setDocumentHandler (DocumentHandler handler);
public abstract void setErrorHandler (ErrorHandler handler);
...
此外SAX接口里有另外的幾個由分析器回調(diào)的處理器,他們的用法下面一一講一下:
InputSource:這個處理器的作用是控制XML文件的輸入,這樣輸入就可以有更多種選擇,可以來自文件系統(tǒng),或Web服務(wù)器,甚至數(shù)據(jù)庫。
EntityResolver:解析外部實體用,分析器通過它得到外部實體。
Locator:定位器,作用是分析器用來在文件中定位的。作用之一就是報錯時能得到錯誤的位置。
這幾個的詳細(xì)用法,如果需要我以后會寫文章講細(xì)一些。
DOM也是XML的數(shù)據(jù)接口,讀到這里,有些讀者可能會問,SAX和DOM的關(guān)系是怎樣的呢? Don Park的SAXDOM實現(xiàn)了從SAX接口實現(xiàn)DOM模型,從這樣一個工具我們可以看出SAX是比DOM更低層的接 口,有了SAX,我們完全可以自己構(gòu)造出DOM。DOM好用一些,為什么還要提出SAX呢?DOM模型的建立是分 析完整個XML文件后才能完成,對于某些特殊情況用DOM實現(xiàn)就不太現(xiàn)實,如XML文件特別大時,在內(nèi)存建立 一棵它的DOM樹是不可想象的,還有當(dāng)對于動態(tài)生成的XML,還沒有完成時,我們就需要知道里面有什么, 這時也不能用DOM。另外SAX運行很快,對于一些簡單的任務(wù),用它效率比較高。所以DOM和SAX各有千秋, 可以在開發(fā)中互補。
|