XML 解析---dom解析和sax解析，xml---domsax解析

和通数据库htsjk.Com2019-03-07 22:56 来源:未知阅读:10920 评论 529 热度2

标签：Dom解析 Sax解析 dom4j xml 解析XML

XML 解析---dom解析和sax解析，xml---domsax解析

目前XML解析的方法主要用两种：

1、dom解析：（Document Object Model，即文档对象模型）是W3C组织推荐的解析XML的一种方式。
使用dom解析XML文档，该解析器会先把XML文档加载到内存中，生成该XML文档对应的document对象，然后把XML文档中的各个标签元素变成相应的Element对象，文本会变成Text对象，属性会变成Attribute对象，并按这些标签、文本、属性在XML文档中的关系保存这些对象的关系。

缺点：消耗内存，所以使用dom解析XML文档时不能解析太大的XML文档，否则有可能会造成内存溢出。
优点：使用dom解析XML文档可以很方便的执行增删改查操作（可以直接根据节点对应的对象进行操作）。

2、sax解析：Simple API for XML，不是官方标准，但它是XML社区事实上的标准，几乎所有的XML解析器都支持它。

使用sax解析XML文档，该解析器会从上往下读，读一行，解析一行；

优点：因为它解析XML文档是采取读一行，解析一行的方式，所以它不会对内存造成压力。
缺点：不适合执行增删改查的操作（也是因为它解析XML文档时采取的读一行解析一行的方式，所以它不能往回操作），只适合对XML文档进行读取操作。

======================================================================================================

补充：

XML解析开发包：Jaxp（sun）、Jdom、dom4j；

======================================================================================================

调整JVM内存大小：

当我们要解析的XML文档内存比较大、而且要对该XML中的节点数据进行相关的操作时，使用这两种解析方式显然都会不方便，这时就需要调整JVM内存的大小了。

JVM默认的允许最大内存容量是64M（根据jdk的版本不同，默认的最大容量值不一样，jdk5.0版本的是64MB，jdk7版本的是170MB）。

调整JVM内存大小的方法（相应的命令为：-Xmx内存大小值单位）：

在Eclipse中的项目导航框中右击相应的Java程序》》Run As》》Open Run Dialog...》》打开Run对话框》》选择Arguments选项，在开窗口中有两个输入框，第一个是程序的参数输入框，第二个是VM的参数输入框，在第二个VM的参数输入框中输入Xmx200M》》点击右下角的Run按钮，执行相应的Java程序，就不会报OutOfMemoryError的错误了。

======================================================================================================

XML解析开发包：
1、JAXP：JAXP开发包是J2SE的一部分，它由javax.xml、org.w3c.dom、org.xml.sax包及其子包组成。
在javax.xml.parsers包中，定义了几个工厂类，程序员调用这些工厂类，可以得到XML文档的dom或sax的解析器，从而实现对XML文档的解析。

首先、创建工厂：
DocumentBuilderFactory factory = DocumentBuilderFactroy.newInstance();//因为DocumentBuilderFactory类是抽象类，不能new出它的对象只能调用它的静态方法获取它的对象。
其次、得到dom解析器：
DocumentBuilder builder = factory.newDocumentBuilder();
然后、加载XML文档，得到代表文档的Document对象：
Document document = builder.parse("*.xml");
拿到代表XML文档的document对象就可以操作XML文档中的各个节点了。

======================================================================================================

补充：
dom解析下，XML文档的每一个组成部分都会用一个对象表示，例如标签用Element，属性用Attribute，但不管什么对象，都是Node的子类，所以在开发中可以把获取到的任意节点都当作Node对待。

XML编程（CRUD）
create、read、update、delete
添加、查询、更新、删除；

除了这两种解析方法外，还有另外的解析方法。。。
======================================================================================================

在对XML文档进行添加、修改和删除操作时，不仅要更新document对象还要更新XML文档（把更新后的document对象重写到XML文档中）。

javax.xml.transform包中的Transformer类用于把代表XML文档的Document对象转换为某种格式后输出，例如把XML文档应用样式表后转换成一个HTML文档。利用这个对象，当然也可以把Document对象又重新写入到一个XML文档中。源和目的地。可以通过：
javax.xml.transform.dom.DOMSource类来关联要转换的document对象，
用javax.xml.transform.stream.StreamResult对象来表示数据的目的地。
Transformer对象通过TransformerFactory获得。
Transformer类通过transform方法完成转换操作，该方法接收个
（工厂对象（TransformerFactory）》》》转换器对象（Transformer）》》》转换方法(transform（DOMSource 源，StreamResult 目的地）;)）
======================================================================================================

SAX解析：

SAX解析采用事件处理的方式解析XML文件，利用SAX解析XML文档，涉及两个部分：解析器和事件处理器：
解析器可以使用JAXP的API创建，创建出SAX解析器后，就可以指定解析器去去解析某个XML文档。
解析器采用SAX方式在解析某个XML文档时，它只要解析到XML文档的一个指定部分，都会去调用事件处理器的一个方法，解析器在调用事件处理器的方法时，会把当前解析到的XML文件内容作为方法的参数传递给事件处理器。
事件处理器由程序员编写，程序员通过事件处理器中方法的参数，就可以很轻松的得到SAX解析器解析到的数据，从而可以决定如何对数据进行处理。

1、创建解析工厂；
SAXParserFactory fac = SAXParserFactory.newInstance();

2、获取解析器；
SAXParser sp = fac.newSAXParser();

3、得到读取器；
XMLReader re = sp.getXMLReader();

4、设置内容处理器；
re.setContentHandler(new ContentHandler(){ /*实现接口的代码块*/});
(或者：re.setContentHandler(new DefaultHandler());/*参数为DefaultHandler类的子类*/)
第一种方法是解析整个XML文档，第二种方法可以只解析某个标签；
其实还有一种内容处理器，也是先继承DefaultHandler类，然后把解析的内容封装到bean对象中。

5、读取XML文档内容；
re.parse("*.xml");

======================================================================================================

XML解析开发包：

2、dom4j：

SAXReader saxReader = new SAXReader();
Document doc = saxReader.read(new File());

OutputFormat format = OutputFormat.createPrettyPrint();//该对象标明格式按漂亮的格式进行输出；另外还有一个对象是按紧凑的格式进行输出；
format.setEncoding("UTF-8");

XMLWriter xmlWriter = new XMLWriter(new FileOutputStream(),format);
xmlWriter.write(doc);//如果xmlWriter对象采用的流是字节流，那么该对象会先把doc对象按format对象给定的编码格式转换成字节，然后把数据交给字节流进行操作。
writer.close();//最后要关闭资源

======================================================================================================

XPath:
使用XPath可以快速定位到某个节点；
List list = document.selectNodes("//foo/bar");//获取foo节点下的所有bar节点；

Node node = document.selectSingleNode("//foo/bar");//获取foo节点下的第一个bar节点；

单斜杠是绝对路径即从根节点开始；
双斜杠是相对路径即从所有当前节点开始；

星号“*”表示选择所有由星号之前的路径所定位的元素；
例如：
/aa/bb/*表示选择所有路径依附于/aa/bb的元素；
/*/*/*/bbb表示选择所有的有3个祖先元素的bbb元素；
//bb[@*]表示选择有任意属性的bb元素；
//bb[not(@*)]表示选择没有属性的bb元素；
//bb[@id='b1']表示选择含有属性id='b1'的bb元素；

xml的解析方式Dom与SAX不同是什？

SAX概念
SAX是Simple API for XML的缩写，它并不是由W3C官方所提出的标准，可以说是“民间”的事实标准。实际上，它是一种社区性质的讨论产物。虽然如此，在XML中对SAX的应用丝毫不比DOM少，几乎所有的XML解析器都会支持它。

与 DOM比较而言，SAX是一种轻量型的方法。我们知道，在处理DOM的时候，我们需要读入整个的XML文档，然后在内存中创建DOM树，生成DOM树上的每个Node对象。当文档比较小的时候，这不会造成什么问题，但是一旦文档大起来，处理DOM就会变得相当费时费力。特别是其对于内存的需求，也将是成倍的增长，以至于在某些应用中使用DOM是一件很不划算的事（比如在applet中）。这时候，一个较好的替代解决方法就是SAX。

SAX 在概念上与DOM完全不同。首先，不同于DOM的文档驱动，它是事件驱动的，也就是说，它并不需要读入整个文档，而文档的读入过程也就是SAX的解析过程。所谓事件驱动，是指一种基于回调（callback）机制的程序运行方法。（如果你对Java新的代理事件模型比较清楚的话，就会很容易理解这种机制了）

在XMLReader接受XML文档，在读入XML文档的过程中就进行解析，也就是说读入文档的过程和解析的过程是同时进行的，这和DOM区别很大。解析开始之前，需要向XMLReader注册一个ContentHandler，也就是相当于一个事件监听器，在 ContentHandler中定义了很多方法，比如startDocument()，它定制了当在解析过程中，遇到文档开始时应该处理的事情。当 XMLReader读到合适的内容，就会抛出相应的事件，并把这个事件的处理权代理给ContentHandler，调用其相应的方法进行响应。

xml解析，dom sax stax的不同，为何dom解析大型xml速度慢

DOM解析器把XML文档转化为一个包含其内容的树，并可以对树进行遍历。用DOM解析模型的优点是编程容易，开发人员只需要调用建树的指令，然后利用 navigation APIs访问所需的树节点来完成任务。可以很容易的添加和修改树中的元素。然而由于使用 DOM解析器的时候需要处理整个XML文档，所以对性能和内存的要求比较高，尤其是遇到很大的XML文件的时候。由于它的遍历能力，DOM解析器常用于 XML文档需要频繁的改变的服务中。
SAX解析器采用了基于事件的模型，它在解析XML文档的时候可以触发一系列的事件，当发现给定的tag的时候，它可以激活一个回调方法，告诉该方法制定的标签已经找到。SAX对内存的要求通常会比较低，因为它让开发人员自己来决定所要处理的 tag.特别是当开发人员只需要处理文档中所包含的部分数据时，SAX这种扩展能力得到了更好的体现。但用SAX解析器的时候编码工作会比较困难，而且很难同时访问同一个文档中的多处不同数据。
选择DOM还是选择SAX？对于需要自己编写代码来处理XML文档的开发人员来说，选择DOM还是SAX 解析模型是一个非常重要的设计决策。 DOM采用建立树形结构的方式访问XML文档，而SAX采用的事件模型。
SAX 处理的优点非常类似于流媒体的优点。分析能够立即开始，而不是等待所有的数据被处理。而且，由于应用程序只是在读取数据时检查数据，因此不需要将数据存储在内存中。这对于大型文档来说是个巨大的优点。事实上，应用程序甚至不必解析整个文档；它可以在某个条件得到满足时停止解析。一般来说，SAX还比它的替代者DOM快许多。
DOM是用与平台和语言无关的方式表示XML文档的官方W3C标准。DOM是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构，然后才能做任何工作。由于它是基于信息层次的，因而DOM被认为是基于树或基于对象的。 DOM 以及广义的基于树的处理具有几个优点。首先，由于树在内存中是持久的，因此可以修改它以便应用程序能对数据和结构作出更改。它还可以在任何时候在树中上下导航，而不是像SAX那样是一次性的处理。DOM使用起来也要简单得多。

本站文章为和通数据库网友分享或者投稿，欢迎任何形式的转载，但请务必注明出处.
同时文章内容如有侵犯了您的权益，请联系QQ：970679559，我们会在尽快处理。

返回首页

评论暂时关闭