17. XML

创始人

2024-05-08 15:37:32

0次

文章目录

一、XML概念
二、XML语法
- 1、基础语法
- 2、快速入门
- 3、组成部分
- 4、约束
- - 1. 约束概述
  - 2. 分类
  - 3. DTD
  - 4. Schema
三、XML解析
- 1、操作xml文档
- 2、解析xml的方式
- - 1. DOM
  - 2. SAX
  - 3. xml常见的解析器（工具包）
  - 4. Jsoup
  - - （1）快速入门
    - （2）对象的使用
    - （3）快捷查询方式

一、XML概念

概念：Extensible Markup Language 可扩展标记语言* 可扩展：标签都是自定义的。   * 功能* 存储数据1. 配置文件  properties配置文件只能配置一些简单的信息，对于复杂的配置信息一般使用xml来进行配置xml存储的信息具有结构化，能够比较好体现出数据与数据间的关系，而properties存储信息只有键值对形式，无法体现出数据间的关系2. 在网络中传输* xml与html的区别1. xml标签都是自定义的，html标签是预定义。2. xml的语法严格，html语法松散3. xml是存储数据的，html是展示数据* w3c:万维网联盟

二、XML语法

1、基础语法

1. xml文档的后缀名 .xml
2. xml第一行必须定义为文档声明（就算文档声明前面的行为空行也不行，文档声明必须在第一行）
3. xml文档中有且仅有一个根标签
4. 属性值必须使用引号(单双都可)引起来
5. 标签必须正确关闭（也就是说标签必须有始有闭，不存在自闭合标签）
6. xml标签名称区分大小写（如果标签的起始和闭合标签一个大写一个小写，那么就会报错）

2、快速入门


zhangsan23male
lisi24female

3、组成部分

1. 文档声明1. 格式：   注意： "" 中符号和符号间不能乱加空格,如果乱加了空格会报错如： < ?xml 属性列表 ?> 错误2. 属性列表：* version：版本号，一般可以写1.0，其为主流版本     版本号是必须的属性，不写版本号会报错* encoding：编码方式。告知解析引擎当前文档使用的字符集，默认值：ISO-8859-1* standalone：是否独立    现在一般情况下不进行设置* 取值：* yes：不依赖其他文件* no：依赖其他文件
2. 指令(了解)：结合css的，导入css文件，并将xml文件的内容进行解析显示* * 注意：此时xml不是用来存储数据了，而是用来展示数据，所以现在一般不这样用了
3. 标签：标签名称自定义的* 规则：* 名称可以包含字母、数字以及其他的字符 * 名称不能以数字或者标点符号开始 * 名称不能以字母 xml（或者 XML、Xml 等等）开始 * 名称不能包含空格 4. 属性：id属性值唯一注意：引入约束后id值不唯一会报错，但是如果没有引入约束，那么id值不唯一不会报错
5. 文本：*  xml文件中如果出现特殊格式的字符需要进行转义，如if( a < b && a > c ){} 需要转义成  if ( a < b && a > c ){} 为了方便显示引入CDATA区* CDATA区：在该区域中的数据会被原样展示* 格式：

代码

a.css

name{color:red;
}

a.xml


张三23male
lisi24female c) {}]]]>

4、约束

1. 约束概述

* 约束：规定xml文档的书写规则
* 作为框架的使用者(程序员)：1. 能够在xml中引入约束文档2. 能够简单的读懂约束文档

在这里插入图片描述

2. 分类

1. DTD:一种简单的约束技术 ，后缀名： .dtd
2. Schema:一种复杂的约束技术，后缀名： .xsd

3. DTD

一个简单的DTD约束文档

阅读DTD约束文档

1. 通过 ELEMENT 来定义标签  定义students标签，这个标签里面可以放student标签作为其子标签，这个标签至少出现1次可以通过量词来描述子标签在父标签内的出现次数+ ： 出现至少1次* ： 可以出现任意次数不加符号：必须且只能出现 1 次  定义student标签，这个标签里面可以放name,age,sex子标签，这些子标签只能出现1次，并且得按name,age,sex的顺序出现定义name标签，这个标签里面可以放字符串定义age 标签，这个标签里面可以放字符串定义sex 标签，这个标签里面可以放字符串2. 通过ATTLIST 来定义属性定义student 标签的属性numbernumber：属性名称  ID：number属性值必须唯一   #REQUIRED ： number属性必须出现

引入DTD文档到xml文档中

* 内部dtd：将约束规则定义在xml文档中* 
* 外部dtd：将约束的规则定义在外部的dtd文件中* 本地：    SYSTEM 表示系统本地的意思* 网络：   PUBLIC 表示网络开放的

根据DTD约束文档书写xml文档





zhangsanabchehelisi24female

DTD约束文档缺点

DTD约束文档只能定义标签及其结构，如果一个标签所包裹的内容是文本，那么DTD约束文档就无法对其内容进行约束

4. Schema

一个简单的Schema约束文档

阅读Schema约束文档

Schema约束文档本身就是一个xml文档
1. 通过element定义标签属性* name：定义标签的名称* type：定义标签的类型*自带的类型，如：type="xsd:string"*自定义类型： 自定义类型必须进行定义* minOccurs ：定义标签最少出现的次数* maxOccurs：定义标签最多出现的次数* unbounded：表示没有限制
2. 通过complexType定义复合的标签类型属性* name：标签类型名称子标签* sequence：定义在里面的标签元素必须按顺序出现* attribute ：定义标签的属性属性* name：属性名称* type：属性类型* use ： 定义是否必须的属性，required 表示必须的注意点* 复合的标签类型里面还可以定义其他的标签，所以复合类型定义的是标签
3. 通过simpleType定义简单的标签类型属性* name ： 标签名称子标签* restriction： 定义基本的类型，并对类型进行限制属性* base ：定义基本的类型如:base="xsd:integer"：定义的是整数类型base="xsd:string" ：定义的是字符串类型子标签* minInclusive：限定内容的最小值* maxInclusive：限定内容的最大值* enumeration：枚举限定，只能是枚举里面的内容，在枚举内容里面取其一* pattern：定义正则表达式来对内容进行限定注意点* 简单的标签类型里面不能定义其他的标签，所以简单的标签类型定义的是文本内容

引入Schema文档到xml文档中

1.填写xml文档的根元素
2.引入xsi前缀.  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"    
3.引入Schema文件命名空间.  xsi:schemaLocation="http://www.itcast.cn/xml  student.xsd"* student.xsd : Schema文档的路径* "http://www.itcast.cn/xml：给 Schema文档取的名字（名称空间或命名空间）
4.为每一个Schema约束声明一个前缀,作为标识  xmlns="http://www.itcast.cn/xml" * 在没有引入前缀时，每一个标签的使用必须要加上Schema文件的命名空间如： * 引入前缀后，可以通过前缀定义的字符来代替命名空间如：xmlns:a="http://www.itcast.cn/xml" ，用a来代替命名空间http://www.itcast.cn/xml * 当只引入一个Schema文档时，可以将前缀字符设置成空如：xmlns="http://www.itcast.cn/xml"，用空来代替名称空间http://www.itcast.cn/xml * 注意如果引入多个Schema文档且文档内存在相同名称的标签元素，那么必须给它们取上不同的前缀名，以示区分。此时最多只能有一个前缀设置成空，其他前缀必须不为空且前缀名称不相同。如：示例

根据Schema约束文档书写xml文档



tom18male

三、XML解析

1、操作xml文档

1. 解析(读取)：将文档中的数据读取到内存中
2. 写入：将内存中的数据保存到xml文档中。持久化的存储

2、解析xml的方式

1. DOM

DOM：将标记语言文档一次性加载进内存，在内存中形成一颗dom树，一般用在服务端* 优点：操作方便，可以对文档进行CRUD的所有操作* 缺点：占内存

在这里插入图片描述

2. SAX

SAX：逐行读取，基于事件驱动的。由标签事件驱动，然后进行处理。一般用在移动端* 优点：不占内存。读一行释放一行* 缺点：只能读取，不能增删改

3. xml常见的解析器（工具包）

1. JAXP：sun公司提供的解析器，支持dom和sax两种思想      很少使用
2. DOM4J：一款非常优秀的解析器
3. Jsoup：jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。
4. PULL：Android操作系统内置的解析器，sax方式的。

4. Jsoup

（1）快速入门

步骤

1. 导入jar包jsoup-1.11.2.jar
2. 获取Document对象
3. 获取对应的标签Element对象
4. 获取数据

代码
要进行操作的xml文档：student.xml

张三18malejack18female

操作代码

package cn.itcast.xml.jsoup;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.File;
import java.io.IOException;/*** Jsoup快速入门*/
public class JsoupDemo1 {public static void main(String[] args) throws IOException {//2.获取Document对象，根据xml文档获取//2.1获取student.xml的pathString path = JsoupDemo1.class.getClassLoader().getResource("student.xml").getPath();//2.2解析xml文档，加载文档进内存，获取dom树--->Document  注意这里的字符集要和xml文档的字符集一致Document document = Jsoup.parse(new File(path), "utf-8");//3.获取元素对象 ElementElements elements = document.getElementsByTag("name");System.out.println(elements.size());//3.1获取第一个name的Element对象Element element = elements.get(0);//3.2获取数据String name = element.text();System.out.println(name);}}

（2）对象的使用

1） Jsoup：工具类，可以解析html或xml文档，返回Document

* parse：解析html或xml文档，返回Document* parse(File in, String charsetName)：解析xml或html文件的。* parse(String html)：解析xml或html字符串* parse(URL url, int timeoutMillis)：通过网络路径获取指定的html或xml的文档对象，这种方式爬虫里面用的比较多URL:统一资源定位符

代码

package cn.itcast.xml.jsoup;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.File;
import java.io.IOException;
import java.net.URL;/*** Jsoup对象功能*/
public class JsoupDemo2 {public static void main(String[] args) throws IOException {//2.1获取student.xml的pathString path = JsoupDemo2.class.getClassLoader().getResource("student.xml").getPath();//2.2解析xml文档，加载文档进内存，获取dom树--->Document/* Document document = Jsoup.parse(new File(path), "utf-8");System.out.println(document);*///2.parse(String html)：解析xml或html字符串/* String str = "\n" +"\n" +"\n" +"\t\n" +"\t\ttom\n" +"\t\t18\n" +"\t\tmale\n" +"\t\n" +"\t\n" +"\t\tjack\n" +"\t\t18\n" +"\t\tfemale\n" +"\t\n" +"\n" +"";Document document = Jsoup.parse(str);System.out.println(document);*///3.parse(URL url, int timeoutMillis)：通过网络路径获取指定的html或xml的文档对象URL url = new URL("https://baike.baidu.com/item/jsoup/9012509?fr=aladdin");//代表网络中的一个资源路径Document document = Jsoup.parse(url, 10000);System.out.println(document);}}

2）Document：文档对象。代表内存中的dom树

* 获取Element对象* getElementById(String id)：根据id属性值获取唯一的element对象* getElementsByTag(String tagName)：根据标签名称获取元素对象集合* getElementsByAttribute(String key)：根据属性名称获取元素对象集合* getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合

代码

package cn.itcast.xml.jsoup;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.File;
import java.io.IOException;
import java.net.URL;/*** Document/Element对象功能*/
public class JsoupDemo3 {public static void main(String[] args) throws IOException {//1.获取student.xml的pathString path = JsoupDemo3.class.getClassLoader().getResource("student.xml").getPath();//2.获取Document对象Document document = Jsoup.parse(new File(path), "utf-8");//3.获取元素对象了。//3.1获取所有student对象Elements elements = document.getElementsByTag("student");System.out.println(elements);System.out.println("-----------");//3.2 获取属性名为id的元素对象们Elements elements1 = document.getElementsByAttribute("id");System.out.println(elements1);System.out.println("-----------");//3.2获取 number属性值为heima_0001的元素对象Elements elements2 = document.getElementsByAttributeValue("number", "heima_0001");System.out.println(elements2);System.out.println("-----------");//3.3获取id属性值的元素对象Element itcast = document.getElementById("itcast");System.out.println(itcast);}}

3）Elements：元素Element对象的集合。可以当做 ArrayList来使用
4）Element：元素对象

1. 获取子元素对象* getElementById(String id)：根据id属性值获取唯一的element对象* getElementsByTag(String tagName)：根据标签名称获取元素对象集合* getElementsByAttribute(String key)：根据属性名称获取元素对象集合* getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合2. 获取属性值* String attr(String key)：根据属性名称获取属性值
3. 获取文本内容* String text():获取所有子标签的纯文本内容（不包括子标签的标签内容，只包括标签内的文本内容）* String html():获取标签体的所有内容(包括子标签的标签和文本内容)

代码

package cn.itcast.xml.jsoup;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.File;
import java.io.IOException;/***Element对象功能*/
public class JsoupDemo4 {public static void main(String[] args) throws IOException {//1.获取student.xml的pathString path = JsoupDemo4.class.getClassLoader().getResource("student.xml").getPath();//2.获取Document对象Document document = Jsoup.parse(new File(path), "utf-8");/*Element：元素对象1. 获取子元素对象* getElementById(String id)：根据id属性值获取唯一的element对象* getElementsByTag(String tagName)：根据标签名称获取元素对象集合* getElementsByAttribute(String key)：根据属性名称获取元素对象集合* getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合2. 获取属性值* String attr(String key)：根据属性名称获取属性值3. 获取文本内容* String text():获取所有字标签的纯文本内容* String html():获取标签体的所有内容(包括子标签的标签和文本内容)*///通过Document对象获取name标签，获取所有的name标签，可以获取到两个Elements elements = document.getElementsByTag("name");System.out.println(elements.size());System.out.println("----------------");//通过Element对象获取子标签对象Element element_student = document.getElementsByTag("student").get(0);Elements ele_name = element_student.getElementsByTag("name");System.out.println(ele_name.size());//获取student对象的属性值String number = element_student.attr("NUMBER");System.out.println(number);System.out.println("------------");//获取文本内容String text = ele_name.text();String html = ele_name.html();System.out.println(text);System.out.println(html);}}

5 ) Node：节点对象，是Document和Element的父类

（3）快捷查询方式

1）selector:选择器

* 使用的方法：Elements	select(String cssQuery) * 结合css选择器一起使用（cssQuery就是css选择器）* 语法：参考Selector类中定义的语法

代码

package cn.itcast.xml.jsoup;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.File;
import java.io.IOException;/***选择器查询*/
public class JsoupDemo5 {public static void main(String[] args) throws IOException {//1.获取student.xml的pathString path = JsoupDemo5.class.getClassLoader().getResource("student.xml").getPath();//2.获取Document对象Document document = Jsoup.parse(new File(path), "utf-8");//3.查询name标签/*div{}*/Elements elements = document.select("name");System.out.println(elements);System.out.println("=----------------");//4.查询id值为itcast的元素Elements elements1 = document.select("#itcast");System.out.println(elements1);System.out.println("----------------");//5.获取student标签并且number属性值为heima_0001的age子标签//5.1.获取student标签并且number属性值为heima_0001Elements elements2 = document.select("student[number=\"heima_0001\"]");System.out.println(elements2);System.out.println("----------------");//5.2获取student标签并且number属性值为heima_0001的age子标签Elements elements3 = document.select("student[number=\"heima_0001\"] > age");System.out.println(elements3);}}

2）XPath：XPath即为XML路径语言，它是一种用来确定XML（标准通用标记语言的子集）文档中某部分位置的语言

* 使用Jsoup的Xpath需要额外导入jar包。* JsoupXpath-0.3.2.jar 
* 查询w3cshool参考手册，使用xpath的语法完成查询* https://www.w3school.com.cn/xpath/index.asp

代码

package cn.itcast.xml.jsoup;import cn.wanghaomiao.xpath.exception.XpathSyntaxErrorException;
import cn.wanghaomiao.xpath.model.JXDocument;
import cn.wanghaomiao.xpath.model.JXNode;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;import java.io.File;
import java.io.IOException;
import java.util.List;/***XPath查询*/
public class JsoupDemo6 {public static void main(String[] args) throws IOException, XpathSyntaxErrorException {//1.获取student.xml的pathString path = JsoupDemo6.class.getClassLoader().getResource("student.xml").getPath();//2.获取Document对象Document document = Jsoup.parse(new File(path), "utf-8");//3.根据document对象，创建JXDocument对象JXDocument jxDocument = new JXDocument(document);//4.结合xpath语法查询//4.1查询所有student标签List jxNodes = jxDocument.selN("//student");for (JXNode jxNode : jxNodes) {System.out.println(jxNode);}System.out.println("--------------------");//4.2查询所有student标签下的name标签List jxNodes2 = jxDocument.selN("//student/name");for (JXNode jxNode : jxNodes2) {System.out.println(jxNode);}System.out.println("--------------------");//4.3查询student标签下带有id属性的name标签List jxNodes3 = jxDocument.selN("//student/name[@id]");for (JXNode jxNode : jxNodes3) {System.out.println(jxNode);}System.out.println("--------------------");//4.4查询student标签下带有id属性的name标签 并且id属性值为itcastList jxNodes4 = jxDocument.selN("//student/name[@id='itcast']");for (JXNode jxNode : jxNodes4) {System.out.println(jxNode);}}}

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：[linux]vim编辑器

下一篇：【C语言航路】第十站：指针进阶（一）

17. XML

文章目录

一、XML概念

二、XML语法

1、基础语法

2、快速入门

3、组成部分

4、约束

1. 约束概述

2. 分类

3. DTD

4. Schema

三、XML解析

1、操作xml文档

2、解析xml的方式

1. DOM

2. SAX

3. xml常见的解析器（工具包）

4. Jsoup

（1）快速入门

（2）对象的使用

（3）快捷查询方式

相关内容

热门资讯

17. XML

文章目录

一、XML概念

二、XML语法

1、基础语法

2、快速入门

3、组成部分

4、约束

1. 约束概述

2. 分类

3. DTD

4. Schema

三、XML解析

1、操作xml文档

2、 解析xml的方式

1. DOM

2. SAX

3. xml常见的解析器（工具包）

4. Jsoup

（1）快速入门

（2）对象的使用

（3）快捷查询方式

相关内容

热门资讯

2、解析xml的方式