概念:Extensible Markup Language 可扩展标记语言* 可扩展:标签都是自定义的。 * 功能* 存储数据1. 配置文件 properties配置文件只能配置一些简单的信息,对于复杂的配置信息一般使用xml来进行配置xml存储的信息具有结构化,能够比较好体现出数据与数据间的关系,而properties存储信息只有键值对形式,无法体现出数据间的关系2. 在网络中传输* xml与html的区别1. xml标签都是自定义的,html标签是预定义。2. xml的语法严格,html语法松散3. xml是存储数据的,html是展示数据* w3c:万维网联盟
1. xml文档的后缀名 .xml
2. xml第一行必须定义为文档声明(就算文档声明前面的行为空行也不行,文档声明必须在第一行)
3. xml文档中有且仅有一个根标签
4. 属性值必须使用引号(单双都可)引起来
5. 标签必须正确关闭(也就是说标签必须有始有闭,不存在自闭合标签)
6. xml标签名称区分大小写(如果标签的起始和闭合标签一个大写一个小写,那么就会报错)
zhangsan 23 male
lisi 24 female
1. 文档声明1. 格式: 注意: "" 中符号和符号间不能乱加空格,如果乱加了空格会报错如: < ?xml 属性列表 ?> 错误2. 属性列表:* version:版本号,一般可以写1.0,其为主流版本 版本号是必须的属性,不写版本号会报错* encoding:编码方式。告知解析引擎当前文档使用的字符集,默认值:ISO-8859-1* standalone:是否独立 现在一般情况下不进行设置* 取值:* yes:不依赖其他文件* no:依赖其他文件
2. 指令(了解):结合css的,导入css文件,并将xml文件的内容进行解析显示* * 注意:此时xml不是用来存储数据了,而是用来展示数据,所以现在一般不这样用了
3. 标签:标签名称自定义的* 规则:* 名称可以包含字母、数字以及其他的字符 * 名称不能以数字或者标点符号开始 * 名称不能以字母 xml(或者 XML、Xml 等等)开始 * 名称不能包含空格 4. 属性:id属性值唯一注意:引入约束后id值不唯一会报错,但是如果没有引入约束,那么id值不唯一不会报错
5. 文本:* xml文件中如果出现特殊格式的字符需要进行转义,如if( a < b && a > c ){} 需要转义成 if ( a < b && a > c ){} 为了方便显示引入CDATA区* CDATA区:在该区域中的数据会被原样展示* 格式:
代码
a.css
name{color:red;
}
a.xml
张三 23 male
lisi 24 female c) {}]]]>
* 约束:规定xml文档的书写规则
* 作为框架的使用者(程序员):1. 能够在xml中引入约束文档2. 能够简单的读懂约束文档
1. DTD:一种简单的约束技术 ,后缀名: .dtd
2. Schema:一种复杂的约束技术,后缀名: .xsd
一个简单的DTD约束文档
阅读DTD约束文档
1. 通过 ELEMENT 来定义标签 定义students标签,这个标签里面可以放student标签作为其子标签,这个标签至少出现1次可以通过量词来描述子标签在父标签内的出现次数+ : 出现至少1次* : 可以出现任意次数不加符号:必须且只能出现 1 次 定义student标签,这个标签里面可以放name,age,sex子标签,这些子标签只能出现1次,并且得按name,age,sex的顺序出现定义name标签,这个标签里面可以放字符串定义age 标签,这个标签里面可以放字符串定义sex 标签,这个标签里面可以放字符串2. 通过ATTLIST 来定义属性定义student 标签的属性numbernumber:属性名称 ID:number属性值必须唯一 #REQUIRED : number属性必须出现
引入DTD文档到xml文档中
* 内部dtd:将约束规则定义在xml文档中*
* 外部dtd:将约束的规则定义在外部的dtd文件中* 本地: SYSTEM 表示系统本地的意思* 网络: PUBLIC 表示网络开放的
根据DTD约束文档书写xml文档
zhangsan abc hehe lisi 24 female
DTD约束文档缺点
DTD约束文档只能定义标签及其结构,如果一个标签所包裹的内容是文本,那么DTD约束文档就无法对其内容进行约束
一个简单的Schema约束文档
阅读Schema约束文档
Schema约束文档本身就是一个xml文档
1. 通过element定义标签属性* name:定义标签的名称* type:定义标签的类型*自带的类型,如:type="xsd:string"*自定义类型: 自定义类型必须进行定义* minOccurs :定义标签最少出现的次数* maxOccurs:定义标签最多出现的次数* unbounded:表示没有限制
2. 通过complexType定义复合的标签类型属性* name:标签类型名称子标签* sequence:定义在里面的标签元素必须按顺序出现* attribute :定义标签的属性属性* name:属性名称* type:属性类型* use : 定义是否必须的属性,required 表示必须的注意点* 复合的标签类型里面还可以定义其他的标签,所以复合类型定义的是标签
3. 通过simpleType定义简单的标签类型属性* name : 标签名称子标签* restriction: 定义基本的类型,并对类型进行限制属性* base :定义基本的类型如:base="xsd:integer":定义的是整数类型base="xsd:string" :定义的是字符串类型子标签* minInclusive:限定内容的最小值* maxInclusive:限定内容的最大值* enumeration:枚举限定,只能是枚举里面的内容,在枚举内容里面取其一* pattern:定义正则表达式来对内容进行限定注意点* 简单的标签类型里面不能定义其他的标签,所以简单的标签类型定义的是文本内容
引入Schema文档到xml文档中
1.填写xml文档的根元素
2.引入xsi前缀. xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
3.引入Schema文件命名空间. xsi:schemaLocation="http://www.itcast.cn/xml student.xsd"* student.xsd : Schema文档的路径* "http://www.itcast.cn/xml:给 Schema文档取的名字(名称空间或命名空间)
4.为每一个Schema约束声明一个前缀,作为标识 xmlns="http://www.itcast.cn/xml" * 在没有引入前缀时,每一个标签的使用必须要加上Schema文件的命名空间如: * 引入前缀后,可以通过前缀定义的字符来代替命名空间如:xmlns:a="http://www.itcast.cn/xml" ,用a来代替命名空间http://www.itcast.cn/xml * 当只引入一个Schema文档时,可以将前缀字符设置成空如:xmlns="http://www.itcast.cn/xml",用空来代替名称空间http://www.itcast.cn/xml * 注意如果引入多个Schema文档且文档内存在相同名称的标签元素,那么必须给它们取上不同的前缀名,以示区分。此时最多只能有一个前缀设置成空,其他前缀必须不为空且前缀名称不相同。如:示例
根据Schema约束文档书写xml文档
tom 18 male
1. 解析(读取):将文档中的数据读取到内存中
2. 写入:将内存中的数据保存到xml文档中。持久化的存储
DOM:将标记语言文档一次性加载进内存,在内存中形成一颗dom树,一般用在服务端* 优点:操作方便,可以对文档进行CRUD的所有操作* 缺点:占内存
SAX:逐行读取,基于事件驱动的。由标签事件驱动,然后进行处理。一般用在移动端* 优点:不占内存。读一行释放一行* 缺点:只能读取,不能增删改
1. JAXP:sun公司提供的解析器,支持dom和sax两种思想 很少使用
2. DOM4J:一款非常优秀的解析器
3. Jsoup:jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
4. PULL:Android操作系统内置的解析器,sax方式的。
步骤
1. 导入jar包jsoup-1.11.2.jar
2. 获取Document对象
3. 获取对应的标签Element对象
4. 获取数据
代码
要进行操作的xml文档:student.xml
张 三 18 male jack 18 female
操作代码
package cn.itcast.xml.jsoup;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.File;
import java.io.IOException;/*** Jsoup快速入门*/
public class JsoupDemo1 {public static void main(String[] args) throws IOException {//2.获取Document对象,根据xml文档获取//2.1获取student.xml的pathString path = JsoupDemo1.class.getClassLoader().getResource("student.xml").getPath();//2.2解析xml文档,加载文档进内存,获取dom树--->Document 注意这里的字符集要和xml文档的字符集一致Document document = Jsoup.parse(new File(path), "utf-8");//3.获取元素对象 ElementElements elements = document.getElementsByTag("name");System.out.println(elements.size());//3.1获取第一个name的Element对象Element element = elements.get(0);//3.2获取数据String name = element.text();System.out.println(name);}}
1) Jsoup:工具类,可以解析html或xml文档,返回Document
* parse:解析html或xml文档,返回Document* parse(File in, String charsetName):解析xml或html文件的。* parse(String html):解析xml或html字符串* parse(URL url, int timeoutMillis):通过网络路径获取指定的html或xml的文档对象,这种方式爬虫里面用的比较多URL:统一资源定位符
代码
package cn.itcast.xml.jsoup;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.File;
import java.io.IOException;
import java.net.URL;/*** Jsoup对象功能*/
public class JsoupDemo2 {public static void main(String[] args) throws IOException {//2.1获取student.xml的pathString path = JsoupDemo2.class.getClassLoader().getResource("student.xml").getPath();//2.2解析xml文档,加载文档进内存,获取dom树--->Document/* Document document = Jsoup.parse(new File(path), "utf-8");System.out.println(document);*///2.parse(String html):解析xml或html字符串/* String str = "\n" +"\n" +"\n" +"\t\n" +"\t\ttom \n" +"\t\t18 \n" +"\t\tmale \n" +"\t \n" +"\t\n" +"\t\tjack \n" +"\t\t18 \n" +"\t\tfemale \n" +"\t \n" +"\n" +" ";Document document = Jsoup.parse(str);System.out.println(document);*///3.parse(URL url, int timeoutMillis):通过网络路径获取指定的html或xml的文档对象URL url = new URL("https://baike.baidu.com/item/jsoup/9012509?fr=aladdin");//代表网络中的一个资源路径Document document = Jsoup.parse(url, 10000);System.out.println(document);}}
2)Document:文档对象。代表内存中的dom树
* 获取Element对象* getElementById(String id):根据id属性值获取唯一的element对象* getElementsByTag(String tagName):根据标签名称获取元素对象集合* getElementsByAttribute(String key):根据属性名称获取元素对象集合* getElementsByAttributeValue(String key, String value):根据对应的属性名和属性值获取元素对象集合
代码
package cn.itcast.xml.jsoup;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.File;
import java.io.IOException;
import java.net.URL;/*** Document/Element对象功能*/
public class JsoupDemo3 {public static void main(String[] args) throws IOException {//1.获取student.xml的pathString path = JsoupDemo3.class.getClassLoader().getResource("student.xml").getPath();//2.获取Document对象Document document = Jsoup.parse(new File(path), "utf-8");//3.获取元素对象了。//3.1获取所有student对象Elements elements = document.getElementsByTag("student");System.out.println(elements);System.out.println("-----------");//3.2 获取属性名为id的元素对象们Elements elements1 = document.getElementsByAttribute("id");System.out.println(elements1);System.out.println("-----------");//3.2获取 number属性值为heima_0001的元素对象Elements elements2 = document.getElementsByAttributeValue("number", "heima_0001");System.out.println(elements2);System.out.println("-----------");//3.3获取id属性值的元素对象Element itcast = document.getElementById("itcast");System.out.println(itcast);}}
3)Elements:元素Element对象的集合。可以当做 ArrayList来使用
4)Element:元素对象
1. 获取子元素对象* getElementById(String id):根据id属性值获取唯一的element对象* getElementsByTag(String tagName):根据标签名称获取元素对象集合* getElementsByAttribute(String key):根据属性名称获取元素对象集合* getElementsByAttributeValue(String key, String value):根据对应的属性名和属性值获取元素对象集合2. 获取属性值* String attr(String key):根据属性名称获取属性值
3. 获取文本内容* String text():获取所有子标签的纯文本内容(不包括子标签的标签内容,只包括标签内的文本内容)* String html():获取标签体的所有内容(包括子标签的标签和文本内容)
代码
package cn.itcast.xml.jsoup;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.File;
import java.io.IOException;/***Element对象功能*/
public class JsoupDemo4 {public static void main(String[] args) throws IOException {//1.获取student.xml的pathString path = JsoupDemo4.class.getClassLoader().getResource("student.xml").getPath();//2.获取Document对象Document document = Jsoup.parse(new File(path), "utf-8");/*Element:元素对象1. 获取子元素对象* getElementById(String id):根据id属性值获取唯一的element对象* getElementsByTag(String tagName):根据标签名称获取元素对象集合* getElementsByAttribute(String key):根据属性名称获取元素对象集合* getElementsByAttributeValue(String key, String value):根据对应的属性名和属性值获取元素对象集合2. 获取属性值* String attr(String key):根据属性名称获取属性值3. 获取文本内容* String text():获取所有字标签的纯文本内容* String html():获取标签体的所有内容(包括子标签的标签和文本内容)*///通过Document对象获取name标签,获取所有的name标签,可以获取到两个Elements elements = document.getElementsByTag("name");System.out.println(elements.size());System.out.println("----------------");//通过Element对象获取子标签对象Element element_student = document.getElementsByTag("student").get(0);Elements ele_name = element_student.getElementsByTag("name");System.out.println(ele_name.size());//获取student对象的属性值String number = element_student.attr("NUMBER");System.out.println(number);System.out.println("------------");//获取文本内容String text = ele_name.text();String html = ele_name.html();System.out.println(text);System.out.println(html);}}
5 ) Node:节点对象, 是Document和Element的父类
1)selector:选择器
* 使用的方法:Elements select(String cssQuery) * 结合css选择器一起使用(cssQuery就是css选择器)* 语法:参考Selector类中定义的语法
代码
package cn.itcast.xml.jsoup;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.File;
import java.io.IOException;/***选择器查询*/
public class JsoupDemo5 {public static void main(String[] args) throws IOException {//1.获取student.xml的pathString path = JsoupDemo5.class.getClassLoader().getResource("student.xml").getPath();//2.获取Document对象Document document = Jsoup.parse(new File(path), "utf-8");//3.查询name标签/*div{}*/Elements elements = document.select("name");System.out.println(elements);System.out.println("=----------------");//4.查询id值为itcast的元素Elements elements1 = document.select("#itcast");System.out.println(elements1);System.out.println("----------------");//5.获取student标签并且number属性值为heima_0001的age子标签//5.1.获取student标签并且number属性值为heima_0001Elements elements2 = document.select("student[number=\"heima_0001\"]");System.out.println(elements2);System.out.println("----------------");//5.2获取student标签并且number属性值为heima_0001的age子标签Elements elements3 = document.select("student[number=\"heima_0001\"] > age");System.out.println(elements3);}}
2)XPath:XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言
* 使用Jsoup的Xpath需要额外导入jar包。* JsoupXpath-0.3.2.jar
* 查询w3cshool参考手册,使用xpath的语法完成查询* https://www.w3school.com.cn/xpath/index.asp
代码
package cn.itcast.xml.jsoup;import cn.wanghaomiao.xpath.exception.XpathSyntaxErrorException;
import cn.wanghaomiao.xpath.model.JXDocument;
import cn.wanghaomiao.xpath.model.JXNode;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;import java.io.File;
import java.io.IOException;
import java.util.List;/***XPath查询*/
public class JsoupDemo6 {public static void main(String[] args) throws IOException, XpathSyntaxErrorException {//1.获取student.xml的pathString path = JsoupDemo6.class.getClassLoader().getResource("student.xml").getPath();//2.获取Document对象Document document = Jsoup.parse(new File(path), "utf-8");//3.根据document对象,创建JXDocument对象JXDocument jxDocument = new JXDocument(document);//4.结合xpath语法查询//4.1查询所有student标签List jxNodes = jxDocument.selN("//student");for (JXNode jxNode : jxNodes) {System.out.println(jxNode);}System.out.println("--------------------");//4.2查询所有student标签下的name标签List jxNodes2 = jxDocument.selN("//student/name");for (JXNode jxNode : jxNodes2) {System.out.println(jxNode);}System.out.println("--------------------");//4.3查询student标签下带有id属性的name标签List jxNodes3 = jxDocument.selN("//student/name[@id]");for (JXNode jxNode : jxNodes3) {System.out.println(jxNode);}System.out.println("--------------------");//4.4查询student标签下带有id属性的name标签 并且id属性值为itcastList jxNodes4 = jxDocument.selN("//student/name[@id='itcast']");for (JXNode jxNode : jxNodes4) {System.out.println(jxNode);}}}
上一篇:[linux]vim编辑器