XPath 是一个好工具

codecraft 发布于2019-08-27 10:51 / 983人阅读

摘要：一个表达式是由一个或多个被分割的定位步组成。对于此类断言，我们可以使用谓词根据额外的遍历树来过滤出符合条件的节点。所以用来做一些低水平或与应用无关的事情遍历树来找指定属性的节点让人蛋疼。这是一个专门用来让你使用简洁的惯用表达式来遍历的工具。

编者注: XPath 即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。
XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。

我第一次接触XPath是在2007年，但最近才开始对它产生兴趣。以前在大多数情况下我都会尽量避免使用它，而当我不得不尝试使用它时，每次都以失败告终。那时XPath对我来说并没有什么意义。

但是后来我遇到了一个特殊的解析问题（对CSS选择器来说过于复杂，而用手工代码的话又过于简单），于是我决定再尝试一次XPath。令我感到惊喜的是，这的确行得通，而且很有用。

以下是我的亲身经历

我遇到的问题

假设你管理一个歌词网站，为了维持一致的阅读体验，你要收集每行歌词的第一个单词。如果歌词使用纯文本格式保存，那么可以直接用下面的代码来实现。

lyrics.gsub!(/^./) { |character| character.upcase }

但是如果歌词被保存肯html格式就没有这么简单了，因为dom结构本身并没有”行”的概念，所以没有办法使用一个简单的正则表达式来识别行。

所以我们要做的第一件事情是定义什么是dom结构中的“行的起点”，下面是两个简单的例子：

标签中第一个文本节点

后面的第一个文本节点
就像下面这样:

This is the beginning of a line.This is too.

但是除此之外我们可能还要处理嵌套的行内元素：

This is the beginning of a line. This is not.

常规的解决方案

我想到的第一个解决方法是用Ruby写一个方法来扫描dom中所有相关的部分并递归找出所有符合条件的节点。其中用到了几个轻量级的css选择器：

def each_new_line(document)
  document.css("p").each { |p| yield first_text_node(p) }
  document.css("br").each { |br| yield first_text_node(br.next) }
end

def first_text_node(node)
  if node.nil? then nil
  elsif node.text? then node
  elsif node.children.any? then first_text_node(node.children.first)
  end
end

这是一个比较合理的解决方案，但是11行的代码似乎有点儿长。有点儿杀鸡用牛刀的感觉，仅仅为了获得dom的节点而用上Ruby的迭代器和条件语句感觉有点儿犯不上。应该有更好的办法吧？

终于说到正题了（XPath）

XPath有一下几个原因容易让人困惑。第一点是网上几乎没有可以参考的东西（W3Schools！就不用想了）。RFC已经是我找到的最好的文档了。

第二点是XPath看上去有点儿像CSS。方法名里就有“path”，所以我总是假设XPath的表达式中的 / 和CSS选择器中的 > 是一个意思。

document.xpath("//p/em/a") == document.css("p > em > a")

其实，XPath表达式包含了许多简写，如果我们想要弄清楚上面代码运行时究竟发生了什么就必须要弄清楚这些简写。下面是用全拼写出来的相同的表达式：

/descendant-or-self::node()/child::p/child::em/child::a/

这个XPath表达式和上面的CSS选择器的作用是一样的，但并不像我之前假设的那样。一个XPath表达式是由一个或多个被 / 分割的定位步（location steps）组成。表达式中的第一个 / 代表了文档（document）的根节点。每个定位步都表明了已经被匹配的节点并传达一下三条信息：

我想从当前的位置移动到哪？

答案是轴（Axis），是可选的。默认的轴是child，表示“当前被选中节点的所有子节点”。在上面的例子中，descendant-or-self是第一个定位部的轴，表示“所有当前被选中的节点和他们所有的子节点”。大部分XPath规范中定义的轴都有像“descendant-or-self”这样的语义化的名字。

我想要选择什么类型的节点？

选择的内容是由节点测试来指定的，这也是每个定位步中不可缺少的部分。在我们之前的例子中，node()匹配的是全部类型；text（）匹配到的是文本节点；element()只能匹配到元素，并必须指明节点名称（像p,em等），节点名称必填。

可能增加额外的过滤器吗？

也许我们只想选择当前所有节点的第一个子元素或只想选则有href属性的标签。对于此类断言（assertion），我们可以使用谓词（predicates）根据额外的遍历树（additional tree traversals）来过滤出符合条件的节点。这样我们就可以根据这些节点的属性（children, parents, or siblings）来过滤出符合条件的节点。

我们的例子中没有谓词，现在让我们来加一个只匹配有href属性的标签：

/descendant-or-self::node()/child::p/child::em/child::a[attribute::href]

虽然谓词看上去很像一个括号中的定位步，但是谓词中的“节点测试（node test）”部分有比定位步中的节点测试更多的功能。

换一个角度来看XPath

与一个增强型的CSS选择器相比，XPath与JQuery的便利更相似。例如，我们可以把之前的XPath表达式换成JQuery的形式：

$(document).find("*").
  children("p").
  children("em").
  children("a").filter("[href]")

上面的代码中，我们用到的JQuery的方法与轴的作用是一样的：

.children()相当于轴中的child，.find()相当于descendant。

JQuery方法中的选择器相当于XPath中的节点测试，只可惜jQuery不允许选择文本节点。

jQuery中的.filter()方法相当于XPath中的谓词，.children(‘em’)的作用是匹配所有匹配到的

标签中的所有子元素。这样看来，XPah要比jQuery强大得多。

云服务器 GPU云服务器 xpath php操作xpath php之xpath类我是一个

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/110334.html

上一篇：Builder——用Ruby创建XML

下一篇：浅析SAX,DOM,JAXP,JDOM与DOM4J之间的关系

相关文章

XPath 是一个好工具

摘要：一个表达式是由一个或多个被分割的定位步组成。对于此类断言，我们可以使用谓词根据额外的遍历树来过滤出符合条件的节点。所以用来做一些低水平或与应用无关的事情遍历树来找指定属性的节点让人蛋疼。这是一个专门用来让你使用简洁的惯用表达式来遍历的工具。编者注: XPath 即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。 XPat...

Ilikewhite 2019-08-28 17:54 评论0 收藏0

Selenium+python亲测爬虫工具爬取年度电影榜单

摘要：介绍是一个用于应用程序测试的工具，测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括，，，，，等，它在的领域里的引用能使初学者大大的省去解析网页中代加密的一些麻烦。 Selenium介绍 Selenium 是一个用于Web应用程序测试的工具，Selenium测试直接运行在浏览...

Jiavan 2021-09-04 16:40 评论0 收藏0

软件接口测试工具Jmeter使用核心详解【建议收藏】

用Jmeter做接口测试只需要掌握几个核心功能就可以了。并不一定要把它所有的功能都掌握，先掌握核心功能入行，然后再根据工作需要和职业规划来学习更多的内容。这篇文章在前面接口测试框架（测试计划--->线程组--->请求--->查看结果树）的前提下，来介绍必须要掌握的几个核心功能，力求用最短的时间取得最大的成果。在前面的文章中我提到，用Jmeter做接口测试的核心是单接口测试的参数化和关联接口测试...

zoomdong 2021-09-09 09:32 评论0 收藏0

以后再有人问你selenium是什么，你就把这篇文章给他

摘要：不同目标的自动化测试有不同的测试工具，但是任何工具都无不例外的需要编程的过程，实现源代码，也可以称之为测试脚本。写在最前面：目前自动化测试并不属于新鲜的事物，或者说自动化测试的各种方法论已经层出不穷，但是，能够在项目中持之以恒的实践自动化测试的团队，却依旧不是非常多。有的团队知道怎么做，做的还不够好；有的团队还正在探索和摸索怎么做，甚至还有一些多方面的技术上和非技术上的旧系统需要重构……...

Keven 2019-05-23 12:07 评论0 收藏0

发表评论

登陆后可评论

0条评论

codecraft

男|高级讲师

我要关注我要私信

TA的文章
阅读更多

边缘计算如何提高效率，实现 5G

阅读 1204·2021-11-16 11:42

VPSMS：53元/月KVM-512MB/15G SSD/1TB/洛杉矶CN2 GIA

阅读 2990·2021-10-12 10:18

【程序员必会十大算法】之分治算法（汉诺塔问题）

阅读 2923·2021-09-24 09:48

Flexbox响应式网页布局 - W3Schools视频02

阅读 3569·2019-08-30 15:56

sublime Text3 前端常用插件

阅读 1612·2019-08-30 14:17

在API 中，常用的code码

阅读 3108·2019-08-29 12:14

XPath 是一个好工具

阅读 984·2019-08-27 10:51

温故而知新：JS 变量提升与时间死区

阅读 2099·2019-08-26 13:28

最新活动

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

XPath 是一个好工具

我想从当前的位置移动到哪？

我想要选择什么类型的节点？

可能增加额外的过滤器吗？

相关文章

XPath 是一个好工具

Selenium+python亲测爬虫工具爬取年度电影榜单

软件接口测试工具Jmeter使用核心详解【建议收藏】

以后再有人问你selenium是什么，你就把这篇文章给他

发表评论

0条评论

codecraft

男|高级讲师

TA的文章

边缘计算如何提高效率，实现 5G

VPSMS：53元/月KVM-512MB/15G SSD/1TB/洛杉矶CN2 GIA

【程序员必会十大算法】之分治算法（汉诺塔问题）

Flexbox响应式网页布局 - W3Schools视频02

sublime Text3 前端常用插件

在API 中，常用的code码

XPath 是一个好工具

温故而知新：JS 变量提升与时间死区

最新活动