Python中的Xpath和lxml库的使用详解

 更新时间:2023年12月06日 10:00:55   作者:凌冰_  
这篇文章主要介绍了Python中的Xpath和lxml库的使用详解,XPath即 XML路径语言,它是一门在 XML 文档中查找信息的语言,最初被用来搜寻 XML 文档,同时它也适用于搜索 HTML 文档,因此,在爬虫过程中可以使用 XPath 来提取相应的数据,需要的朋友可以参考下

一、Xpath表达式

XPath(全称:XML Path Language)即 XML 路径语言,它是一门在 XML 文档中查找信息的语言,最初被用来搜寻 XML 文档,同时它也适用于搜索 HTML 文档。

因此,在爬虫过程中可以使用 XPath 来提取相应的数据。

Xpath节点:有父、子、同代、先辈、后代节点

<?xml version="1.0" encoding="utf-8"?>
<shop>
    <book>
      <title lang="zh-CN">java</title>
      <name>Java编程思想</name>
      <year>2011</year>
      <address>www.baidu.com</address>
    </book>
</shop>

说明:

  • title name year address 都是 book 的子节点
  • book 是 title name year address  父节点
  • title name year address  属于同代节点
  • title 元素的先辈节点是 book shop
  • shop 的后代节点是 book title name year address

二、Xpath基本语法

1) 基本语法

2) xpath通配符

xpath('/div/*')选取div下的所有子节点xpath('/div[@*]')选取所有带属性的div节点

3) 多路径匹配

xpath表达式1 | xpath表达式2 | xpath表达式3

xpath('//div|//table') 选取所有的div和table节点

4)功能函数

三、lxml库

lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 Xpath 表达式提供了良好的支持,因此能够了高效地解析 HTML/XML 文档。

本节讲解如何通过 lxml 库解析 HTML 文档。

安装lxml库

pip3 install lxml

lxml使用流程

1) 导入模块

from lxml import etree

2)创建解析对象

parse_html = etree.HTML(html)

3) 调用xpath表达式

r_list = parse_html.xpath('xpath表达式')

4) lxml库数据提取

print(r_list)

四、实战案例

豆瓣书店

#豆瓣书店
import requests
from lxml import  etree
 
if __name__ == '__main__':
    url='https://market.douban.com/book/?utm_campaign=book_nav_freyr&utm_source=douban&utm_medium=pc_web'
    headers_={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36"
    }
    res=requests.get(url,headers_)
    # print(res.text)
    html=etree.HTML(res.text)
    #获取所有的li
    lis=html.xpath('.//li[@class="book-item"]')
    #循环
    for li in lis:
        #获取li下的图片
        img=li.xpath('.//div[@class="panel-img"]/img/@src')[0]
        # print(img)
        # 获取li下的标题
        title = li.xpath('.//div[@class="panel-detail"]/div/h3/text()')[0]
        print(img, title)

到此这篇关于Python中的Xpath和lxml库的使用详解的文章就介绍到这了,更多相关Python中的Xpath和lxml库内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • PyCharm中的terminal运行从PS修改成cmd方式

    PyCharm中的terminal运行从PS修改成cmd方式

    这篇文章主要介绍了PyCharm中的terminal运行从PS修改成cmd方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-06-06
  • Python dict字典基本操作(添加、修改、删除键值对)

    Python dict字典基本操作(添加、修改、删除键值对)

    本文主要介绍了Python dict字典基本操作,主要包括字典添加、修改、删除键值对等,具有一定的参考价值,感兴趣的可以了解一下
    2023-09-09
  • Python3读写Excel文件(使用xlrd,xlsxwriter,openpyxl3种方式读写实例与优劣)

    Python3读写Excel文件(使用xlrd,xlsxwriter,openpyxl3种方式读写实例与优劣)

    这篇文章主要介绍了Python3读写Excel文件,使用xlrd,xlsxwriter,openpyxl3种方式读写实例与优劣,需要的朋友可以参考下
    2020-02-02
  • 使用pycharm创建Django项目失败的解决方案

    使用pycharm创建Django项目失败的解决方案

    使用PyCharm创建Django项目时遇到无法运行的问题,可以检查Python的安装路径设置是否正确,在PyCharm的设置中找到项目解释器的位置,确保路径正确,如果不确定Python的安装位置,可以在命令提示符中使用“where Python”命令查询
    2024-09-09
  • Python网络编程之HTTP客户端模块urllib与urllib3

    Python网络编程之HTTP客户端模块urllib与urllib3

    这篇文章介绍了Python网络编程之HTTP客户端模块urllib与urllib3,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-05-05
  • Python3读取和处理超大文件的操作详解

    Python3读取和处理超大文件的操作详解

    在日常工作中,文件对象是我们常接触到的可迭代类型之一,一般用 for 循环遍历一个文件对象,可以逐行读取它的内容,但这种方式在碰到大文件时,可能会出现一些奇怪的效率问题,所以本文给大家介绍了Python3读取和处理超大文件的操作,需要的朋友可以参考下
    2024-04-04
  • Python采集情感音频的实现示例

    Python采集情感音频的实现示例

    本文主要介绍了Python采集情感音频的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-04-04
  • python linecache读取行更新的实现

    python linecache读取行更新的实现

    本文主要介绍了python linecache读取行更新的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-03-03
  • Django中使用第三方登录的示例代码

    Django中使用第三方登录的示例代码

    这篇文章主要介绍了Django中使用第三方登录的示例代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-08-08
  • 详解Python 中的命名空间、变量和范围

    详解Python 中的命名空间、变量和范围

    Python 是一种动态类型语言,在程序执行期间,变量名可以绑定到不同的值和类型,这篇文章主要介绍了Python 中的命名空间、变量和范围,需要的朋友可以参考下
    2022-09-09

最新评论