Selenium获取网页数据(1)——环境配置及入门
创始人
2024-04-08 05:54:34
0

Selenium获取网页数据环境配置及入门

【内容简介】

1.selenium 介绍

2.selenium +Python环境搭建

3.使用selenium获取网页数据

【知识点讲解】

1.selenium 介绍

selenium 是一个 web 的自动化测试工具。Selenium的核心Selenium Core基于JsUnit,完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上。

selenium可以模拟真实浏览器,自动化测试工具,支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题。

官方文档:

Selenium with Python — Selenium Python Bindings 2 documentation

Selenium Documentation — Selenium 4.6 documentation

2.selenium+Python环境搭建

2.1安装selenium库

和一般第三方库安装方法一样

 pip install selenium

2.2安装特定浏览器的webdriver插件

selenium需要通过浏览器的驱动程序(webdriver)来连接和启动一个浏览器。selenium支持谷歌、火狐、edge、欧朋等浏览器,这里以谷歌浏览器(chrome)为例进行讲解。

(1)查看chrome浏览器版本

点击chrome浏览器右上方的三个小圆点,如图1。

点击“帮助”

点击“关于 Google Chrome”,如图2所示。

 

 

图1 点击chrome浏览器右上方的三个小圆点

  

图2 查看chrome浏览器版本

(2) 下载selenium webdriver插件

登录chrome webdriver网站下载对应版本的 webdriver,如果没有相同的版本号,可以选择近似的版本,如下图所示。

目前可以下载chrome的webdriver的地址:

  • http://chromedriver.storage.googleapis.com/index.html
  • https://registry.npmmirror.com/binary.html?path=chromedriver/

选择Windows系统,64位也可以选择32位,如下图所示:

 

2.3  配置环境变量

将chromedriver.exe文件放置到python.exe解释器所在的文件夹内。

(1)找到你的python.exe解释器所在的文件夹

菜单:“文件”-“设置(settings)”,打开设置窗口

 

(2)复制“chromedriver.exe”到文件夹

 

2.4测试

新建python文件,输入代码:

from selenium import webdriver

driver = webdriver.Chrome()

显示下面浏览器窗口,模拟浏览器,说明环境配置成功

3.使用Selenium获取网页数据

可以读取所有看得到的所有数据(与requests.get不同)

示例代码

from selenium import webdriver

driver = webdriver.Chrome()                 # 打开chrome浏览器

driver.get('https://www.ptpress.com.cn')

# print(driver.page_source)

with open('tmp/source.txt','w',encoding='utf-8') as f:

f.write(driver.page_source)

相关内容

热门资讯

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播,要解决的几个问题是:1&...
Windows10添加群晖磁盘... 在使用群晖NAS时,我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。 通过...
protocol buffer... 目录 目录 什么是protocol buffer 1.protobuf 1.1安装  1.2使用...
在Word、WPS中插入AxM... 引言 我最近需要写一些文章,在排版时发现AxMath插入的公式竟然会导致行间距异常&#...
Fluent中创建监测点 1 概述某些仿真问题,需要创建监测点,用于获取空间定点的数据࿰...
educoder数据结构与算法...                                                   ...
MySQL下载和安装(Wind... 前言:刚换了一台电脑,里面所有东西都需要重新配置,习惯了所...
MFC文件操作  MFC提供了一个文件操作的基类CFile,这个类提供了一个没有缓存的二进制格式的磁盘...
有效的括号 一、题目 给定一个只包括 '(',')','{','}'...
【PdgCntEditor】解... 一、问题背景 大部分的图书对应的PDF,目录中的页码并非PDF中直接索引的页码...