Selenium获取网页数据（1）——环境配置及入门

创始人

2024-04-08 05:54:34

0次

Selenium获取网页数据环境配置及入门

【内容简介】

1.selenium 介绍

2.selenium +Python环境搭建

3.使用selenium获取网页数据

【知识点讲解】

1.selenium 介绍

selenium 是一个 web 的自动化测试工具。Selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。

selenium可以模拟真实浏览器，自动化测试工具，支持多种浏览器，爬虫中主要用来解决JavaScript渲染问题。

官方文档：

Selenium with Python — Selenium Python Bindings 2 documentation

Selenium Documentation — Selenium 4.6 documentation

2.selenium+Python环境搭建

2.1安装selenium库

和一般第三方库安装方法一样

pip install selenium

2.2安装特定浏览器的webdriver插件

selenium需要通过浏览器的驱动程序（webdriver）来连接和启动一个浏览器。selenium支持谷歌、火狐、edge、欧朋等浏览器，这里以谷歌浏览器（chrome）为例进行讲解。

（1）查看chrome浏览器版本

点击chrome浏览器右上方的三个小圆点，如图1。

点击“帮助”

点击“关于 Google Chrome”，如图2所示。

图1 点击chrome浏览器右上方的三个小圆点

图2 查看chrome浏览器版本

（2）下载selenium webdriver插件

登录chrome webdriver网站下载对应版本的 webdriver，如果没有相同的版本号，可以选择近似的版本，如下图所示。

目前可以下载chrome的webdriver的地址：

http://chromedriver.storage.googleapis.com/index.html
https://registry.npmmirror.com/binary.html?path=chromedriver/

选择Windows系统，64位也可以选择32位，如下图所示：

2.3 配置环境变量

将chromedriver.exe文件放置到python.exe解释器所在的文件夹内。

（1）找到你的python.exe解释器所在的文件夹

菜单：“文件”-“设置（settings）”，打开设置窗口

（2）复制“chromedriver.exe”到文件夹

2.4测试

新建python文件，输入代码：

from selenium import webdriver

driver = webdriver.Chrome()

显示下面浏览器窗口，模拟浏览器，说明环境配置成功

3.使用Selenium获取网页数据

可以读取所有看得到的所有数据（与requests.get不同）

示例代码：

from selenium import webdriver

driver = webdriver.Chrome() # 打开chrome浏览器

driver.get('https://www.ptpress.com.cn')

# print(driver.page_source)

with open('tmp/source.txt','w',encoding='utf-8') as f:

f.write(driver.page_source)

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：第十四届蓝桥杯校模拟赛详解+代码（一）

下一篇：【抽样调查】CH3 分层随机抽样