Selenium获取网页数据环境配置及入门
【内容简介】
1.selenium 介绍
2.selenium +Python环境搭建
3.使用selenium获取网页数据
【知识点讲解】
selenium 是一个 web 的自动化测试工具。Selenium的核心Selenium Core基于JsUnit,完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上。
selenium可以模拟真实浏览器,自动化测试工具,支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题。
官方文档:
Selenium with Python — Selenium Python Bindings 2 documentation
Selenium Documentation — Selenium 4.6 documentation
和一般第三方库安装方法一样
pip install selenium
selenium需要通过浏览器的驱动程序(webdriver)来连接和启动一个浏览器。selenium支持谷歌、火狐、edge、欧朋等浏览器,这里以谷歌浏览器(chrome)为例进行讲解。
(1)查看chrome浏览器版本
点击chrome浏览器右上方的三个小圆点,如图1。
点击“帮助”
点击“关于 Google Chrome”,如图2所示。
图1 点击chrome浏览器右上方的三个小圆点
图2 查看chrome浏览器版本
(2) 下载selenium webdriver插件
登录chrome webdriver网站下载对应版本的 webdriver,如果没有相同的版本号,可以选择近似的版本,如下图所示。
目前可以下载chrome的webdriver的地址:
选择Windows系统,64位也可以选择32位,如下图所示:
将chromedriver.exe文件放置到python.exe解释器所在的文件夹内。
(1)找到你的python.exe解释器所在的文件夹
菜单:“文件”-“设置(settings)”,打开设置窗口
(2)复制“chromedriver.exe”到文件夹
新建python文件,输入代码:
from selenium import webdriver
driver = webdriver.Chrome()
显示下面浏览器窗口,模拟浏览器,说明环境配置成功
可以读取所有看得到的所有数据(与requests.get不同)
示例代码:
from selenium import webdriver
driver = webdriver.Chrome() # 打开chrome浏览器
driver.get('https://www.ptpress.com.cn')
# print(driver.page_source)
with open('tmp/source.txt','w',encoding='utf-8') as f:
f.write(driver.page_source)
下一篇:【抽样调查】CH3 分层随机抽样