Python 爬虫基础之 Selenium 详解
本文章中所有内容仅供学习交流使用,不用于其他任何目的,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关。
1. Selenium简介
Selenium 是一个用于 Web 应用程序测试的工具。最初是为网站自动化测试而开发的,可以直接运行在浏览器上,支持的浏览器包括 IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera 和 Edge 等。
爬虫中使用它是为了解决 requests 无法直接执行 JavaScript 代码的问题。Selenium 本质上是通过驱动浏览器,彻底模拟浏览器的操作,好比跳转、输入、点击、下拉等,来拿到网页渲染之后的结果。Selenium 是 Python 的一个第三方库,对外提供的接口能够操作浏览器,从而让浏览器完成自动化的操作。
2. 为什么使用Selenium?
Selenium 能模拟浏览器功能自动执行网页中的 JavaScript 代码,实现动态加载。
3. Selenium的安装
谷歌浏览器驱动下载地址:https://registry.npmmirror.com/binary.html?path=chromedriver/
查看自己谷歌浏览器的版本,我这里的版本是正式版本116.0.5845.188
,驱动下载地址最新的只有114.0.5735.90
,所以只能去官网的测试页面下载118.0.5993.70
版本的驱动(https://googlechromelabs.github.io/chrome-for-testing/#stable,版本向下兼容),然后把下载的压缩包解压,将exe
文件放入 PyCharm 项目的根目录下。
之后执行pip install selenium
命令,安装 selenium 库。
4. Selenium的使用
1 | from selenium import webdriver |
需要注意的是,如果你的 selenium 是4.11.2
以上的版本,不需要设置driver.exe
的路径,selenium 可以自己处理浏览器的驱动程序,因此代码直接改为brower = webdriver.Chrome()
即可。
运行代码,得到下面的效果:
5. Selenium的元素定位
自动化工具要做的就是模拟鼠标和键盘来操作点击、输入等等元素,但是操作这些元素的前提是找到它们,WebDriver 提供了很多元素定位的方法:
- 根据标签 id 获取元素:
1
2
3
4
5
6
7
8
9
10
11
12
13
14from selenium import webdriver
from selenium.webdriver.common.by import By
# 创建浏览器操作对象
# path = 'chromedriver.exe'
browser= webdriver.Chrome()
# 访问网站
url = 'https://www.baidu.com'
browser.get(url)
button = browser.find_element(By.ID, 'su')
# button = browser.find_elements(By.ID, 'su')
print(button) - 根据标签 name 属性的值获取元素:
1
2button = browser.find_element(By.NAME, 'wd')
print(button) - 根据 Xpath 语句获取元素;
1
2button = browser.find_element(By.XPATH, '//input[@id="su"]')
print(button) - 根据标签名获取元素:
1
2button = browser.find_elements(By.TAG_NAME, 'input')
print(button) - 根据 bs4 语法获取元素:
1
2button = browser.find_elements(By.CSS_SELECTOR, '#su')
print(button) - 根据标签的文本获取元素(精确定位):
1
2button = browser.find_elements(By.LINK_TEXT, '地图')
print(button) - 根据标签的文本获取元素(模糊定位):
1
2button = browser.find_elements(By.PARTIAL_LINK_TEXT, '地')
print(button) - 根据 class 属性获取元素:
1
2button = browser.find_element(By.CLASS_NAME, 'wrapper_new')
print(button)
当我们定位到元素之后,自然就要考虑如何获取到元素的各种信息,selenium 给我们提供了获取元素不同信息的方法:
- 获取元素属性:
1
2
3
4
5
6
7
8
9
10
11
12
13from selenium import webdriver
from selenium.webdriver.common.by import By
# 创建浏览器操作对象
# path = 'chromedriver.exe'
browser= webdriver.Chrome()
# 访问网站
url = 'https://www.baidu.com'
browser.get(url)
button = browser.find_element(By.ID, 'su')
print(input.get_attribute('class')) - 获取元素标签名:
1
2input = browser.find_element(By.ID, 'su')
print(input.tag_name) - 获取元素文本:
1
2input = browser.find_element(By.ID, 'su')
print(input.text) - 获取元素位置:
1
2input = browser.find_element(By.ID, 'su')
print(input.location) - 获取元素大小:
1
2input = browser.find_element(By.ID, 'su')
print(input.size)
6. Selenium的交互
页面交互指的是我们平时在浏览器上的各种操作,比如输入文本、点击链接、回车、下拉框等,下面就演示 selenium 是如何进行页面交互的。
- 输入文本:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20from selenium import webdriver
from selenium.webdriver.common.by import By
import time
# 创建浏览器操作对象
# path = 'chromedriver.exe'
browser = webdriver.Chrome()
# 访问网站
url = 'https://www.baidu.com'
browser.get(url)
# 定位输入框
input = browser.find_element(By.ID, 'kw')
# 输入文本selenium
input.send_keys('selenium')
time.sleep(2)
# 关闭浏览器
browser.close() - 点击:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26from selenium import webdriver
from selenium.webdriver.common.by import By
import time
# 创建浏览器操作对象
# path = 'chromedriver.exe'
browser = webdriver.Chrome()
# 访问网站
url = 'https://www.baidu.com'
browser.get(url)
# 定位输入框
input = browser.find_element(By.ID, 'kw')
# 输入文本selenium
input.send_keys('selenium')
time.sleep(2)
# 定位百度一下的按钮
button = browser.find_element(By.ID, 'su')
# 点击按钮
button.click()
time.sleep(2)
# 关闭浏览器
browser.close() - 清除文本:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24from selenium import webdriver
from selenium.webdriver.common.by import By
import time
# 创建浏览器操作对象
# path = 'chromedriver.exe'
browser = webdriver.Chrome()
# 访问网站
url = 'https://www.baidu.com'
browser.get(url)
# 定位输入框
input = browser.find_element(By.ID, 'kw')
# 输入文本selenium
input.send_keys('selenium')
time.sleep(2)
# 清除selenium
input.clear()
time.sleep(2)
# 关闭浏览器
browser.close() - 回车确认:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24from selenium import webdriver
from selenium.webdriver.common.by import By
import time
# 创建浏览器操作对象
# path = 'chromedriver.exe'
browser = webdriver.Chrome()
# 访问网站
url = 'https://www.baidu.com'
browser.get(url)
# 定位输入框
input = browser.find_element(By.ID, 'kw')
# 输入文本selenium
input.send_keys('selenium')
time.sleep(2)
# 回车查询
input.submit()
time.sleep(2)
# 关闭浏览器
browser.close() - 运行 JavaScript:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30from selenium import webdriver
from selenium.webdriver.common.by import By
import time
# 创建浏览器操作对象
# path = 'chromedriver.exe'
browser = webdriver.Chrome()
# 访问网站
url = 'https://www.baidu.com'
browser.get(url)
# 定位输入框
input = browser.find_element(By.ID, 'kw')
# 输入文本selenium
input.send_keys('selenium')
time.sleep(2)
# 回车查询
input.submit()
time.sleep(2)
# js代码
js_bottom = 'document.documentElement.scrollTop=100000'
# 下拉进度条,页面滑动
browser.execute_script(js_bottom)
time.sleep(2)
# 关闭浏览器
browser.close() - 前进后退
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44from selenium import webdriver
from selenium.webdriver.common.by import By
import time
# 创建浏览器操作对象
# path = 'chromedriver.exe'
browser = webdriver.Chrome()
# 访问网站
url = 'https://www.baidu.com'
browser.get(url)
# 定位输入框
input = browser.find_element(By.ID, 'kw')
# 输入文本selenium
input.send_keys('selenium')
time.sleep(2)
# 回车查询
input.submit()
time.sleep(2)
# js代码
js_bottom = 'document.documentElement.scrollTop=100000'
# 页面滑动
browser.execute_script(js_bottom)
time.sleep(2)
# 定位下一页的按钮
next = browser.find_element(By.XPATH, '//a[@class="n"]')
# 点击下一页
next.click()
time.sleep(2)
# 返回到上一页面
browser.back()
time.sleep(2)
# 前进到下一页
browser.forward()
time.sleep(2)
# 关闭浏览器
browser.close()
7. Chrome handless
在上面的测试过程中可以发现,虽然 selenium 简便好用,但是它的运行速度很慢,这是因为 selenium 是有界面的,需要执行前端 css 和 js 的渲染。那么下面就介绍一个无界面的浏览器,Chrome-handless 模式,运行效率要比真实的浏览器快很多,在 selenium 的基础上,支持页面元素查找、js 执行等,代码和 selenium 一致。
使用前提:
- Chrome
- Unix\Linux chrome >= 59
- Windows chrome >= 60
- Python >= 3.6
- Selenium >= 3.4.*
1 | from selenium import webdriver |
参考文献
【1】http://www.noobyard.com/article/p-boitcibx-g.html
【2】https://www.jb51.net/article/149145.htm
【3】https://zhuanlan.zhihu.com/p/462460461
【4】https://blog.csdn.net/weixin_67553250/article/details/127555724
【5】https://www.cnblogs.com/Summer-skr–blog/p/11491078.html
【6】https://www.bilibili.com/video/BV1Db4y1m7Ho?p=77