百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Python - 爬虫之Selenium

itomcoil 2024-12-13 14:01 18 浏览

一、Selenium 的介绍

Selenium 是一个 Web 自动化测试工具,最初是为网站自动化测试而开发,Selenium 可以直接调用浏览器,它支持所有主流的浏览器(包括 PhantomJS 这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏等。

1、Selenium 启动 Chrome

在下载好 chromedriver 以及安装好 selenium 模块后,执行下列代码:

from selenium import webdriver

# 如果driver没有添加到环境变量,则需要将driver的绝对路径赋值给executable_path参数
# driver = webdriver.Chrome(executable_path='/home/worker/Desktop/driver/chromedriver')

# 如果driver添加了环境变量,则不需要设置executable_path
driver = webdriver.Chrome()

# 向一个url发起请求
driver.get('https://www.baidu.com')

# 把网页保存为图片,69版本以上的谷歌浏览器将无法使用截图功能
driver.save_screenshot("screenshot.png")

print(driver.title)  # 打印页面标题

# 退出模拟浏览器
driver.quit()  # 一定要退出!不退出会有残留进程!

2、Selenium 启动 PhantomJS

PhantomJS 是一个基于 Webkit 的"无界面"(headless)浏览器,它会把网站加载到内存并执行页面上的 JavaScript。下载地址:https://phantomjs.org/download

from selenium import webdriver

driver = webdriver.PhantomJS()
# driver = webdriver.PhantomJS(executable_path='/home/worker/Desktop/driver/phantomjs')

# 向一个url发起请求
driver.get('https://www.baidu.com')

# 把网页保存为图片
driver.save_screenshot('screenshot.png')

# 退出模拟浏览器
driver.quit()  # 一定要退出!不退出会有残留进程!

无头浏览器与有头浏览器的使用场景

  • 通常开发过程中需要查看运行过程中的各种情况所以通常使用有头浏览器
  • 在项目完成进行部署的时候,通常平台采用的系统都是服务器版的操作系统,服务器版的操作系统必须使用无头浏览器才能正常运行

3、Selenium 的工作原理

利用浏览器原生 API,封装成一套更加面向对象的 Selenium WebDriver API,直接操作浏览器页面里的元素,甚至操作浏览器本身(截屏、窗口大小、启动、关闭、安装插件、配置证书...)

  • webdriver 本质是一个 web-server,对外提供 webapi,其中封装了浏览器的各种功能
  • 不同的浏览器使用各自不同的 webdriver(由浏览器厂商提供)

二、Selenium 安装及简单使用

1、安装 selenium

pip/pip3 install selenium
pip/pip3 install selenium==版本号

2、安装 driver

以 Chrome 浏览器为例:

  • 查看浏览器版本号
    • 方式一:帮助 --> 关于 Google Chrome
    • 方式二:输入栏访问 chrome://settings/help
  • 下载对应版本的驱动
    • 驱动镜像站 https://npm.taobao.org/mirrors/chromedriver/
    • 下载解压后得到 chromedriver
  • 配置环境变量【可选】
    • 右击此电脑 -> 属性 --> 高级系统设置 --> 环境变量
    • 把 chromedriver 所在目录,追加到 Path 变量下即可
    • 执行 echo $PATH 查看已经配置的环境变量路径
    • 选择其中一个目录(比如:/usr/local/bin),把 chromedriver 拷贝过去即可
    • Mac/Linux:
      • 执行 echo $PATH 查看已经配置的环境变量路径
      • 选择其中一个目录(比如:/usr/local/bin),把 chromedriver 拷贝过去即可
    • Windows:
      • 右击此电脑 -> 属性 --> 高级系统设置 --> 环境变量
      • 把 chromedriver 所在目录,追加到 Path 变量下即可

注意:不同版本浏览器对应的 driver 是不一样的,尽量使用与浏览器版本号一致的 driver(一般大版本号一致是可以兼容的,例如 浏览器 91.0.4472.124,驱动 91.0.4472.19)。否则会报错,比如:This version of ChromeDriver only supports Chrome version 92 Current browser version is 91.0.4472.124

3、Selenium 的简单使用

使用 Selenium 启动 Chrome 浏览器,打开百度网页,在搜索框中输入文字后,点击搜索按钮:

import time
from selenium import webdriver

# chromedriver已经添加到环境变量
# driver = webdriver.Chrome()
# 通过指定chromedriver的路径来实例化driver对象
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

# 控制浏览器访问url地址
driver.get('https://www.baidu.com')

# 在百度搜索框中搜索 'python'
driver.find_element_by_id('kw').send_keys('python')
# 点击 "百度搜索"
driver.find_element_by_id('su').click()

time.sleep(6)
# 退出浏览器
driver.quit()
  • webdriver.Chrome(executable_path='./chromedriver') 中 executable 参数指定的是下载好的 chromedriver 文件路径
  • driver.find_element_by_id('kw').send_keys('python') 定位 id 属性值是 'kw' 的标签,并向其中输入字符串 'python'
  • driver.find_element_by_id('su').click() 定位 id 属性值是 'su' 的标签,并点击
    • click 函数作用:触发标签的 js 的 click 事件

三、Selenium 提取数据

1、driver 对象的常用属性和方法

  • driver.page_source:当前标签页浏览器渲染之后的网页源代码
  • driver.current_url:当前标签页的 url(可能是重写向后的 url)
  • driver.close():关闭当前标签页,如果只有一个标签页则关闭整个浏览器
  • driver.quit():关闭浏览器
  • driver.forward():页面前进
  • driver.back():页面后退
  • driver.screen_shot(img_name):页面截图

举例:

from selenium import webdriver
import time

# 创建一个浏览器对象
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

# 访问指定的url地址
driver.get('http://www.baidu.com')

# 显示源码
print(driver.page_source)
# 显示响应对应的url
print(driver.current_url)  # https://www.baidu.com/
# 标签页标题
print(driver.title)  # 百度一下,你就知道

time.sleep(2)
driver.get('http://www.douban.com')

time.sleep(2)
driver.back()

time.sleep(2)
driver.forward()

# 保存网页快照,常用于验证是否运行或者验证码截图
driver.save_screenshot('douban.png')

time.sleep(2)
# 关闭标签页
# driver.close()
# 关闭浏览器
driver.quit()

2、driver 对象定位标签元素获取标签对象的方法

  • find_element_by_id:返回一个元素
  • find_element(s)_by_class_name:根据类名获取元素列表
  • find_element(s)_by_name:根据标签的 name 属性值返回包含标签对象元素的列表
  • find_element(s)_by_xpath:返回一 列表
  • find_element(s)_by_link_text:根据链接文本获取元素列表
  • find_element(s)_by_partial_link_text:根据部分链接文本获取元素列表
  • find_element(s)_by_tag_name:根据标签名获取元素列表
  • find_element(s)_by_css_selector:根据 css 选择器来获取元素列表

注意:

  • find_element 和 find_elements 的区别:
    • find_element 返回匹配的第一个标签对象,匹配不到就抛出异常
    • find_elements 返回标签对象列表,匹配不到就返回空列表
  • by_link_text 和 by_partial_link_text 的区别:
    • by_link_text:匹配全部文本
    • by_partial_link_text:匹配包含某个文本

举例:

from selenium import webdriver

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

driver.get('http://www.baidu.com')

# 根据xpath进行元素定位
# driver.find_element_by_xpath('//*[@id="kw"]').send_keys('python3')
# 根据css选择器进行元素定位
# driver.find_element_by_css_selector('#kw').send_keys('python3')
# 根据name属性值进行元素定位
# driver.find_element_by_name('wd').send_keys('python3')
# 根据class属性值进行元素定位
# driver.find_element_by_class_name('s_ipt').send_keys('python3')

# 根据id属性值进行元素定位
# driver.find_element_by_id('su').click()

# 根据链接文本进行元素定位
# driver.find_element_by_link_text('hao123').click()
# 根据部分链接文本进行元素定位
# driver.find_element_by_partial_link_text('hao').click()

# 根据标签名进行元素定位
# 限制:目标元素在当前html中是唯一标签的时候或者是众多定位出来的标签中的第一个的时候才能使用
driver.find_element_by_tag_name('title')

3、标签对象提取文本内容和属性值

find_element 只能获取元素,不能直接获取其中的数据,如果需要获取数据需要使用以下方法:

  • element.text:通过定位获取的标签对象的 text 属性,获取文本内容
  • element.get_attribute("属性名"):通过定位获取的标签对象的 get_attribute 函数,传入属性名,来获取标签属性值

举例:

from selenium import webdriver

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

driver.get('https://sz.58.com/chuzu/')

el_list = driver.find_elements_by_xpath('//li[@class="house-cell realverify"]//a[@class="strongbox"]')

for el in el_list:
    print(el.text, el.get_attribute('href'))

# el.click()  # el必须是可点击的,否则会报错
# el.send_keys(data)  # el必须是 text input 这类可输入的标签
# el.clear()  # 对输入框做清空操作

四、Selenium 的其它使用方法

1、标签页切换

当 selenium 控制浏览器打开多个标签时,就需要进行标签页切换了,操作步骤如下:

  • 获取所有标签页的窗口句柄
  • 利用窗口句柄切换到句柄指向的标签页

窗口句柄:指向标签页对象的标识

方法:

# 1. 获取当前所有的标签页的句柄构成的列表
current_windows = driver.window_handles

# 2. 根据标签页句柄列表索引下标进行切换
driver.switch_to.window(current_window[0])

举例:

from selenium import webdriver

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

driver.get('https://jn.58.com/')

print(driver.current_url)  # https://jn.58.com/
print(driver.window_handles)  # ['CDwindow-C612EA61989BAA']

# 定位到“租房”a标签
el = driver.find_element_by_xpath('//span[@class="contentAdTilRt"]/a[text()="租房"]')
el.click()

print(driver.window_handles)  # ['CDwindow-C612EA61989BAA', 'CDwindow-45CEE57C52AAB2FE']

# 切换到最新的标签页面
driver.switch_to.window(driver.window_handles[-1])

print(driver.current_url)  # https://jn.58.com/chuzu/

2、switch_to 切换 frame 标签

iframe 是 html 中常用的一种技术 ,即一个页面中嵌套了另一个网页,selenium 默认是访问不了 frame 中的内容的,需要使用代码切换到指定的 frame 中再进行后续的操作。

方法:

# 可以传入frame标签的id
driver.switch_to.frame(frame_id)

# 当id无法获取到时,也可以传入(通过xpath等方式)定位到的frame标签对象
driver.switch_to.frame(frame_element)

举例:

from selenium import webdriver

qq_username = ''
qq_password = ''

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

driver.get('https://qzone.qq.com/')

# 切换到账号登录iframe
driver.switch_to.frame('login_frame')  # <iframe id="login_frame" ...></iframe>
# driver.switch_to.frame(driver.find_element_by_id('login_frame'))

# 点击 账号密码登录
driver.find_element_by_id("switcher_plogin").click()

# 输入账号密码
driver.find_element_by_id('u').send_keys(qq_username)
driver.find_element_by_id('p').send_keys(qq_password)

# 点击登录
driver.find_element_by_id('login_button').click()

3、cookie 操作

1)获取 cookie

driver.get_cookies() 返回列表,其中包含了完整的 cookie 信息,即不光有 name、value,还有 domain 等其他维度的信息,所以如果想把获取的 cookie 信息和 requests 模块配合使用的话,需要转换为 name、value 作为键值对的 cookie 字典。

举例:

# 获取当前标签页的全部cookie信息
print(driver.get_cookies())

# 将cookie信息转可用于requests使用的cookie字典
cookies_dict = {data['name']: data['value'] for data in driver.get_cookies()}

2)删除 cookie

# 删除一条cookie
driver.delete_cookie('CookieName')
# 删除所有的cookie
driver.delete_all_cookies()

4、控制浏览器执行 js 代码

selenium 可以让浏览器执行我们规定的 js 代码,比如,页面向下滚动等等。

方法:

driver.execute_script(js_script)

举例:

from selenium import webdriver

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

driver.get('https://sz.lianjia.com/')

# js代码:向下滚动500像素
js_script = 'scrollTo(0, 500)'
driver.execute_script(js_script)

# 点击Android App下载按钮(默认位置超过屏幕高度,不在视野中)
el_apk = driver.find_element_by_xpath('//div[@class="hand-app"]/a[@class="android"]')
el_apk.click()

注意:如果 Selenium 点击了不在视野内的元素会报错,所以需要等将页面滚动的元素可见。

5、页面等待【了解】

1)强制等待(常用)

强制等待很简单,直接使用 time 模块即可。

方法:

import time

time.sleep()

这种方式的缺点是不智能,设置的时间太短,元素可能还没有加载出来;设置的时间太长,则会浪费时间。

2)隐式等待(常用)

隐式等待针对的是元素定位,隐式等待设置了一个时间,在一段时间内判断元素是否定位成功,如果成功,就进行下一步(可能提前,节省时间),如果在设置的时间内没有定位成功,则会报超时异常。

方法:

driver.implicitly_wait(timeout)

注意:timeout 的单位是秒

举例:

from selenium import webdriver

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

# 在这段设置代码之后,所有的元素定位操作都有最大等待时间10s,在10s内会定期进行元素定位,超过设置时间之后将会报错
driver.implicitly_wait(10)

driver.get('http://www.baidu.com')

# 定位一个不存在的元素
el = driver.find_element_by_xpath('//*[@id="lg"]/img[10000]')

print(el)

3)显示等待(不常用)

每经过多少秒就查看一次等待条件是否达成,如果达成就停止等待,继续执行后续代码;如果没有达成就继续等待,直到超过规定的时间,报超时异常。

区别:

  • 隐式等待:针对之后 所有 的元素定位
  • 显示等待:针对 指定 的元素定位

举例:

from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

driver.get('http://www.baidu.com')

# 每0.5秒一次检查,通过链接文本内容定位标签是否存在,如果存在就向下继续执行;如果不存在,直到20秒上限就抛超时异常
WebDriverWait(driver, 20, 0.5).until(EC.presence_of_element_located((By.LINK_TEXT, '好123')))

print(driver.find_element_by_link_text('好123').get_attribute('href'))
driver.quit()
  • 参数 20 表示最长等待 20 秒
  • 参数 0.5 表示 0.5 秒检查一次规定的标签是否存在
  • presence_of_element_located((By.LINK_TEXT, '好123')) 表示通过链接文本内容定位标签

6、开启无界面模式

绝大多数服务器是没有界面的,所有需要使用 selenium 无头浏览器,有 2 种方式:

  • PhantomJS:本身就是无界面浏览器,但可能会被识别网站开发者反识别出来。(不推荐)
  • Chrome:新版 Chrome 支持无界面模式了,不过需要多一些配置。(推荐)

注意:MacOS 中 chrome 浏览器 59+版本,Linux 中 57+版本才能使用无界面模式。

方法:

# 创建配置对象
options = webdriver.ChromeOptions()
# 配置对象添加开启无界面模式的命令
options.add_argument('--headless')
# 配置对象添加禁用gpu的命令
options.add_argument('--disable-gpu')

# 实例化带有配置对象的driver对象
driver = webdriver.Chrome(chrome_options=options)

7、使用代理 ip

selenium 控制浏览器也是可以使用代理 ip 的。

方法:

# 创建配置对象
options = webdriver.ChromeOptions()

# 配置代理ip
options.add_argument('--proxy-server=http://150.138.253.70:808')

# 实例化带有配置对象的driver对象
driver = webdriver.Chrome(chrome_options=options)

注意:更换 ip 代理,必须重新启动浏览器。

8、替换 user-agent

selenium 控制谷歌浏览器时,User-Agent 默认是谷歌浏览器的,有时候我们可能需要对 User-Agent 进行替换,新版 Chrome 也支持配置 User-Agent。

方法:

# 创建配置对象
options = webdriver.ChromeOptions()

# 更换User-Agent
options.add_argument('--user-agent=Opera/9.23 (X11; Linux x86_64; U; en)')

# 实例化带有配置对象的driver对象
driver = webdriver.Chrome(chrome_options=options)

安利:在线查看 User-Agent 小工具 http://service.spiritsoft.cn/ua.html

相关推荐

PS小技巧 调整命令,让人物肤色变得更加白皙 #后期修图

我们来看一下如何去将人物的皮肤变得更加的白皙。·首先选中图层,Ctrl键加J键复制一层。·打开这里的属性面板,选择快速操作删除背景,这样就会将人物进行单独的抠取。·接下来在上方去添加一个黑白调整图层,...

把人物肤色提亮的方法和技巧

PS后期调白肤色提亮照片的方法。一白遮百丑,所以对于Photoshop后期来说把人物肤色调白是一项非常重要的任务。就拿这张素材图片来说,这张素材图片人脸的肤色主要偏红、偏黄,也不够白皙,该怎样对它进行...

《Photoshop教程》把美女图片调成清爽色彩及润肤技巧

关注PS精品教程,每天不断更新~~室内人物图片一般会偏暗,人物脸部、肤色及背景会出现一些杂点。处理之前需要认真的给人物磨皮及美白,然后再整体润色。最终效果原图一、用修补工具及图章工具简单去除大一点的黑...

PS后期对皮肤进行美白的技巧

PS后期进行皮肤美白的技巧。PS后期对皮肤进行美白的技巧:·打开素材图片之后直接复制原图。·接下来直接点击上方的图像,选择应用图像命令。·在通道这里直接选择红通道,混合这里直接选择柔光,然后点击确定。...

493 [PS调色]调模特通透肤色

效果对比:效果图吧:1、光位图:2、拍摄参数:·快门:160;光圈:8;ISO:1003、步骤分解图:用曲线调整图层调出基本色调。用可选颜色调整图层调整红色、黄色、白色和灰色4种颜色的混合比例。用色彩...

先选肤色再涂面部,卡戴珊的摄影师透露:为明星拍完照后怎么修图

据英国媒体12月17日报道,真人秀明星金·卡戴珊终于承认,她把女儿小北P进了家族的圣诞贺卡,怪不得粉丝们都表示这张贺卡照得非常失败。上周,这位39岁的女星遭到了一些粉丝针对这张照片的批评,她于当地时间...

如何在PS中运用曲线复制另一张照片的色调

怎样把另一张作品的外观感觉,套用到自己的照片上?单靠肉眼来猜,可能很不容易,而来自BenSecret的教学,关键是在PS使用了两个工具,让你可以准确比较两张照片的曝光、色调与饱和度,方便你调整及复制...

PS在LAB模式下调出水嫩肤色的美女

本PS教程主要使用Photoshop使用LAB模式调出水嫩肤色的美女,教程调色比较独特。作者比较注重图片高光部分的颜色,增加质感及肤色调红润等都是在高光区域完成。尤其在Lab模式下,用高光选区调色后图...

在Photoshop图像后期处理中如何将人物皮肤处理得白皙通透

我们在人像后期处理中,需要将人物皮肤处理的白皙通透,处理方法很多,大多数都喜欢使用曲线、磨皮等进行调整,可以达到亮但是不透,最终效果往往不是很好,今天就教大家一种如何将任务皮肤处理得白皙通透,希望能帮...

PS调色自学教程:宝宝照片快速调通透,简单实用!

PS调色自学教程:宝宝照片快速调通透。·首先复制图层,然后选择进入ACR滤镜,选择曲线锁定照片的亮部,也就高光位置,其他部位补亮一点,尤其是阴影的部位补亮多一些,让画面的层次均匀一点。·然后回到基本项...

【干货】如何利用PS进行人物美化

人物图像美化在Photoshop中非常常用,Photoshop作为一款功能强大的图像处理软件,不仅可以对人像进行基本的调色、美化和修复等处理,还可以改变人物的线条和幅度,如调整脸部器官和脸型的大小、调...

教大家一种可以快速把肤色处理均匀的方法@抖音短视频

快速把肤色处理均匀的方法。今天教大家一种可以快速把肤色处理均匀的方法。像这张照片整体肤色走紫红色,但是局部偏黄缘处理起来非常的麻烦。其实我们只需要新建空白图层,图层混合模式更改为颜色,再选择画笔工具把...

PS调色教程 利用RAW调出干净通透的肤色

要么不发,要么干货。后期教程来噜~用RAW调出干净通透的肤色。这次终于不会原片比PS后好看了吧。如果你依然这么觉得,请不要残忍的告诉我这个事实,泪谢TAT)附送拍摄花絮,感谢各位的支持更多风格请关注m...

photoshop后期皮肤变白的技巧

PS后期皮肤变白的技巧。1.PS后期让皮肤变白的方法有很多种,接下来教你一种非常简单容易上手的方法。2.打开素材图片之后,直接在小太极下拉框的位置添加一个纯色调整图层,颜色设置一个纯白色,点击...

Photoshop调出人物的淡雅粉嫩肤色教程

本教程主要使用Photoshop调出人物的淡雅粉嫩肤色教程,最终的效果非常的通透迷人,下面让我们一起来学习.出自:86ps效果图:原图:1、打开原图复制一层。2、用Topaz滤镜磨皮(点此下载)。3、...