【python 工具】selenium 浏览器操作
itomcoil 2025-08-26 17:57 3 浏览
selenium的安装步骤:
1. 安装selenium,打开cmd控制台
pip install selenium
2. 安装驱动程序(我这里安装的是chromedriver),用来启动chrome浏览器,具体的驱动程序需要对应浏览器的版本
下载地址:
http://chromedriver.storage.googleapis.com/index.html
基本步骤:
1.导入模块
from selenium import webdriver # 用来启动chromedriver
from selenium.webdriver.common.keys import Keys # 提供键盘支持
2.创建一个web实例
chrome = webdriver.Chrome('chromedriver驱动程序的路径')
3.打开页面
chrome.get(url) # chromedriver会打开一个chrome浏览器窗口,显示为浏览的页面
4.关闭页面
chrome.close()
#or
chrome.quit()
以上就是selenium的基本操作了,在打开页面和关闭页面中间就是各种操作。
1.高级- 元素定位
元素的定位,和爬虫中HTML页面解析,定位到某个元素基本上差不多,只是调用者是driver
element = chrome.find_element_by_id('id') # 通过id获取元素
element = chrome.find_element_by_class('class') # 通过class获取元素
2.高级 - 元素操作
找到需要的元素后,就是进行操作(即交互)
element.send_keys('Hello World!') # 向可输入对象中输入内容
还可以点击提交表单按钮
element.click() # 点击提交表单
3.高级 - 窗口切换
当selenium控制浏览器打开多个标签页时,要控制浏览器在不同的标签页进行切换,需要做以下两步:
1. 获取所有标签页的窗口句柄
2. 通过窗口句柄切换到自定标签页
# 1.获取当前所有标签页的句柄构成的列表
current_windows = drver,window_handles
# 2.根据标签页句柄列表索引下标进行切换
driver.seitch_to.window(current_windows[0])
from selenium import webdriver
chrome = webdriver.Chrome()
chrome.get('https://bengbu.58.com/')
chrome.find_element_by_xpath('//*[@id="fcNav"]/em/a[1]').click()
# 获取当前所有标签页的句柄
current_windows = chrome.window_handles
# 根据标签页句柄列表进行切换
chrome.switch_to.window(current_windows[1])
text = chrome.find_element_by_xpath('/html/body/div[7]/div[2]/ul/li/div[2]/h2/a')
print(text)
4.高级 - 滚动条的使用
在访问页面时,有些网页中的内容并不是一次性全都加载出来的,而是需要拖动滚动条,才能慢慢加载出来,比如京东这样的网站。
这时我们就可以用selenium去执行js代码,实现拉取滚动条完成加载页面。
滚动条回到顶部
js="var q=document.getElementById('id‘).scrollTop=0"
driver.execute_script(js)
滚动条拉到底部
js="var q=document.getElementById('id’).scrollTop=10000"
---------以上方法用于firefox和ie----------
chrome:
js="var q=document.body.scrollTop=0"
横向滚动条:
js="windows.scrollTo(100,400)"
参考代码示例:
from selenium import webdriver
from lxml import etree
from time import sleep
url='https://search.jd.com/Search?keyword=mac%E7%94%B5%E8%84%91&enc=utf-8&spm=2.1.1'
chrome = webdriver.Chrome()
# 发送请求
chrome.get(url)
# 将滚动条下拉到最底部
js = "document.documentElement.scrollTop=10000"
chrome.execute_script(js)
# 加载页面
sleep(3)
# 获取网页源代码
html = chrome.page_source
# 将html代码解析成html对象
e = etree.HTML(html)
# 获取商品名称,价格
names = e.xpath('//div[@class="p-name p-name-type-2"]/a/em')
prices = e.xpath('//div[@class="p-price"]/strong/i/text()')
print('共{}条结果'.format(len(names)))
for n, price in zip(names, prices):
name = n.xpath('string(.)').replace('\n', '')
print("商品名称:{},价格:{}".format(name, price))
5.高级 - 无头浏览器
当我们在使用selenium时,每访问一次页面就弹出一个浏览器窗口。然而在做爬虫时,通常是不需要打开浏览器的,我们只需要使用浏览器的内核,因此我们可以使用chrome的无头模式。
只需要在创建实例时加入以下几行代码,就可以让浏览器进入无头模式
options = webdriver.ChromeOptions()
options.add_argument('--headless')
chrome = webdriver.Chrome(options=options)
6.高级-页面等待
分类:
1. 强制等待
不管页面有没有加载完成,都等待指定时间
缺点:设置时间太短,页面没有加载完成,设置时间太长,则浪费时间
time.sleep(10)
2. 隐式等待
隐式等待主要针对的是元素定位,隐式等待设置了一个时间,在这段时间内判断元素是否定位成功,若定位成功,进行下一步;若没成功,则会报超时加载
隐式等待只需定义一次,后续所有元素定位操作都会遵守
chrome.implicitly_wait(10) # 设置隐式等待时间为10秒,后续所有元素定位操作均可用
相关推荐
- 编程学子看过来,竞赛刷题网站推荐
-
2022年编程竞赛已经公布,想要在今年取得竞赛成绩的学生,一定要把握寒假时间,学习知识的同时通过刷题,巩固所学知识,提升解题能力。小编为大家推荐几个刷题网站,想要竞赛的学生一定不要错过。USACO美国...
- 给大家推荐些好的c语言代码的网站
-
C语言,那就来推荐几个吧,部分含有C++:1、TheLinuxKernelArchives(kernel.org)Linux内核源码,仅限于C,但内核庞大,不太适合新手;2、redis(redi...
- 推荐几个编程入门学习网站_比较好的编程自学网站
-
有一些刚上大学的朋友和想对编程感兴趣的朋友经常会让我推荐学习网站,下面几个是我认为零基础学编程比较好的网站,希望大家都有收获!1.W3schoolhttp://www.w3school.com.c...
- 10个最值得收藏的编程学习网站_有什么学编程的网站
-
程序员是一个需要不断学习的职业。幸运的是,在这个互联网时代,知识就在那里,等着我们去获取。以下我列举一些免费的编程学习网站包含多个开发语言Java、php、html、javascript等多个。1、h...
- 6个超酷的练习算法,学习编程的网站
-
在不了解算法的前提下,您无法通过Google或Facebook的采访。那么为什么不现在学习。我是一位拥有15年以上经验的程序员。从高中开始的第一年,我在算法上学习和工作很多。在我毕业之前,我一直...
- 在线 python 编程的网站_python3在线编程,python3在线编译器,在线编辑器
-
以下是一些提供在线Python编程环境的网站:1.Repl.it:Repl.it提供了一个多语言在线编程平台,您可以使用它在任何地方编写、运行、共享代码。Repl.it支持多种编程语言,包括Pyth...
- 推荐 7 个能过招全球程序员的编程挑战网站,欢迎挑战!
-
作为程序员的你,是不是经常估不准自己的编程水平?下面推荐7个能过招全球程序员的编程挑战网站,助你磨练技巧,提升技能,最终问鼎代码江湖!1.HackerRank你可以参加各种编码竞赛,比如算法、数学...
- 盘点 20 个编程学习教程网站,建议收藏
-
欢迎关注@程序员柠檬橙私信回复「1024」获取海量编程学习资源!如果你想学习编程,现在互联网这么方便,不用着急报名培训班,有很多高质量的编程学习资源网站可供你学习,程序员日常浏览的技术教程网站有哪些...
- Flask 数据可视化_flourish数据可视化
-
数据可视化是数据处理中的重要部分,前面我们了解了Flask的开发和部署,如何用Flask做数据可视化呢?今天我们来了解一下。Python语言极富表达力,并且拥有众多的数据分析库和框架,是数据...
- 【python 工具】selenium 浏览器操作
-
selenium的安装步骤:1.安装selenium,打开cmd控制台pipinstallselenium2.安装驱动程序(我这里安装的是chromedriver),用来启动chrome浏览器...
- 可视化爬虫工具,EasySpider软件体验
-
现在提起爬虫,大家可能会联想到Python语言,然后就是各种使用无头浏览器去网页上爬取数据,使用Python的过程相较于使用其他语言来说,简单了不少。但毕竟是编程语言,也需要去学习来适配各种网...
- cursor+mcp+playwright,让AI给你推荐五一旅游胜地
-
阅读本文前提当你已了解mcp是什么,若不知,猛击:https://github.com/modelcontextprotocol/servers。最近有个小需求,根据用户输入内容,使用大模型来理解用户...
- Cursor+Claude+Playwright:AI 让自动化测试效率暴涨,快到飞起!
-
一、引言随着AI时代的到来,软件测试变得越来越复杂,如何高效、准确地进行自动化测试成了每一个开发团队必须面对的问题。在日常工作中,测试工作常常面临各种挑战,比如功能复杂、需求频繁变更、时间紧迫等。传统...
- 推荐一个检测 JS 内存泄漏的神器_js内存泄漏的几种情况
-
大家好,我是Echa哥。作为一名Web应用程序开发者,排查和修复JavaScript代码的内存泄漏一直是最困扰我的问题之一。最近,Meta开源了一款检测JavaScript代码内存泄漏...
- Python+Playwright自动化实战:高效爬虫全攻略
-
一、为什么选择Playwright?在信息爆炸的时代,数据获取能力直接决定内容生产效率。Playwright作为微软开源的新型自动化工具,凭借以下优势成为技术创作者的新宠:支持Chromium/Web...
- 一周热门
- 最近发表
- 标签列表
-
- ps图案在哪里 (33)
- super().__init__ (33)
- python 获取日期 (34)
- 0xa (36)
- super().__init__()详解 (33)
- python安装包在哪里找 (33)
- linux查看python版本信息 (35)
- python怎么改成中文 (35)
- php文件怎么在浏览器运行 (33)
- eval在python中的意思 (33)
- python安装opencv库 (35)
- python div (34)
- sticky css (33)
- python中random.randint()函数 (34)
- python去掉字符串中的指定字符 (33)
- python入门经典100题 (34)
- anaconda安装路径 (34)
- yield和return的区别 (33)
- 1到10的阶乘之和是多少 (35)
- python安装sklearn库 (33)
- dom和bom区别 (33)
- js 替换指定位置的字符 (33)
- python判断元素是否存在 (33)
- sorted key (33)
- shutil.copy() (33)