AI 时代秒杀 Chromium 的 Lightpanda 自动化无头浏览器强势来袭!
itomcoil 2025-08-26 17:55 3 浏览
大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发。
1. 什么是 Lightpanda
以前,开发者抓取网页只需要简单发出 HTTP 请求,类似于 cURL。而随着 JavaScript 的发展,这一切都变得非常棘手,例如:
- 大量的 Ajax、单页应用、无限加载、“点击显示”、即时搜索等
- 大量的 JS Web 框架:React、Vue、Angular 等
那么又为何不使用真正的 Web 浏览器呢? 这是因为浏览器是一个庞大的桌面应用,如果在服务器上大规模使用,则需要数百或数千个 Chrome 实例,且存在明显的缺陷:
- 占用大量 RAM 和 CPU,运行成本高昂
- 难以大规模打包、部署和维护
- 许多功能可能根本用不上
而 Lightpanda 是一款专为无头使用而设计的开源浏览器,核心功能包括:
- Javascript 执行
- 支持 Web API,且部分正在开发中
- 通过 CDP 与 Playwright、Puppeteer 兼容,且部分正在开发中
CDP 是 "Chrome DevTools Protocol" 的缩写,其是一种允许客户端(如浏览器扩展或外部程序)与 Chrome 或 Chromium 浏览器进行通信的协议。通过该协议,客户端能够检查和调试网页,以及控制浏览器的行为,其提供了丰富的接口用于网络请求监控、DOM 操作、JavaScript 执行等功能。
Lightpanda 可用于 AI 代理、LLM 、抓取和测试的快速 Web 自动化,典型特征包括:
- 超低内存占用,例如:比 Chrome 少 9 倍
- 执行速度极快,例如:比 Chrome 快 11 倍
- 即时启动
最后值得一提的是 Lightpanda 不是 Chromium 的另一个迭代,而是采用完全重写的策略:
- 不基于 Chromium、Blink 或 WebKit
- 考虑优化的底层系统编程语言 Zig,基于 Zig 0.14.0 编写,同时还依赖于 zig-js-runtime (带有 v8)、Netsurf libs 和 Mimalloc
- 没有图形渲染
目前 Lightpanda 在 Github 通过 AGPL-3.0 协议开源,有超过 7.8k 的 star,是一个强大的 AI 相关的前端开源项目,值得长期关注。
2. 如何使用 Lightpanda
安装
开发者可以从 Linux x86_64 和 MacOS aarch64 的 nightly 版本下载最后一个二进制文件,例如 Linux 可以执行下面命令:
curl -L -o lightpanda https://github.com/lightpanda-io/browser/releases/download/nightly/lightpanda-x86_64-linux && \
chmod a+x ./lightpanda
如果是 Mac 则可以执行下面命令:
curl -L -o lightpanda https://github.com/lightpanda-io/browser/releases/download/nightly/lightpanda-aarch64-macos && \
chmod a+x ./lightpanda
接着使用下面的方式打开 URL:
./lightpanda fetch --dump https://lightpanda.io
启动 CDP 服务器
./lightpanda serve --host 127.0.0.1 --port 9222
一旦 CDP 服务器启动,开发者可以通过配置 browserWSEndpoint 来运行 Puppeteer 脚本:
import puppeteer from "puppeteer-core";
// 使用 browserWSEndpoint 传递 Lightpanda 的 CDP 服务器地址
const browser = await puppeteer.connect({
browserWSEndpoint: "ws://127.0.0.1:9222",
});
// 用 puppeteer.connect 替换 puppeteer.launch,且其余脚本不变
const context = await browser.createBrowserContext();
const page = await context.newPage();
// 打开地址
await page.goto("https://wikipedia.com/");
// 打开页面
const links = await page.evaluate(() => {
return Array.from(document.querySelectorAll("a")).map((row) => {
return row.getAttribute("href");
});
});
// 抓取链接
console.log(links);
await page.close();
await context.close();
await browser.disconnect();
// 断开连接
最后值得一提的是,Lightpanda 目前仍处于开发中且处于测试阶段,同时依赖于指定的环境,例如:
- Debian 12、Ubuntu 22.04、Ubuntu 24.04,基于 x86-64 和 arm64 架构
- macOS 13 Ventura 或更高版本
- Windows 10+、Windows Server 2016+ 或 Windows Subsystem for Linux (WSL)
而且 Lightpanda 还支持自定义构建,例如对于基于 Debian/Ubuntu 的 Linux 可以如下操作:
sudo apt install xz-utils \
python3 ca-certificates git \
pkg-config libglib2.0-dev \
gperf libexpat1-dev \
cmake clang
Mac平台可以简单执行:
brew install cmake
参考资料
https://github.com/lightpanda-io/browser
https://lightpanda.io/
https://lightpanda.io/docs/systems-requirements
https://x.com/lightpanda_io
相关推荐
- 编程学子看过来,竞赛刷题网站推荐
-
2022年编程竞赛已经公布,想要在今年取得竞赛成绩的学生,一定要把握寒假时间,学习知识的同时通过刷题,巩固所学知识,提升解题能力。小编为大家推荐几个刷题网站,想要竞赛的学生一定不要错过。USACO美国...
- 给大家推荐些好的c语言代码的网站
-
C语言,那就来推荐几个吧,部分含有C++:1、TheLinuxKernelArchives(kernel.org)Linux内核源码,仅限于C,但内核庞大,不太适合新手;2、redis(redi...
- 推荐几个编程入门学习网站_比较好的编程自学网站
-
有一些刚上大学的朋友和想对编程感兴趣的朋友经常会让我推荐学习网站,下面几个是我认为零基础学编程比较好的网站,希望大家都有收获!1.W3schoolhttp://www.w3school.com.c...
- 10个最值得收藏的编程学习网站_有什么学编程的网站
-
程序员是一个需要不断学习的职业。幸运的是,在这个互联网时代,知识就在那里,等着我们去获取。以下我列举一些免费的编程学习网站包含多个开发语言Java、php、html、javascript等多个。1、h...
- 6个超酷的练习算法,学习编程的网站
-
在不了解算法的前提下,您无法通过Google或Facebook的采访。那么为什么不现在学习。我是一位拥有15年以上经验的程序员。从高中开始的第一年,我在算法上学习和工作很多。在我毕业之前,我一直...
- 在线 python 编程的网站_python3在线编程,python3在线编译器,在线编辑器
-
以下是一些提供在线Python编程环境的网站:1.Repl.it:Repl.it提供了一个多语言在线编程平台,您可以使用它在任何地方编写、运行、共享代码。Repl.it支持多种编程语言,包括Pyth...
- 推荐 7 个能过招全球程序员的编程挑战网站,欢迎挑战!
-
作为程序员的你,是不是经常估不准自己的编程水平?下面推荐7个能过招全球程序员的编程挑战网站,助你磨练技巧,提升技能,最终问鼎代码江湖!1.HackerRank你可以参加各种编码竞赛,比如算法、数学...
- 盘点 20 个编程学习教程网站,建议收藏
-
欢迎关注@程序员柠檬橙私信回复「1024」获取海量编程学习资源!如果你想学习编程,现在互联网这么方便,不用着急报名培训班,有很多高质量的编程学习资源网站可供你学习,程序员日常浏览的技术教程网站有哪些...
- Flask 数据可视化_flourish数据可视化
-
数据可视化是数据处理中的重要部分,前面我们了解了Flask的开发和部署,如何用Flask做数据可视化呢?今天我们来了解一下。Python语言极富表达力,并且拥有众多的数据分析库和框架,是数据...
- 【python 工具】selenium 浏览器操作
-
selenium的安装步骤:1.安装selenium,打开cmd控制台pipinstallselenium2.安装驱动程序(我这里安装的是chromedriver),用来启动chrome浏览器...
- 可视化爬虫工具,EasySpider软件体验
-
现在提起爬虫,大家可能会联想到Python语言,然后就是各种使用无头浏览器去网页上爬取数据,使用Python的过程相较于使用其他语言来说,简单了不少。但毕竟是编程语言,也需要去学习来适配各种网...
- cursor+mcp+playwright,让AI给你推荐五一旅游胜地
-
阅读本文前提当你已了解mcp是什么,若不知,猛击:https://github.com/modelcontextprotocol/servers。最近有个小需求,根据用户输入内容,使用大模型来理解用户...
- Cursor+Claude+Playwright:AI 让自动化测试效率暴涨,快到飞起!
-
一、引言随着AI时代的到来,软件测试变得越来越复杂,如何高效、准确地进行自动化测试成了每一个开发团队必须面对的问题。在日常工作中,测试工作常常面临各种挑战,比如功能复杂、需求频繁变更、时间紧迫等。传统...
- 推荐一个检测 JS 内存泄漏的神器_js内存泄漏的几种情况
-
大家好,我是Echa哥。作为一名Web应用程序开发者,排查和修复JavaScript代码的内存泄漏一直是最困扰我的问题之一。最近,Meta开源了一款检测JavaScript代码内存泄漏...
- Python+Playwright自动化实战:高效爬虫全攻略
-
一、为什么选择Playwright?在信息爆炸的时代,数据获取能力直接决定内容生产效率。Playwright作为微软开源的新型自动化工具,凭借以下优势成为技术创作者的新宠:支持Chromium/Web...
- 一周热门
- 最近发表
- 标签列表
-
- ps图案在哪里 (33)
- super().__init__ (33)
- python 获取日期 (34)
- 0xa (36)
- super().__init__()详解 (33)
- python安装包在哪里找 (33)
- linux查看python版本信息 (35)
- python怎么改成中文 (35)
- php文件怎么在浏览器运行 (33)
- eval在python中的意思 (33)
- python安装opencv库 (35)
- python div (34)
- sticky css (33)
- python中random.randint()函数 (34)
- python去掉字符串中的指定字符 (33)
- python入门经典100题 (34)
- anaconda安装路径 (34)
- yield和return的区别 (33)
- 1到10的阶乘之和是多少 (35)
- python安装sklearn库 (33)
- dom和bom区别 (33)
- js 替换指定位置的字符 (33)
- python判断元素是否存在 (33)
- sorted key (33)
- shutil.copy() (33)