百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

3分钟,10行代码教你写Python爬虫

itomcoil 2025-01-16 19:50 9 浏览

前言:

本文适合新人小白阅读,大佬们感兴趣就看看,不感兴趣就可以划走啦。

话不多说,先看完整源码:

import requests
from lxml import html
url = 'https://movie.douban.com/'#需要爬数据的网址
header = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
} #爬虫伪装
page = requests.Session().get(url, headers=header)
tree = html.fromstring(page.text)
result = tree.xpath('//td[@class="title"]//a/text()')#获取需要的数据
print(result)

下面是我们爬取的数据:

['Tinder 诈骗王', 
'逃亡', '寻找黑暗',
 '正发生', '瀑布',
 '沧海渔生', '抱紧我',
 '美国草根:库尔特·华纳的故事',
 '一切顺利', '甘草披萨']

也就是下面爬取的这个页面里红色框框里面的数据,豆瓣电影本周口碑榜。

添加图片注释,不超过 140 字(可选)

那么,这个爬虫代码是怎么写的呢?我们来看一看

第一步:导入模块

import requests
from lxml import html

Python的强大之处就在于,它的库特别多,使用很方便,这个程序我们需要导入requests,lxml这两个模块。

很简单,用pip指令就好。打开cmd(即终端),输入指令:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn requests

然后回车,等待安装完成。

lxml安装我是用这个指令:

pip install lxml http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

同样回车,等待安装完成。

第二步:爬虫的网址

url = 'https://movie.douban.com/'#需要爬数据的网址

至于为什么选豆瓣,额,大概是传承吧,大家都是从爬豆瓣开始的,这不豆瓣都加反爬机制了,不过这难不倒我们,咱可以给爬虫伪装一下,也就是我们接下来要做的。

第三步:爬虫伪装

header = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
} #爬虫伪装

我们通过更改User-Agent字段来实现网站请求,实现网页应答。具体步骤如下:

1.打开你要爬虫的网页

2.按F12或通过浏览器右上角的“更多工具”选项选择【开发者工具】

3.按F5刷新网页

4.点击Network,再点击Doc

5.找到Headers,查看Request Headers的User-Agent字段,直接复制

6.将刚才复制的User-Agent字段构造成字典形式(即我们的那段代码)


编辑切换为居中

添加图片注释,不超过 140 字(可选)

看不懂英文的话,右上角那里有个设置,可以换成中文。

第四步:爬取数据

result = tree.xpath('//td[@class="title"]//a/text()')#获取需要的数据

这一步是最重要的一步了。怎么写呢,我们来看看:

1.还是打开网页,按F12,点击左上角那个按钮:

2.鼠标点击需要爬取的数据,这里我们点“诈骗王”,如图所示。

添加图片注释,不超过 140 字(可选)

3.看到大红色框框里的东西,是不是和我们最“重要”的代码有很多相似的地方。

再看来最后一行代码中最“重要”的部分。

‘//td[@class=”title”]//a/text()’

1)//td :这个相当于指定是大目录;

2)[@class=”title”]:这个相当于指定的小目录;

3)//a :这个相当于最小的目录;

4)/text():这个是提取其中的数据。

添加图片注释,不超过 140 字(可选)

这里我们就完成啦,是不是感觉爬虫很简单,你学废了吗

相关推荐

Python 上下文管理器魔法手册:with 语句的终极艺术

对话实录小白:(抓狂)我写了f=open("data.txt"),结果忘记关闭文件了!专家:(掏出魔法书)用with语句,文件自动关闭,永不泄露!上下文管理器基础三连击1.基...

【验证码逆向专栏】某安登录流程详解与验证码逆向分析与识别

声明本文章中所有内容仅供学习交流使用,不用于其他任何目的,不提供完整代码,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关!本文章未经许可禁...

Python常用内置模块介绍——文件与系统操作详解

Python提供了多个强大的内置模块用于文件和系统操作,下面我将详细介绍最常用的几个模块及其核心功能。1.os模块-操作系统交互os模块提供了与操作系统交互的接口,包括文件/目录操作、进程管理、环...

21-Python-文件操作

在Python中,文件操作是非常重要的一部分,它允许我们读取、写入和修改文件。下面将详细讲解Python文件操作的各个方面,并给出相应的示例。1-打开文件在Python中,使用`open()`函数来打...

Python 开发工程师必会的 5 个文件操作库

在Python开发的世界里,文件操作是一项基础且高频的任务。从日常的数据处理到复杂的项目部署,熟练掌握文件操作库能让我们的开发工作事半功倍。本文和大家聊聊我眼中开发必备的5个文件操作库,它们各...

你应该知道的 50 个 Python 单行代码

使用Python总是可以轻松完成一些特定任务,这让人惊奇。一些比较繁琐的任务可以使用Python在单行代码中完成。下面是我收集的50个Python单行代码实例。1.移位词:猜字母的个...

Python10个了不起的10个库,用于文件操作、接口测试

日常接口测试中需要大量的操作文件,譬如:用户登录信息、数据库信息等等。了解下方10个文件操作库,可以快速提升在工作中的效率。os:提供了与操作系统交互的功能,包括文件和目录操作、进程管理等。示例代码参...

手把手教你开发智能备份神器,小白也能30分钟搞定!

一、你的电脑是不是也总在“重复备份”?每次备份文件夹时,是不是总觉得“好麻烦”?特别是遇到几十G的文件库,整个备份过程像在坐过山车——明明大部分文件都没改,却还要从头来一遍!今天,我用Python开发...

几行代码教你zip打包

01准备有时我们不想去手动一个个去操作,然后傻等他打包完,python依赖库zipfile很方便地帮助我们封装了解压压缩,shutil用于文件目录处理,方法类似于linux命令。1、安装pipin...

Python操作目录

获取当前工作目录获取执行命令的位置路径拼接路径拆分文件重命名删除文件复制文件遍历文件夹下的文件判断文件是否存在判断目录是否存在获取当前工作目录importsysprint(sys.path[0]...

Python 开发工程师必会的 5 个系统命令操作库

当我们需要编写自动化脚本、部署工具、监控程序时,熟练操作系统命令几乎是必备技能。今天就来聊聊我在实际项目中高频使用的5个系统命令操作库,这些可都是能让你效率翻倍的"瑞士军刀"。一...

文件备份用Python,照着复制粘贴代码就可以了

引言在日常开发和运维工作中,数据安全尤为重要,定期备份重要文件是防范数据丢失的有效手段之一。本文将详细介绍如何使用Python实现一个简单的定时备份脚本,该脚本可以按照设定周期自动将指定文件夹或文件复...

2025年必学的Python自动化办公的15个实用脚本

2025年必学的Python自动化办公的6个实用脚本及其代码示例。这些脚本涵盖了文件备份、邮件通知、网页抓取、报告生成、数据处理和团队协作等多个场景,帮助用户高效完成日常办公任务。1.自动备份文件自...

一天学一点,今天学习掌握Python:异常处理与文件操作全攻略

这一笔记记录了我学习python的异常和文件的操作,这也是针对Python异常和文件操作教程的进一步优化建议和注意事项:异常处理优化1.避免过度捕获异常o不要为了捕获异常而捕获异常,应根据实际需求...

「亲测可用」如何用python脚本批量旋转图片为任意角度?

最近在训练图片方向分类器,需要对原始图片进行批量旋转操作,那如何用python脚本实现批量旋转图片为任意角度呢?此处,以将我的头像旋转90度为例进行演示。实现图片批量旋转的python源代码如下:#-...