百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

3分钟,10行代码教你写Python爬虫

itomcoil 2025-01-16 19:50 33 浏览

前言:

本文适合新人小白阅读,大佬们感兴趣就看看,不感兴趣就可以划走啦。

话不多说,先看完整源码:

import requests
from lxml import html
url = 'https://movie.douban.com/'#需要爬数据的网址
header = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
} #爬虫伪装
page = requests.Session().get(url, headers=header)
tree = html.fromstring(page.text)
result = tree.xpath('//td[@class="title"]//a/text()')#获取需要的数据
print(result)

下面是我们爬取的数据:

['Tinder 诈骗王', 
'逃亡', '寻找黑暗',
 '正发生', '瀑布',
 '沧海渔生', '抱紧我',
 '美国草根:库尔特·华纳的故事',
 '一切顺利', '甘草披萨']

也就是下面爬取的这个页面里红色框框里面的数据,豆瓣电影本周口碑榜。

添加图片注释,不超过 140 字(可选)

那么,这个爬虫代码是怎么写的呢?我们来看一看

第一步:导入模块

import requests
from lxml import html

Python的强大之处就在于,它的库特别多,使用很方便,这个程序我们需要导入requests,lxml这两个模块。

很简单,用pip指令就好。打开cmd(即终端),输入指令:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn requests

然后回车,等待安装完成。

lxml安装我是用这个指令:

pip install lxml http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

同样回车,等待安装完成。

第二步:爬虫的网址

url = 'https://movie.douban.com/'#需要爬数据的网址

至于为什么选豆瓣,额,大概是传承吧,大家都是从爬豆瓣开始的,这不豆瓣都加反爬机制了,不过这难不倒我们,咱可以给爬虫伪装一下,也就是我们接下来要做的。

第三步:爬虫伪装

header = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
} #爬虫伪装

我们通过更改User-Agent字段来实现网站请求,实现网页应答。具体步骤如下:

1.打开你要爬虫的网页

2.按F12或通过浏览器右上角的“更多工具”选项选择【开发者工具】

3.按F5刷新网页

4.点击Network,再点击Doc

5.找到Headers,查看Request Headers的User-Agent字段,直接复制

6.将刚才复制的User-Agent字段构造成字典形式(即我们的那段代码)


编辑切换为居中

添加图片注释,不超过 140 字(可选)

看不懂英文的话,右上角那里有个设置,可以换成中文。

第四步:爬取数据

result = tree.xpath('//td[@class="title"]//a/text()')#获取需要的数据

这一步是最重要的一步了。怎么写呢,我们来看看:

1.还是打开网页,按F12,点击左上角那个按钮:

2.鼠标点击需要爬取的数据,这里我们点“诈骗王”,如图所示。

添加图片注释,不超过 140 字(可选)

3.看到大红色框框里的东西,是不是和我们最“重要”的代码有很多相似的地方。

再看来最后一行代码中最“重要”的部分。

‘//td[@class=”title”]//a/text()’

1)//td :这个相当于指定是大目录;

2)[@class=”title”]:这个相当于指定的小目录;

3)//a :这个相当于最小的目录;

4)/text():这个是提取其中的数据。

添加图片注释,不超过 140 字(可选)

这里我们就完成啦,是不是感觉爬虫很简单,你学废了吗

相关推荐

MySQL修改密码_mysql怎么改密码忘了怎么办

拥有原来的用户名账户的密码mysqladmin-uroot-ppassword"test123"Enterpassword:【输入原来的密码】忘记原来root密码第一...

数据库密码配置项都不加密?心也太大了吧!

先看一份典型的配置文件...省略...##配置MySQL数据库连接spring.datasource.driver-class-name=com.mysql.jdbc.Driverspr...

Linux基础知识_linux基础入门知识

系统目录结构/bin:命令和应用程序。/boot:这里存放的是启动Linux时使用的一些核心文件,包括一些连接文件以及镜像文件。/dev:dev是Device(设备)的缩写,该目录...

MySQL密码重置_mysql密码重置教程

之前由于修改MySQL加密模式为mysql_native_password时操作失误,导致无法登陆MySQL数据库,后来摸索了一下,对MySQL数据库密码进行重置后顺利解决,步骤如下:1.先停止MyS...

Mysql8忘记密码/重置密码_mysql密码忘了怎么办?

Mysql8忘记密码/重置密码UBUNTU下Mysql8忘记密码/重置密码步骤如下:先说下大概步骤:修改配置文件,使得用空密码可以进入mysql。然后置当前root用户为空密码。再次修改配置文件,不能...

MySQL忘记密码怎么办?Windows环境下MySQL密码重置图文教程

有不少小白在使用Windows进行搭建主机的时候,安装了一些环境后,其中有MySQL设置后,然后不少马大哈忘记了MySQL的密码,导致在一些程序安装及配置的时候无法进行。这个时候怎么办呢?重置密码呗?...

10种常见的MySQL错误,你可中招?_mysql常见错误提示及解决方法

【51CTO.com快译】如果未能对MySQL8进行恰当的配置,您非但可能遇到无法顺利访问、或调用MySQL的窘境,而且还可能给真实的应用生产环境带来巨大的影响。本文列举了十种MySQL...

Mysql解压版安装过程_mysql解压版安装步骤

Mysql是目前软件开发中使用最多的关系型数据库,具体安装步骤如下:第一步:Mysql官网下载最新版(mysql解压版(mysql-5.7.17-winx64)),Mysql官方下载地址为:https...

MySQL Root密码重置指南:Windows新手友好教程

如果你忘记了MySQLroot密码,请按照以下简单步骤进行重置。你需要准备的工具:已安装的MySQL以管理员身份访问命令提示符一点复制粘贴的能力分步操作指南1.创建密码重置文件以管理员...

安卓手机基于python3搜索引擎_python调用安卓so库

环境:安卓手机手机品牌:vivox9s4G运行内存手机软件:utermux环境安装:1.java环境的安装2.redis环境的安装aptinstallredis3.elasticsearch环...

Python 包管理 3 - poetry_python community包

Poetry是一款现代化的Python依赖管理和打包工具。它通过一个pyproject.toml文件来统一管理你的项目依赖、配置和元数据,并用一个poetry.lock文件来锁定所有依赖的精...

Python web在线服务生产环境真实部署方案,可直接用

各位志同道合的朋友大家好,我是一个一直在一线互联网踩坑十余年的编码爱好者,现在将我们的各种经验以及架构实战分享出来,如果大家喜欢,就关注我,一起将技术学深学透,我会每一篇分享结束都会预告下一专题最近经...

官方玩梗:Python 3.14(πthon)稳定版发布,正式支持自由线程

IT之家10月7日消息,当地时间10月7日,Python软件基金会宣布Python3.14.0正式发布,也就是用户期待已久的圆周率(约3.14)版本,再加上谐音梗可戏称为π...

第一篇:如何使用 uv 创建 Python 虚拟环境

想象一下,你有一个使用Python3.10的后端应用程序,系统全局安装了a2.1、b2.2和c2.3这些包。一切运行正常,直到你开始一个新项目,它也使用Python3.10,但需要...

我用 Python 写了个自动整理下载目录的工具

经常用电脑的一定会遇到这种情况:每天我们都在从浏览器、微信、钉钉里下各种文件,什么截图、合同、安装包、临时文档,全都堆在下载文件夹里。起初还想着“过两天再整理”,结果一放就是好几年。结果某天想找一个发...