Python爬虫基础教学(写给入门的新手)
itomcoil 2025-06-10 15:45 7 浏览
私信我,回复:学习,获取免费学习资源包。
环境安装
python3.7.1
pip install requests
pip install beautifulsoup4
pip install lxml
技术讲解
requests库
requests一般用于发起http请求,并且拿到请求的结果。http常用的请求有两种,GET和POST,爬虫主要用的是GET请求。
在不懂http,https和dns,TCP/IP等协议的情况下,我直接打个比方来解释一下什么是GET请求,以360浏览器为例,人在360浏览器输入www.baidu.com,然后敲击enter键,直到页面出现,整个过程,我们可以抽象为我们向百度服务器发起的一次GET请求。
更专业,更详细的解释,自己去百度学习吧。
如何使用requests库来模拟浏览器的行为来获取页面内容呢?
示例代码如下
import requests web = requests.get('https://www.baidu.com') #向百度发起一次get请求,返回请求结果的实体类 print(web.status_code) #请求返回的状态码,200是OK,404是页面不存在,500是错误,更多自己百度搜索 print(type(web.content)) #页面内容的数据类型是bytes,因此需要解码 print(type(web.content.decode())) print(web.content.decode()) #解码之后,得到的页面内容是结构化的字符串
这样看起来,我们获取到的页面内容不是我们在浏览器看到的图形化界面,而是字符串,更像是一些代码。如果你学过html和css那就不用多说了。没学过也不要紧,现在可以简单学一下,也就花几分钟了解一下就够用了。
html是一种标记语言,可以被浏览器执行,然后呈现出可视化的图形界面。如果你把web.content.decode()这一串字符串保存在test.html里,然后双击打开,你会看到图形化界面的,只不过有些图片可能显示不了,这里就不细说了。
html其实很好理解,不要想得太复杂,就是一段有规律的格式化的文本。
其基本格式就是
<html> <head>...</head> <body>...<body> <script>...</script> <style>...</style> </html>
html文本的标签一般都是成双成对,有始有终的,比如<body>和</body>是一队,千万不能拆散,拆散就乱套了。少数除外比如<br>是换行用的,可以不用配对。
这里我们主要讲body标签,网页的主要内容都是在这个标签里显示的,比如标题,段落,图片等
在test.html里我们写入一下代码并且保存。
<html> <body> <h1>我的网站</h1> <p>这是我的网站</p> </body> </html>
html更多标签所代表的意义可以去这里学习
http://www.runoob.com/html/ht...
beautifulsoup4库
bs4(简称)库是用于解析格式化文本,提取数据用的库。
我们利用requests库的get函数拿到网页的内容是一段格式化的字符串,接下来就可以用bs4来解析它。
解析的示例代码如下
from bs4 import BeautifulSoup html = '''<html> <body> <h1>我的网站</h1> <p>这是我的网站</p> <body> </html>''' #从网页拿到html的格式化的字符串,保存到html里 soup = BeautifulSoup(html, 'lxml') #使用lxml解析器来解析文本,html和xml格式是类似的 print(soup.find_all('h1')) #使用find_all函数来找所有的h1标签,返回的结果是数组 print(soup.find_all('p')) #找所有的p标签,返回的结果是数组 更复杂一点的,比如 from bs4 import BeautifulSoup html = '''<html> <body> <h1>我的网站</h1> <p>这是我的网站</p> <div class='test-item'> 测试1 </div> <div class='test-item'> 测试2 </div> <body> </html>''' soup = BeautifulSoup(html, 'lxml') div_tags = soup.find_all(name='div', attrs={'class': 'test-item'}) for tag in div_tags: print(type(tag)) print(tag) print(tag.string) print(tag.attrs, '\n')
注意,tag保存的不是字符串,而是bs4模块中的一个标签实体类,我们主要需要知道它的attrs属性和string属性,方便我们拿到一些我们想要的文本和信息,比如a标签的href属性就保存在attrs里。
总结
本文主要讲了如何使用requests获取网页文本内容,以及如何解析html文本,更多更好用的爬虫库
来源网络侵权联系删除
私信我,回复:学习,获取免费学习资源包。
相关推荐
- 字节三面:MySQL数据同步ES的4种方法!你能想到几种?
-
如何进行数据同步MySQL是一种流行的关系型数据库,而Elasticsearch是一个强大的搜索引擎和分析平台。将MySQL数据同步到Elasticsearch中可以帮助我们更方便地搜索和分析数据。在...
- Java 连接 MySQL 数据库(java连接mysql课设)
-
一、环境准备1.1依赖管理(Maven)在项目的pom.xml中添加MySQL驱动依赖:<dependency><groupId>mysql</gro...
- Spring Boot 连接 MySQL 数据库(spring boot配置数据库连接)
-
一、环境准备1.1依赖管理(Maven)<!--方案1:JdbcTemplate--><dependency><groupId>org.sprin...
- java连接mysql数据库达成数据查询详细教程
-
前言:本篇文章适用于所有前后端开发者众所周知,只要是编程,那肯定是需要存储数据的,无论是c语言还是java,都离不开数据的读写,数据之间传输不止,这也就形成了现代互联网的一种相互存在关系!而读写存储的...
- 既然有MySQL了,为什么还要有MongoDB?
-
大家好,我是哪吒,最近项目在使用MongoDB作为图片和文档的存储数据库,为啥不直接存MySQL里,还要搭个MongoDB集群,麻不麻烦?让我们一起,一探究竟,了解一下MongoDB的特点和基本用法,...
- 用 JSP 连接 MySQL 登入注册项目实践(JSP + HTML + CSS + MySQL)
-
目录一、写在前面二、效果图三、实现思路四、实现代码1、login总界面2、registercheck总代码3、logoutcheck总代码4、amendcheck总代码相关文章一、写在前面哈喽~大家好...
- MySQL关联查询时,为什么建议小表驱动大表?这样做有什么好处
-
在SQL数据库中,小表驱动大表是一种常见的优化策略。这种策略在涉及多表关联查询的情况下尤其有效。这是因为数据库查询引擎会尽可能少的读取和处理数据,这样能极大地提高查询性能。"小表驱动大表&...
- mysql8驱动兼容规则(mysql8.0驱动)
-
JDBC版本:Connector/J8.0支持JDBC4.2规范.如果Connector/J8.0依赖于更高版本的jdbclib,对于调用只有更高版本特定的方法会抛出SQLFea...
- mysql数据表如何导入MSSQL中(mysql怎样导入数据)
-
本案例演示所用系统是windowsserver2012.其它版本windows操作系统类似。1,首先需要下载mysqlodbc安装包。http://dev.mysql.com/downloa...
- MySQL 驱动中虚引用 GC 耗时优化与源码分析
-
本文要点:一种优雅解决MySQL驱动中虚引用导致GC耗时较长问题的解决方法虚引用的作用与使用场景MySQL驱动源码中的虚引用分析背景在之前文章中写过MySQLJDBC驱动中的虚引用导致...
- ExcelVBA 连接 MySQL 数据库(vba 连接sqlserver)
-
上期分享了ExcelVBA连接sqlite3数据库,今天给大家分享ExcelVBA连接另一个非常流行的MySQL数据库。一、环境win10Microsoftoffice2010(...
- QT 5.12.11 编译MySQL 8 驱动教程- 1.01版
-
安装编译环境:qt5.12.11mysql8.0.28修改mysql.pro工程文件,编译生成动态库mysql.pro文件位置:D:\Alantop_Dir\alantop_sde\Qt\Qt5....
- 「Qt入门第22篇」 数据库(二)编译MySQL数据库驱动
-
导语在上一节的末尾我们已经看到,现在可用的数据库驱动只有两类3种,那么怎样使用其他的数据库呢?在Qt中,我们需要自己编译其他数据库驱动的源码,然后当做插件来使用。下面就以现在比较流行的MySQL数据库...
- (干货)一级注册计量师第五版——第四章第三节(三)
-
计量标准的建立、考核及使用(三)PS:内容都是经过个人学习而做的笔记。如有错误的地方,恳请帮忙指正!计量标准考核中有关技术问题1检定或校准结果的重复性重复性是指在一组重复性测量条件下的测量精密度。检定...
- 声学测量基础知识分享(声学测量pdf)
-
一、声学测量的分类和难点1.声学测量的分类声学测量按目的可分为:声学特性研究(声学特性研究、媒质特性研究、声波发射与接收的研究、测量方法与手段的研究、声学设备的研究),声学性能评价和改善(声学特性评价...
- 一周热门
- 最近发表
-
- 字节三面:MySQL数据同步ES的4种方法!你能想到几种?
- Java 连接 MySQL 数据库(java连接mysql课设)
- Spring Boot 连接 MySQL 数据库(spring boot配置数据库连接)
- java连接mysql数据库达成数据查询详细教程
- 既然有MySQL了,为什么还要有MongoDB?
- 用 JSP 连接 MySQL 登入注册项目实践(JSP + HTML + CSS + MySQL)
- MySQL关联查询时,为什么建议小表驱动大表?这样做有什么好处
- mysql8驱动兼容规则(mysql8.0驱动)
- mysql数据表如何导入MSSQL中(mysql怎样导入数据)
- MySQL 驱动中虚引用 GC 耗时优化与源码分析
- 标签列表
-
- ps图案在哪里 (33)
- super().__init__ (33)
- python 获取日期 (34)
- 0xa (36)
- super().__init__()详解 (33)
- python安装包在哪里找 (33)
- linux查看python版本信息 (35)
- python怎么改成中文 (35)
- php文件怎么在浏览器运行 (33)
- eval在python中的意思 (33)
- python安装opencv库 (35)
- python div (34)
- sticky css (33)
- python中random.randint()函数 (34)
- python去掉字符串中的指定字符 (33)
- python入门经典100题 (34)
- anaconda安装路径 (34)
- yield和return的区别 (33)
- 1到10的阶乘之和是多少 (35)
- python安装sklearn库 (33)
- dom和bom区别 (33)
- js 替换指定位置的字符 (33)
- python判断元素是否存在 (33)
- sorted key (33)
- shutil.copy() (33)