百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

python:最简单爬虫之使用Scrapy框架爬取小说

itomcoil 2025-05-22 10:57 4 浏览

python爬虫框架中,最简单的就是Scrapy框架。执行几个命令就能生成爬虫所需的项目文件,我们只需要在对应文件中调整代码,就能实现整套的爬虫功能。

以下在开发工具PyCharm中用简单的Demo项目来演示爬取小说网站的流程。我们打开小说网首页,将要演示的是如何爬取首页小说推荐列表的小说名称、小说简介、小说作者,这三项元素内容并输出到txt文件中。

一、安装Scrapy

在PyCharm的终端Terminal中执行pip命令,安装scrapy

pip install scrapy

二、创建Scrapy项目

在项目文件夹执行指令,创建项目名称readNovel

scrapy startproject readNovel

通过cd目录命令进入readNovel/spiders目录下执行scrapy genspider指令,创建一个以基础模板的爬虫脚本文件testNovelSpider,该爬虫搜索的域名为readnovel.com

cd readNovel/readNovel/spiders
scrapy genspider testNovelSpider readnovel.com

执行完文件目录结构如下图

三、Scrapy 文件介绍

上述通过两条简单的命令,就已经创建了Scrapy项目所需的所有文件。现在简单介绍下项目的各文件作用。

1.顶层readNovel:通过startproject 指令创建的项目名称。

2.scrapy.cfg:整个项目的配置文件,定义了项目名称和默认设置文件的位置。

3.次级readNovel:项目代码模块(也可以叫包),包含了所有执行代码内容。

四、代码文件编辑

1.定义字段文件items.py

我们在该文件中定义爬虫将要爬取的三个字段:小说名称、简介、作者。

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html
 
import scrapy
 
 
class ReadnovelItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    bookTitle = scrapy.Field()  #小说名称
    bookRemark = scrapy.Field() #小说简介
    director = scrapy.Field()   #小说作者

2.定义爬虫文件TestNovelspiderSpider.py

需要注意的一点,引入items前,需要使用sys先将items所在目录添加到运行环境,否则在控制台执行爬虫程序时会出现“ ModuleNotFoundError: No module named 'items' ”的报错提示。

import scrapy
from scrapy.selector import Selector
import sys
# print(sys.path) #查看当前python解释器搜索目录
import os
 
prPath = os.path.dirname(os.path.dirname(__file__))
# print(prPath) #上一级目录 即items所在目录
sys.path.append(prPath)  # 将items所在目录添加到运行环境
 
from items import ReadnovelItem
import re
 
 
class TestNovelspiderSpider(scrapy.Spider):
    name = "testNovelSpider"
    # 爬取域名
    allowed_domains = ["readnovel.com"]
    # 爬取页面
    start_urls = ["https://readnovel.com"]
 
    def parse(self, response):
        print("开始爬取....")
        # 获取要元素的上一级集合
        selector = response.xpath('//div[@class="type-new-list cf"]/ul/li').extract()
        items = []
        # 遍历所有对象
        for book in selector:
            # print(book)
            # 用正则表达式匹配从当前book对象中获取到小说名称字符串
            bookTitle = re.findall('<a href="/book/.*?" data-eid=".*?" data-bid=".*?" target="_blank" title=".*?</a>', book)[0]
            # 从获取的小说名称字符串中截取出中文
            bookTitle = bookTitle.split("title=")[1].split("\"")[1]
            print("小说名:" + bookTitle)
            # 用正则表达式匹配从当前book对象中获取到小说名简介
            bookRemark = re.findall('<p>.*?</p>', book)[0]
            bookRemark = bookRemark.split("<p>")[1].split("</p>")[0]
            print("小说备注:"+bookRemark)
            # 使用Selector选择器,定位到指定<a>并获取text的文本为小说作者
            director = Selector(text=book).xpath('//a[@class="author default"]/text()').extract()[0];
            print("小说作者:"+director+"\r\n")
            item = ReadnovelItem()
            item['bookTitle'] = bookTitle
            item['bookRemark'] = bookRemark
            item['director'] = director
            items.append(item)
        # print(items)
        return items

以下对上述代码进行说明。

打开并右击页面查看源代码,查找其中一个小说名称可以看到代码段。

使用xpath获取到上一级的集合成员,然后遍历取出每个成员做处理。

response.xpath('//div[@class="type-new-list cf"]/ul/li').extract()

使用re.findall 结合正则表达式抓取模板,“.*?”代表可以匹配所有字符,用于代替名称可变的部分,获取到小说名称。

re.findall('<a href="/book/.*?" data-eid=".*?" data-bid=".*?" target="_blank" title=".*?</a>', book)[0]

同理下列取出小说备注、小说作者。

3.定义结果处理文件pipelines.py

将爬取到的各成员内容输出到文本txt中

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
 
 
# useful for handling different item types with a single interface
from itemadapter import ItemAdapter
 
import codecs
import time
class ReadnovelPipeline(object):
    def process_item(self, item, spider):
        today = time.strftime('%Y-%m-%d', time.localtime())
        fileName = '小说阅读网' + today + '.txt'
        print('准备写入内容:')
        print(item)
        with codecs.open(fileName, 'ab+', 'utf-8') as fp:
            fp.write('小说名称:'+item['bookTitle']+'\r\n')
            fp.write('小说内容:' + item['bookRemark']+'\r\n')
            fp.write('小说作者:' + item['director']+'\r\n\r\n')
        # return item

4.调整配置文件settings.py

打开settings.py,添加以下内容,将pipelines的处理文件与爬虫目录下的文件进行关联

BOT_NAME = "readNovel"
 
SPIDER_MODULES = ["readNovel.spiders"]
NEWSPIDER_MODULE = "readNovel.spiders"
ITEM_PIPELINES = {'readNovel.pipelines.ReadnovelPipeline': 300}

5.运行程序

在终端控制台执行命令

scrapy crawl testNovelSpider

当前目录会生成txt文件,打开查看内容如下。

以上演示程序爬取小说推荐列表并输出到文件成功。

如果文章解决了你的问题,欢迎点赞、收藏或评论。

相关推荐

使用opencv-Python进行图像锐化处理

使用OpenCV函数cv::filter2D执行一些拉普拉斯滤波以进行图像锐化使用OpenCV函数cv::distanceTransform以获得二值图像的派生(derived)表示,...

Python-OpenCV 7. 图像二值化

一、介绍图像二值化(ImageBinarization)就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。在数字图像处理中,二值图像占有非常重要的地位,图...

OpenCV+Python裁剪图像

最近使用OpenCV+Python做了一个程序,功能是自动将照片中的文本部分找出来并裁剪/旋转保存为新的图片。这个功能用专业些的说法就是选择并提取感兴趣区域(ROI(RegionofInteres...

简单易懂的人脸识别!用PythonOpenCV实现(适合初...

前言:OpenCV是一个开源的计算机视觉和机器学习库。它包含成千上万优化过的算法,为各种计算机视觉应用提供了一个通用工具包。根据这个项目的关于页面,OpenCV已被广泛运用在各种项目上,从谷歌街景...

OpenCV行人检测应用方案--基于米尔全志T527开发板

本文将介绍基于米尔电子MYD-LT527开发板(米尔基于全志T527开发板)的OpenCV行人检测方案测试。摘自优秀创作者-小火苗一、软件环境安装1.在全志T527开发板安装OpenCVsudoap...

纯Python构建Web应用:Remi与 OpenCV 结合实现图像处理与展示

引言大家好,我是ICodeWR。在前几篇文章中,我们介绍了Remi的基础功能、多页面应用、动态更新、与Flask结合、与数据库结合、与Matplotlib结合以及与Pandas结合。...

【AI实战项目】基于OpenCV的“颜色识别项目”完整操作过程

OpenCV是一个广受欢迎且极为流行的计算机视觉库,它因其强大的功能、灵活性和开源特性而在开发者和研究者中备受青睐。学习OpenCV主要就是学习里面的计算机视觉算法。要学习这些算法的原理,知道它们适用...

Python自动化操控术:PyAutoGUI全场景实战指南

一、PyAutoGUI核心武器库解析1.1鼠标操控三剑客importpyautogui#绝对坐标移动(闪电速度)pyautogui.moveTo(100,200,duration=0....

从零开始学python爬虫(七):selenium自动化测试框架的介绍

本节主要学习selenium自动化测试框架在爬虫中的应用,selenium能够大幅降低爬虫的编写难度,但是也同样会大幅降低爬虫的爬取速度。在逼不得已的情况下我们可以使用selenium进行爬虫的编写。...

「干货分享」推荐5个可以让你事半功倍的Python自动化脚本

作者:俊欣来源:关于数据分析与可视化相信大家都听说自动化流水线、自动化办公等专业术语,在尽量少的人工干预的情况下,机器就可以根据固定的程序指令来完成任务,大大提高了工作效率。今天小编来为大家介绍几个P...

python+selenium+pytesseract识别图片验证码

一、selenium截取验证码#私信小编01即可获取大量Python学习资源#私信小编01即可获取大量Python学习资源#私信小编01即可获取大量Python学习资源importjso...

Python爬虫实战 | 利用多线程爬取 LOL 高清壁纸

一、背景介绍随着移动端的普及出现了很多的移动APP,应用软件也随之流行起来。最近看到英雄联盟的手游上线了,感觉还行,PC端英雄联盟可谓是爆火的游戏,不知道移动端的英雄联盟前途如何,那今天我们使用到...

一套真实的Python面试题,几十个题目汇总

1.(1)python下多线程的限制以及多进程中传递参数的方式python多线程有个全局解释器锁(globalinterpreterlock),这个锁的意思是任一时间只能有一个线程使用解释器,跟...

一文读透,Python暴力(BF)字符串匹配算法到 KMP 算法之间的变化

1.字符串匹配算法所谓字符串匹配算法,简单地说就是在一个目标字符串中查找是否存在另一个模式字符串。如在字符串"ABCDEFG"中查找是否存在“EF”字符串。可以把字符...

Python实现屏幕自动截图

教程目录需要实现的功能:自动屏幕截图具体需求:1.支持设置截图频率和截图文件存储路径2.在存储截图时判断与前一张截图的相似度,只有屏幕发生了显著的变化才存储截图所需技术(搜索关键词):1.屏幕截...