百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Python实战:爬取哔哩哔哩【UP主投稿的所有视频】

itomcoil 2025-01-16 19:50 22 浏览

上一篇文章提供了一种新的思路,找到了一条捷径,可以绕过 JS 逆向,直接监听接口,从接口的 response 中提取想要的数据。

传送门:Python实战:绕过JS逆向,爬取抖音搜索视频结果

今天,再运用这个思路写一个案例,实现爬取爬取哔哩哔哩 UP 主投稿的所有视频。(本文首发在“程序员coding”公众号)

一、先看结果

程序运行结束后会生成一个 excel 表格,包含 UP主名称、视频标题、视频描述、视频时长、播放数、评论数、弹幕数、发布时间、作者mid、视频aid、视频bvid、是否合作视频、视频链接、作者主页链接、视频封面图、视频属性、typeid 这 17 个字段的信息。

二、环境

(本文首发在“程序员coding”公众号)
python 3.11.5
pycharm

三、模块

from DrissionPage import ChromiumPage
from DataRecorder import Recorder
import time
import os
import datetime

四、分析数据来源

首先在作者主页点击更多,来到投稿视频的页面。

浏览器的开发者工具,点击投稿视频页面的下一页,找到包含视频数据的请求。

在浏览器的开发者工具的 preview 页面查看 response ,可以看到视频在 vlist 这个列表内。

展开第一个视频,可以看到包含的信息如下,是一个 json 格式,可以通过键值对的方法提取出视频信息。

在浏览器的开发者工具的 payload 页面可以看到请求需要携带的参数很多,还有加密的参数。

这种情况下,直接去扣 JS 逆向的话难度很大。

在 headers 页面,找到 requests url ,可以通过关键词监听这个接口,把这串关键词
api.bilibili.com/x/space/wbi/arc/search复制出来,下面写代码能用到。

五、思路

1、访问主页

2、监听接口、解析数据

3、循环翻页

六、代码实现过程

1、登录

定义一个 sign_in() 函数,在函数内部使用 DrissionPage 库的 get() 方法,打开哔哩哔哩的网站首页。(本文首发在“程序员coding”公众号)

如果第一次执行代码,需要登录账号,第二次之后运行代码,可以把 sign_in() 函数注释掉不用再次执行这一步骤。

from DrissionPage import ChromiumPage
def sign_in():
    """"登录函数"""
    sign_in_page = ChromiumPage()
    sign_in_page.get('https://www.bilibili.com/')
    print('请扫码登录')

2、获取response

通过翻页,可以发现地址规律。变化的只有 pn 的值,可以方便的构造出页面的 url 地址。

(本文首发在“程序员coding”公众号)
def get_response(pn):
    """"通过监听接口,获取返回的response"""
    # 访问网址
    page = ChromiumPage()
    url = f'https://space.bilibili.com/{UID}/video?tid=0&pn={pn}&keyword=&order=pubdate'
    page.listen.start('api.bilibili.com/x/space/wbi/arc/search', method='GET')  # 开始监听,指定获取包含该文本的数据包
    page.get(url)

    # 等待并获取一个数据包
    res = page.listen.wait(timeout=10)
    # json_data和浏览器的开发者工区中response一样
    json_data = res.response.body
    return json_data

3、解析response

通过监听接口,我们获取到了 response ,这是 json 格式的。然后就可以解析 response ,提取每一条视频的信息了。

# videos是所有视频列表
videos = json_data['data']['list']['vlist']
# 提取视频信息
for v in videos:
    # 视频 aid
    aid = v['aid']
    # 视频 bvid
    bvid = v['bvid']
    # 发布 author
    author = v['author']
    # 视频标题
    title = v['title']

这里只列出其中几个字段的提取方法,其他字段也是类似的方法提取,这个很简单,就不全部介绍了。

4、保存到excel

from DataRecorder import Recorder
import time
# 新建一个excel表格,用来保存数据
formatted_time = time.strftime("%Y-%m-%d %H%M%S", current_time)
init_file_path = f'哔哩哔哩UP主发布的所有视频-{UID}-{formatted_time}.xlsx'
info = {'UP主名称': author, '视频标题': title, '视频描述': description, '视频时长': length, '播放数': play,
        '评论数': comment, '弹幕数': video_review, '发布时间': create_time,
        '作者mid': author_mid, '视频aid': aid, '视频bvid': bvid, '是否合作视频': is_union_video,
        '视频链接': video_url, '作者主页链接': author_url, '视频封面图': pic,
        '视频属性': attribute, 'typeid': typeid}
# 保存数据到缓存
r.add_data(info)
# 爬虫结束,避免丢数据,强制保存文件
r.record()

5、main()函数

if __name__ == '__main__':
    # 1、登录,第2次运行可以注释掉这一步骤
    sign_in()

    # 2、UID 是UP主的id
    UID = '99157282'

    # 3、page_num 是所有视频总共有多少页
    page_num = 20

    # 4、开始爬取数据
    run()

七、操作方法:

在浏览器地址栏可以找到 UP 主的 ID 号,
https://space.bilibili.com/99157282/video中的99157282就是UID。

然后找到视频页码数量,也就是 20 页视频。

把这 2 个参数粘贴到代码的 main() 函数中,即可运行代码。

代码运行过程中, Pycharm 控制台输出如下:

八、完整代码

完整的代码经过调试完善可以完美运行,我也亲自多次实验,生成的 excel 表格案例如下。

生成的 excel 表命名包含作者名称、UID、笔记数量、采集日期时间这些信息。

本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。还可以通过公众号添加我的私人微信。

诚信交友,欢迎沟通交流。

每一份能满足他人需求的努力都值得被付费。

完整代码下载链接:可在“程序员coding”公众号文章获取。

相关推荐

python学习教程-第七节内容

函数(重点)基本概念Python函数的语法是编程中的核心概念之一,它允许你将代码块封装为可重复调用的单元。基本语法定义函数:示例参数类型位置参数(PositionalArguments)按参数定义...

Python排序90%人只会用sorted()?这7个高阶技巧让你代码效率翻倍

高效处理数据的关键,往往从掌握排序开始。排序操作在Python编程中的重要性常被低估——直到你面对一个杂乱无章的数据集。作为数据处理的核心操作之一,排序效率直接决定了程序性能和代码可读性。无论你正在清...

第四章:Python函数

4.1函数的定义与调用4.1.1理论知识函数是组织好的、可重复使用的代码块,用于执行特定的任务。它可以提高代码的复用性和可维护性。在Python中,定义函数使用def关键字,其基本语法如下:def...

ArcGIS 一个独立运行的Python程序编写和打包

写代码#coding=utf8#-*-coding:UTF-8-*-importarcpyfromarcpyimportenvimportosimportsys##########...

python入门到脱坑经典案例—计算三角形的面积

下面为大家详细讲解如何用Python计算三角形面积。我们会从最基础的数学公式开始,逐步深入编程实现,并涵盖多个实用版本。以下是完整的教学指南:1.数学原理回顾三角形面积公式:面积=(底边长度...

Python运算技巧:10种计算列表平方的高效方法

1.使用for循环此方法遍历列表中的每个数字,使用**运算符计算其平方,然后将结果添加到新的列表中。2.使用列表推导式此方法使用列表推导式,这是一种更简洁的方式,可以在现有列表的每个项目上执行操作...

墙裂推荐,5个学习Python编程最佳的开源库

学习Python少不了的就是项目,我在GitHUB上找了几个比较好的开源库,大家可以跟着去学习。1、learn-python3这个存储库一共有19本Jupyter笔记本。它涵盖了字符串和条件之类的基础...

使用Python玩转ftplib库:实现ftp文件传输自动化全攻略

大家好!在日常工作中都会使用到ftp功能,用于上传和下载文件等,本章主要介绍Python的标准库ftplib来实现FTP文件传输,帮助我们实现ftp自动化。一、ftplib库核心函数速查表1连接与登...

Python零基础入门学习23:常用第三方库之图像处理库Pillow

注:本文所有代码均经过Python3.7实际运行检验,保证其严谨性。本文约2000字,阅读时间约为4分钟。Pillow库的概述Pillow库是Python最好的图像处理库,可能是使用频率最高的图像处...

Python编程之BeautifulSoup库

#头条创作挑战赛#BeautifulSoup是一个可以从HTML或XML文件中快速提取数据的Python库。它能够通过转从入门到精通Python网络爬虫框架Scrapy38换器实...

Python3 新一代Http请求库Httpx使用(详情版)

我们经常使用Python语言的朋友们都清楚,requests是使用率非常高的HTTP库,甚至更早Python2中使用的是urllib、urllib2,也给我们提供了许多方便的功能。但是自从...

小白也可以玩的Python爬虫库,收藏一下

最近,微软开源了一个项目叫「playwright-python」,作为一个兴起项目,出现后受到了大家热烈的欢迎,那它到底是什么样的存在呢?今天为你介绍一下这个传说中的小白神器。Playwright是...

apscheduler,一个超厉害的 Python 库!

大家好,今天为大家分享一个超厉害的Python库-apscheduler。Github地址:https://github.com/agronholm/apschedulerAPSchedule...

给3D Slicer添加Python第三方插件库

对临床医生或医学影像算法研究人员来说,3DSlicer是不错的临床实践或科研工具。随着人工智能和深度学习技术的普及,python已经作为原型开发和验证的计算机编程语言。3DSlicer自带pyt...

Paramiko:一个非常实用的Python库

前言Python的Paramiko库,它是一个用于实现SSHv2协议的客户端和服务器的库。通过使用Paramiko,我们可以在Python程序中轻松地实现远程服务器的管理、文件传输等功能。特别做智能硬...