百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Python实战:爬取哔哩哔哩【UP主投稿的所有视频】

itomcoil 2025-01-16 19:50 10 浏览

上一篇文章提供了一种新的思路,找到了一条捷径,可以绕过 JS 逆向,直接监听接口,从接口的 response 中提取想要的数据。

传送门:Python实战:绕过JS逆向,爬取抖音搜索视频结果

今天,再运用这个思路写一个案例,实现爬取爬取哔哩哔哩 UP 主投稿的所有视频。(本文首发在“程序员coding”公众号)

一、先看结果

程序运行结束后会生成一个 excel 表格,包含 UP主名称、视频标题、视频描述、视频时长、播放数、评论数、弹幕数、发布时间、作者mid、视频aid、视频bvid、是否合作视频、视频链接、作者主页链接、视频封面图、视频属性、typeid 这 17 个字段的信息。

二、环境

(本文首发在“程序员coding”公众号)
python 3.11.5
pycharm

三、模块

from DrissionPage import ChromiumPage
from DataRecorder import Recorder
import time
import os
import datetime

四、分析数据来源

首先在作者主页点击更多,来到投稿视频的页面。

浏览器的开发者工具,点击投稿视频页面的下一页,找到包含视频数据的请求。

在浏览器的开发者工具的 preview 页面查看 response ,可以看到视频在 vlist 这个列表内。

展开第一个视频,可以看到包含的信息如下,是一个 json 格式,可以通过键值对的方法提取出视频信息。

在浏览器的开发者工具的 payload 页面可以看到请求需要携带的参数很多,还有加密的参数。

这种情况下,直接去扣 JS 逆向的话难度很大。

在 headers 页面,找到 requests url ,可以通过关键词监听这个接口,把这串关键词
api.bilibili.com/x/space/wbi/arc/search复制出来,下面写代码能用到。

五、思路

1、访问主页

2、监听接口、解析数据

3、循环翻页

六、代码实现过程

1、登录

定义一个 sign_in() 函数,在函数内部使用 DrissionPage 库的 get() 方法,打开哔哩哔哩的网站首页。(本文首发在“程序员coding”公众号)

如果第一次执行代码,需要登录账号,第二次之后运行代码,可以把 sign_in() 函数注释掉不用再次执行这一步骤。

from DrissionPage import ChromiumPage
def sign_in():
    """"登录函数"""
    sign_in_page = ChromiumPage()
    sign_in_page.get('https://www.bilibili.com/')
    print('请扫码登录')

2、获取response

通过翻页,可以发现地址规律。变化的只有 pn 的值,可以方便的构造出页面的 url 地址。

(本文首发在“程序员coding”公众号)
def get_response(pn):
    """"通过监听接口,获取返回的response"""
    # 访问网址
    page = ChromiumPage()
    url = f'https://space.bilibili.com/{UID}/video?tid=0&pn={pn}&keyword=&order=pubdate'
    page.listen.start('api.bilibili.com/x/space/wbi/arc/search', method='GET')  # 开始监听,指定获取包含该文本的数据包
    page.get(url)

    # 等待并获取一个数据包
    res = page.listen.wait(timeout=10)
    # json_data和浏览器的开发者工区中response一样
    json_data = res.response.body
    return json_data

3、解析response

通过监听接口,我们获取到了 response ,这是 json 格式的。然后就可以解析 response ,提取每一条视频的信息了。

# videos是所有视频列表
videos = json_data['data']['list']['vlist']
# 提取视频信息
for v in videos:
    # 视频 aid
    aid = v['aid']
    # 视频 bvid
    bvid = v['bvid']
    # 发布 author
    author = v['author']
    # 视频标题
    title = v['title']

这里只列出其中几个字段的提取方法,其他字段也是类似的方法提取,这个很简单,就不全部介绍了。

4、保存到excel

from DataRecorder import Recorder
import time
# 新建一个excel表格,用来保存数据
formatted_time = time.strftime("%Y-%m-%d %H%M%S", current_time)
init_file_path = f'哔哩哔哩UP主发布的所有视频-{UID}-{formatted_time}.xlsx'
info = {'UP主名称': author, '视频标题': title, '视频描述': description, '视频时长': length, '播放数': play,
        '评论数': comment, '弹幕数': video_review, '发布时间': create_time,
        '作者mid': author_mid, '视频aid': aid, '视频bvid': bvid, '是否合作视频': is_union_video,
        '视频链接': video_url, '作者主页链接': author_url, '视频封面图': pic,
        '视频属性': attribute, 'typeid': typeid}
# 保存数据到缓存
r.add_data(info)
# 爬虫结束,避免丢数据,强制保存文件
r.record()

5、main()函数

if __name__ == '__main__':
    # 1、登录,第2次运行可以注释掉这一步骤
    sign_in()

    # 2、UID 是UP主的id
    UID = '99157282'

    # 3、page_num 是所有视频总共有多少页
    page_num = 20

    # 4、开始爬取数据
    run()

七、操作方法:

在浏览器地址栏可以找到 UP 主的 ID 号,
https://space.bilibili.com/99157282/video中的99157282就是UID。

然后找到视频页码数量,也就是 20 页视频。

把这 2 个参数粘贴到代码的 main() 函数中,即可运行代码。

代码运行过程中, Pycharm 控制台输出如下:

八、完整代码

完整的代码经过调试完善可以完美运行,我也亲自多次实验,生成的 excel 表格案例如下。

生成的 excel 表命名包含作者名称、UID、笔记数量、采集日期时间这些信息。

本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。还可以通过公众号添加我的私人微信。

诚信交友,欢迎沟通交流。

每一份能满足他人需求的努力都值得被付费。

完整代码下载链接:可在“程序员coding”公众号文章获取。

相关推荐

MySql安装与使用

介绍mysql是目前最流行的关系型数据库管理系统,在WEB应用方面MySQL是最好的RDBMS(RelationalDatabaseManagementSystem:关系数据库管理系统)应用软件...

使用AI来搭建一个用户系统,步骤应该是怎样的呢?

我给AI的第一个问题是这样的:创建一个java21+springboot3.4+mysql21的一个用户系统,需要使用JWT,支持多语言,使用swagger,这个用户系统都应该包含哪...

Mysql 8.4数据库安装、新建用户和数据库、表单

1、下载MySQL数据库yuminstall-ywgetperlnet-toolslibtirpc#安装wget和perl、net-tools、libtirpcwgethtt...

介绍如何在 MySQL 中创建新用户并授予权限?

MySQL是一个开源的关系型数据库管理系统,常用于存储和管理大量的结构化数据。在使用MySQL进行数据管理时,为了安全和方便管理,通常需要创建新用户并授予相应的权限。本文将介绍如何在MySQL...

Mysql创建用户和权限管理

MySQL是一个多用户的数据库,最高权限管理者是root用户,它拥有着最高的权限操作。包括select、update、delete、update、grant等操作。如果有其他用户想使用MySQL,那么...

Mysql:创建用户详解

1、创建并授权用户--创建可从任何主机连接的用户CREATEUSER'myuser'@'%'IDENTIFIEDBY'mypassword'...

Python 实现【字符匹配】

defis_match(s,pattern):m,n=len(s),len(pattern)dp=[[False]*(n+1)for_inrange...

Python自动化:openpyxl工作簿、工作表相关操作

新建工作簿、工作表importopenpyxl#创建空白工作簿,会自动生成一个工作表:Sheetwb=openpyxl.Workbook()#新建工作表#create_sheet...

python每日一练之三数排序

概述今天主要分享一个三树排序的实例,大家可以自己测试玩一下~需求输入三个整数x,y,z,请把这三个数由小到大输出。方法一:如果是要练练手就随便找个排序算法实现一下#usr/bin/python#...

Python输出语句print()

Python中的输出语句主要通过内置函数print()实现,它可以灵活输出文本、变量、表达式结果等内容到控制台或其他文件。以下是详细介绍及示例:一、print()基本语法print(*object...

Python设置excel表格格式,这3个属性6个模块,要表格好看

前言:通过前面两篇文章,我们用Python处理excel数据得到了结果并保存了文件。打开文件会发现,文件里表格是没有设置格式的,还需手动调整行高列宽等样式,很麻烦。其实,通过Python库模块,能轻松...

python入门-day5-循环语句

以下是为“Day5:循环语句”设计的详细学习任务计划。这个任务旨在帮助初学者掌握Python中的循环语句(for和while),并通过实践理解它们的应用场景。Day5:循环语句学习目标...

Python基础编程必备!涵盖常见语法与操作的代码示例合集

以下是一份Python基础代码示例合集,涵盖了常见的语法和操作,适合初学者快速掌握基本编程概念:1.基础语法python#打印输出print("Hello,World!")#变...

Python循环语句实用教程

一、循环基础1.while循环基本语法:while条件表达式:循环体代码while循环流程图:应用示例:#简单计数器count=0whilecount<5:...

在 Python 中如何向一个已排序的数组(列表) 中插入一个数呢

在Python中如何向一个已排序的数组(列表)中插入一个数呢?方法有很多种,关键在于原来数组是什么样的排序,用到啥排序方法效率高,就用哪种。我们来练习其中的几种插入方法,另外也掌握下遍历数组的...