百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Python爬虫之爬取某音乐平台(付费)歌曲

itomcoil 2024-12-09 13:47 14 浏览

无意间在某站上看到一个视频,便很有兴趣地实践了起来。本篇文章仅仅是作为个人学习笔记所著,如若有所不足之处,欢迎指正。

废话不多说,先上源代码及效果图(如若对你有帮助,请阅读完本文):

网页链接:https://music.163.com/#/playlist?id=5087806619

效果图:

源代码:

# -*- codeing=utf-8 -*-
# @Time:2021/7/22 20:47
# @Atuhor:@lwtyh
# @File:批量下载.py
# @Software:PyCharm


#导入框架(库,模块)  pip install xxxx
import requests
from lxml import etree

# http://music.163.com/song/media/outer/url?id=

# 1、确定网址   真实地址在Network----Doc
url = 'https://music.163.com/playlist?id=5087806619'
base_url = 'http://music.163.com/song/media/outer/url?id='

# 2、请求(requests) 图片,视频,音频  content     字符串 text
html_str = requests.get(url).text
# print(type(html_str))       # 字符串类型


# 3、筛选数据xpath(标签语言)

# //a[contains(@href,'/song?')]/@href

result = etree.HTML(html_str)       # 转换类型
# print(type(result))
song_ids = result.xpath('//a[contains(@href,"/song?")]/@href')   # 歌曲id
song_names = result.xpath('//a[contains(@href,"/song?")]/text()')       # 歌名

# print(song_ids)
# print(song_names)     #列表


# 对列表进行解压
i = 0       # 按顺序来
for song_id,song_name in zip(song_ids,song_names):
    # print(song_id)
    # print(song_name)
    count_id = song_id.strip('/song?id=')   # 去掉/song?id=
    # print(count_id)

    # 过滤含有“$”符号
    if ('#39; in count_id) == False:
        # print(count_id)
        song_url = base_url + count_id      # 拼接url
        # print(song_url)

        i += 1

        mp3 = requests.get(song_url).content

        # 4、保存数据
        with open('./yinyue/{}.{}.mp3'.format(i,song_name),'wb') as file:
            file.write(mp3)


目的:

一张截图,请自行分析:


这是一张再熟悉不过的图片了,想要获取本页面这些音乐,方法很多,如APP内自行下载啥的,但是,本次我想利用所学到的一点皮毛进行下载。

我们都知道,对于网页上的音乐在进行下载时,经常会弹出如下页面:


好好的下载一首歌曲,非要弄得这么麻烦。甚至,有些音乐在下载了软件后,需要付费或者VIP,让人很是苦恼。更严重者,好不容易下载好了,却发现格式不对等种种情况,让人崩溃。

为此我们可以很好地通过简单的爬虫解决以上问题。

对网页进行分析:

1. 在一开始,本人给出了本网页的链接:https://music.163.com/#/playlist?id=5087806619但是细心的小伙伴会发现,在代码中所使用的的网址并非是这个:

url = 'https://music.163.com/playlist?id=5087806619'


这是因为我们所请求的网址并非是浏览器地址栏上的网址,通过这张截图,很清晰地发现我们所请求的网址是哪个了。(
这是一个很重要的点,必须学会分析。

2. 通过对每首歌曲打开,进行网页源代码分析不难发现,本网页的10首歌曲都有一个共同的特点:即https://music.163.com/#/song?id=1475436266
前面的网址为
https://music.163.com/#/song?id= 加每首歌曲的 id 好,这很简单。


3. 然而,我们永远想得过于简单了,到目前为止,我们仅仅是找到了些许规律,但是要真正下载到每一首歌曲,还遥不可及。
因为我们进行了这么久的分析,并没有找到歌曲的真正链接。


通过对这些内容的查找,我们是可以说,根本就无法找到音乐文件(MPEG、MP3、MPEG-4、MIDI、WMA、M4A等)。

那是我们到现在为止还没有请求音乐,而当我们在进行点击播放时会发现如下图所示(与上图进行比较)发现:

  • 该网页的请求数量由原来的167一下增加至192,这就证明,当我们在进行播放音乐时,该网页又重新进行了对网页的请求。
  • 其次,通过重新查找发现(只需查看后面新的内容)这次有了一些 .m4a 文件。
  • 当点击这些文件打开时会发现,有一个新的 Request URL:,当你将该网址复制在新的网页下进行打开,会出现如下图所示(打开时浏览器会自动进行下载该音乐):
    或者: 像下图所示,会出现该音频,当你浏览器跟迅雷下载器所绑定,会立马弹出迅雷界面,进行该音乐的下载。
    结合上面的情况来说,我们是不是已经成功了呢?但很难过地告诉你,这个网址在短时间内打开,的确会有用,但是,它是有时间限制的,不信的话,你可以过五分钟(或许还不需要这么久)再重新打开该网址,试一下。

那么,照我这么一说,没办法了吗?当然不是,办法还是有的,不然,怎么敢在此“放肆”呢?

问题解决:

通过之前对网页进行分析,我们正一步一步地进行了解、熟悉,且到最后,我们甚至找到了歌曲的最终URL,但是可惜的是,该URL并非是一个永久的,只是一个短暂、临时的动态URL,这简直给我们泼了一盆冷水。
然而,我们无需灰心,俗话说 “
魔高一尺,道高一丈 ”,办法还是有的。

需将这个问题解决,不得不介绍一个新的URL:

http://music.163.com/song/media/outer/url?id=

在这里,就不卖关子了,这是一个该平台(至于是什么平台,你懂得)的外部链接。在之前的分析中,我们发现了一个很重要的一点,便是这10首歌曲都是一个网址加每首歌曲的id所在的新页面。

在代码中你也会发现所使用的 base_url 便是这个链接。

base_url = 'http://music.163.com/song/media/outer/url?id='

也就是说,我们有了上面的这个网址,便可以为所欲为了。爱动手的你现在便可以立马复制上面的链接,在网页上找到一首歌曲的id号添加至网址后面进行打开(如:http://music.163.com/song/media/outer/url?id=1822734959),是不是得到了如下的界面:


是不是很熟悉呢?没错,这就是之前我们利用网页分析得到的网址所打开的网页,很可惜的是之前那网址是一个临时、动态的网址,对于我们来说进行批量下载没多大用处。所以,当我们现在有了这个新网址,就方便了很多。

好,想一想,既然我们有了这么一个神奇的网址,接下来,该干嘛了呢?好好想一下。

正片开始:

在经过了前面两大点的分析,现在我们可以游刃有余地对这十首音乐进行爬取了。
相信,很多人都知道接下来一步该干什么了吧?

每首音乐可以通过 http://music.163.com/song/media/outer/url?id= 这个网址加每首音乐的 id 进行下载,所以,我们第一步便是想办法获取每首音乐的 id


通过之前的这张图不难发现,每首音乐的
id 都在一个a标签内。

#导入框架(库,模块)  pip install xxxx
import requests

# 1、确定网址   真实地址在Network----Doc
url = 'https://music.163.com/playlist?id=5087806619'

# 2、请求(requests) 图片,视频,音频  content     字符串 text
html_str = requests.get(url).text
print(html_str)
print(type(html_str))       # 字符串类型

便可以通过上述代码,先将该网页的源代码进行爬取下来,再进行分析。

在这里使用多加了一横打印该页代码的数据类型,不难发现所打印出来的类型为 字符串 。这便有了后续需要将该内容转换为 _Element对象

>>>result = etree.HTML(html_str)       # 转换类型
>>>print(type(result))
class 'lxml.etree._Element'>		#输出类型

作为_Element对象,可以方便地使用getparent()、remove()、xpath()等方法。

而此次爬虫,恰恰所使用的的便是 xpath() 方法。

所以,还需要导入一个新的模块,即:

from lxml import etree


通过浏览器的
XPath Helper 插件可以快速地匹配到每首音乐的 id

song_ids = result.xpath('//a[contains(@href,"/song?")]/@href')   # 歌曲id
song_names = result.xpath('//a[contains(@href,"/song?")]/text()')       # 歌名
print(song_ids)
print(song_names)     #列表

而当我们打印出来时,却发现这是一个列表类型。不着急,可以借用 for 进行快速遍历:

for song_id,song_name in zip(song_ids,song_names):
    print(song_id)
    print(song_name)


通过打印发现,前面多了一些
/song?id= ,这时,便使用下面这行代码,进行删减:

count_id = song_id.strip('/song?id=')   # 去掉/song?id=

歌名没有进行打印了,因为我们主要是获取每首音乐的 id ,然而,仔细看上图发现后面多了三个无用的,这三个必须删掉才行,不然在进行后面的 URL 拼接,肯定会报错,因为压根就找不到这样的一个网址。便有了后面的判断语句。

# 过滤含有“$”符号
    if ('#39; in count_id) == False:
        print(count_id)

清一色id号:


接下来便是拼接新的URL:

song_url = base_url + count_id      # 拼接url
       print(song_url)

在浏览器里打开上面的任意链接,即可获取该音乐的链接,并进行下载。
但是,我们最终的目的肯定不在于此,而是让爬虫自动帮我们全部下载并进行保存至文件夹。

mp3 = requests.get(song_url).content

所以,我们便进行请求网址,获取每首音乐。最后,在进行保存即可。

# 4、保存数据
with open('./yinyue/{}.{}.mp3'.format(i,song_name),'wb') as file:
	file.write(mp3)

需要注意的是,源代码中本人在 for 进行遍历时,增加了一个变量 i ,这是为了我们所爬取下来的音乐保存在文件夹的顺序还是如网页中的顺序所一样,当然如若不需要可将其删除。

到现在看来,我们爬取到了这歌单中的10首音乐,那试想一下,获取其它歌单中的音乐是不是也可以用相同的方法进行获取呢?爱动手的你,快去试一试吧!实践出真知!

说在最后的话:

  1. 学无止境。利用写博客的方式将所学内容进行一遍温习,加深自己的印象,强化学习。
  2. 同时,写出来的每一篇笔记为大家作参考,也欢迎各位大佬进行指点,相互交流学习。
  3. 如若侵权,联系即删!

相关推荐

Excel新函数TEXTSPLIT太强大了,轻松搞定数据拆分!

我是【桃大喵学习记】,欢迎大家关注哟~,每天为你分享职场办公软件使用技巧干货!最近我把WPS软件升级到了版本号:12.1.0.15990的最新版本,最版本已经支持文本拆分函数TEXTSPLIT了,并...

Excel超强数据拆分函数TEXTSPLIT,从入门到精通!

我是【桃大喵学习记】,欢迎大家关注哟~,每天为你分享职场办公软件使用技巧干货!今天跟大家分享的是Excel超强数据拆分函数TEXTSPLIT,带你从入门到精通!TEXTSPLIT函数真是太强大了,轻松...

看完就会用的C++17特性总结(c++11常用新特性)

作者:taoklin,腾讯WXG后台开发一、简单特性1.namespace嵌套C++17使我们可以更加简洁使用命名空间:2.std::variant升级版的C语言Union在C++17之前,通...

plsql字符串分割浅谈(plsql字符集设置)

工作之中遇到的小问题,在此抛出问题,并给出解决方法。一方面是为了给自己留下深刻印象,另一方面给遇到相似问题的同学一个解决思路。如若其中有写的不好或者不对的地方也请不加不吝赐教,集思广益,共同进步。遇到...

javascript如何分割字符串(javascript切割字符串)

javascript如何分割字符串在JavaScript中,您可以使用字符串的`split()`方法来将一个字符串分割成一个数组。`split()`方法接收一个参数,这个参数指定了分割字符串的方式。如...

TextSplit函数的使用方法(入门+进阶+高级共八种用法10个公式)

在Excel和WPS新增的几十个函数中,如果按实用性+功能性排名,textsplit排第二,无函数敢排第一。因为它不仅使用简单,而且解决了以前用超复杂公式才能搞定的难题。今天小编用10个公式,让你彻底...

Python字符串split()方法使用技巧

在Python中,字符串操作可谓是基础且关键的技能,而今天咱们要重点攻克的“堡垒”——split()方法,它能将看似浑然一体的字符串,按照我们的需求进行拆分,极大地便利了数据处理与文本解析工作。基本语...

go语言中字符串常用的系统函数(golang 字符串)

最近由于工作比较忙,视频有段时间没有更新了,在这里跟大家说声抱歉了,我尽快抽些时间整理下视频今天就发一篇关于go语言的基础知识吧!我这我工作中用到的一些常用函数,汇总出来分享给大家,希望对...

无规律文本拆分,这些函数你得会(没有分隔符没规律数据拆分)

今天文章来源于表格学员训练营群内答疑,混合文本拆分。其实拆分不难,只要规则明确就好办。就怕规则不清晰,或者规则太多。那真是,Oh,mygod.如上图所示进行拆分,文字表达实在是有点难,所以小熊变身灵...

Python之文本解析:字符串格式化的逆操作?

引言前面的文章中,提到了关于Python中字符串中的相关操作,更多地涉及到了字符串的格式化,有些地方也称为字符串插值操作,本质上,就是把多个字符串拼接在一起,以固定的格式呈现。关于字符串的操作,其实还...

忘记【分列】吧,TEXTSPLIT拆分文本好用100倍

函数TEXTSPLIT的作用是:按分隔符将字符串拆分为行或列。仅ExcelM365版本可用。基本应用将A2单元格内容按逗号拆分。=TEXTSPLIT(A2,",")第二参数设置为逗号...

Excel365版本新函数TEXTSPLIT,专攻文本拆分

Excel中字符串的处理,拆分和合并是比较常见的需求。合并,当前最好用的函数非TEXTJOIN不可。拆分,Office365于2022年3月更新了一个专业函数:TEXTSPLIT语法参数:【...

站长在线Python精讲使用正则表达式的split()方法分割字符串详解

欢迎你来到站长在线的站长学堂学习Python知识,本文学习的是《在Python中使用正则表达式的split()方法分割字符串详解》。使用正则表达式分割字符串在Python中使用正则表达式的split(...

Java中字符串分割的方法(java字符串切割方法)

技术背景在Java编程中,经常需要对字符串进行分割操作,例如将一个包含多个信息的字符串按照特定的分隔符拆分成多个子字符串。常见的应用场景包括解析CSV文件、处理网络请求参数等。实现步骤1.使用Str...

因为一个函数strtok踩坑,我被老工程师无情嘲笑了

在用C/C++实现字符串切割中,strtok函数经常用到,其主要作用是按照给定的字符集分隔字符串,并返回各子字符串。但是实际上,可不止有strtok(),还有strtok、strtok_s、strto...