百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 软件资讯 > 正文

Python爬虫教程,爬取网易云的音乐

ninehua 2024-12-06 18:08 15 浏览

在开始之前,做一点小小的说明哈:

  • 我只是一个python爬虫爱好者,如果本文有侵权,请联系我删除!
  • 本文需要有简单的python爬虫基础,主要用到两个爬虫模块(都是常规的)requests模块selenium模块
  • 建议使用谷歌浏览器,方便进行抓包和数据获取。
    私信小编01即可获取大量Python学习资料

Part1 进行网页分析

首先打开网易云的网页版网易云
然后搜索歌曲,这里我就搜索一首锦零的“空山新雨后”


这时我们来观察网页的url,可以发现s=后面就是我们搜索的关键字


当我们换一首歌,会发现也是这样的,正好验证了我们的想法


所以下一步让我们点进去一首歌,然后进行播放,看看能否直接获取音乐文件的url,如果能,那么直接对url进行requests.get访问,我们就能拿到.mp3文件了
点进第一首“空山新雨后”,我们可以看到有一个“生成外链播放器”


看到这个,我心中一阵激动,仿佛就要大功告成;于是我满怀开心的点了一下,结果。。。


好吧,不过我们不能放弃,来我们分析一下网页
但当我们定位到两个最有可能出现外链的地方时,发现什么都没有


不过作为“规格严格,功夫到家”的传承者,我不能放弃啊,于是我又打开了抓包工具
按照常规套路,我们定位到XHR


点击播放后,出现了一大堆东西,我们要做的就是找到其中的content-type为audio一类的包
功夫不负有心人,在寻找了一(亿)会儿后,我找到了



于是我又满怀开心的复制了这个包对应的Request-URL
粘贴后访问这个url,结果非常满意,这就是我一直在找的url


现在我把那个url贴出来

https://m10.music.126.net/20200715163315/a075d787d191f6729a517527d6064f59/ymusic/0552/0f0e/530f/28d03e94478dcc3e0479de4b61d224e9.mp3

Part2 编写爬虫程序

接下来就超级简单了
下面的代码是最常规的操作,应该有爬虫基础的都能看懂;如果有不懂的,注释都在上面

#导入requests包
import requests  

#进行UA伪装
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36'
}

#指定url
url = 'https://m10.music.126.net/20200715163315/a075d787d191f6729a517527d6064f59/ymusic/0552/0f0e/530f/28d03e94478dcc3e0479de4b61d224e9.mp3'

#调用requests.get方法对url进行访问,和持久化存储数据
audio_content = requests.get(url=url,headers=headers).content

#存入本地
with open('空山新雨后.mp3','wb') as f :
    f.write(audio_content)

print("空山新雨后爬取成功!!!")

Part3 更高级的

看到这里,你可能会想,为啥根本没用selenium模块呢?能不能直接爬取任何一首我想要的歌,而不用每首都去费心费力的找一个url呢?当然可以哒!
其实网易云在线播放每首歌曲时,都有一个外链地址,这是不会变的,跟每首歌的唯一一个id绑定在一起,每首歌audio文件的url如下:

url = 'http://music.163.com/song/media/outer/url?id=' + 歌曲的id值 + '.mp3'

id值的获取也很简单,当我们点进每首歌时,上方会出现对应的网址,那里有id值,如下图:


所以只需把上面程序中的url改成新的url即可
如果还想要更好的体验效果,实现在程序里直接搜索歌曲,拿到id值,就需要用到selenium模块
为什么用selenium而不用xpath或bs4?
因为搜索页面的数据是动态加载出来的,如果直接对搜索页面的网页进行数据解析,就拿不到任何数据;以我目前的技术,就只能想到使用万能的selenium模块,下面大概说明一下步骤:

  1. 进行selenium无可视化界面设置
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
  1. 导包
import requests
import re
from selenium import webdriver
from time import sleep
  1. 指定歌曲,得到对应搜索页面的url
name = input('请输入歌名:')

url_1 = 'https://music.163.com/#/search/m/?s=' + name + '&type=1'
  1. 获取搜索页面的html文件
#初始化browser对象
browser = webdriver.Chrome(executable_path='chromedriver.exe',chrome_options=chrome_options)

#访问该url
browser.get(url=url_1)

#由于网页中有iframe框架,进行切换
browser.switch_to.frame('g_iframe')

#等待0.5秒
sleep(0.5)

#抓取到页面信息
page_text = browser.execute_script("return document.documentElement.outerHTML")

#退出浏览器
browser.quit()
  1. 用正则模块re匹配html文件中的id值、歌名和歌手
ex1 = '<a.*?id="([0-9]*?)"'
ex2 = '<b.*?title="(.*?)"><span class="s-fc7">'
ex3 = 'class="td w1"><div.*?class="text"><a.*?href=".*?">(.*?)</a></div></div>'

id_list = re.findall(ex1,page_text,re.M)[::2]

song_list = re.findall(ex2,page_text,re.M)

singer_list = re.findall(ex3,page_text,re.M)
  1. 将id值、歌名和歌手封装成一个个元组,写入一个列表中,再进行打印
li = list(zip(song_list,singer_list,id_list))

for i in range(len(li)):
    print(str(i+1) + '.' + str(li[i]),end='\n')
  1. 对满意的id值可得到一个url,再用上面的程序对该url进行requests.get方法访问即可

Part4 小结

终究是我才疏学浅,这个找外链进行爬取的方法也存在很多不足,比如不能在线播放的歌曲是无法下载的。
不过写这样一个小程序练练手,对自己能力的提高确是有极大帮助的。

相关推荐

DOTA7.22版本更新了什么 7.22版本更新内容一览

[海峡网]《DOTA2》7.22版本近日上线了,7.22版本后DOTA2迎来了全面A杖时代,而某些英雄的A杖效果过于IMBA,导致冰娃很快发布了新补丁7.22b,一起来看看吧。7.22b削弱了当前一些...

网易电竞平台发布首款游戏DOTA 六大革新机制首曝

网易首款专业电竞平台今日对外发布,并宣告将于6月20日正式开启首轮精英测试,首款平台游戏则是大名鼎鼎的DOTA。网易电竞平台作为国内最专业的新一代电子竞技游戏平台,致力于为电子竞技玩家提供更稳定、更快...

水友吐槽最失望的全明星 冷板凳的选手们

本次全明星采取主持人随机现场观众,报喜爱的选手名字进行10V10比赛,然而很多人气选手均没有上场的机会,国外水友粉粉吐槽应该改善投票方式Handa711:V社的套路需要改变一下了。这次全明星太逊。Sl...

Dota2:NB假赛事件再起风波,中单AQ直接自爆,茶队被牵连其中

就在前一天,一则消息的传出,让整个Dota2圈子甚至是电竞圈都感到意外:TI4冠军、TI7亚军得主Newbee战队,涉嫌打假赛从中获利,被CDA联盟以及IMBA传媒共同出面,将其永久封禁,禁止参加CD...

DOTA的世界,LOL玩家你不懂! dota?

◆IntroductionDOTA玩家与LOL玩家究竟有什么不同,看完你就知道了,不要有任何优越感哦,都是玩游戏的,没必要!....暗牧对蛮王说:给自己5秒的人永远不是真男人。龙骑对龙姬说:你身上流的...

Dota2:肉核体系已完全没落?刚被、混沌、幽鬼等英雄胜率垫底

哈喽大家好,这里是蜻蜓队长Zwj。想必大家都能感觉得到,越是大赛职业战队们就越偏爱刚被、潮汐、斧王、幽鬼这种进可攻退可守的肉核型英雄;而在7.30更新后,这些英雄却几乎绝迹了。下面,就让队长带大家一起...

探访上海IMBA电竞体验中心 电子竞技高手荣誉相册引人注目

来源:环球网2021年5月10日,上海,探访世界级电子竞技品牌赛事之一“SL-iS7CS:GO群星联赛”举办地IMBA电竞体验中心,整排的电竞职业高手荣誉相册和手模吸引眼球。作为普陀区首个设在商业...

dota2IMBA Tinker修补匠进阶攻略 dota修补匠外号

他曾经是某个版本第一无解后期,刷新BKB骑脸的感觉,酸爽。但是随后的版本更新在刷新下面加了一行小字,不可以刷新BKB,tinker修补匠就再次跌下神坛。也许你是tinker的忠实粉丝,也许你怀念那个B...

《DOTA2》新版本6.83c降临:寒冬飞龙登场、斧王遭削弱

新年将至,《DOTA2》也迎来了全新版本6.83c,本次的新版本也是亮点多多,除了加入万众期待的英雄“寒冬飞龙”之外,冰女MM的全新至宝也一并公开,相信届时又有大批土豪会为自己的冰女换上漂亮的装扮。除...

dota2imba虚空假面攻略 dota2虚空假面出什么装备

本文由17173DOTA2特约作者[41酱]原创提供,未经许可禁止转载。节奏快,人头多,就是干是他的标签,比起有着冗长无聊的farm时间的普通模式,来一场imba绝对可以战个痛快。200人头?那只是起...

OMG模式中,你拿到这些技能就赢了一半

?技能征召(OMG)是什么?技能征召是DOTA2中普通匹配的一种模式,与全英雄选择、加速模式、随机征召并列,在点击“开始DOTA”后选择普通匹配可以勾选。该模式偏娱乐,可以自由组合搭配自己的技能,刚接...

DOTA2编辑器开放 米米亚将制作DOTA2版IMBA

今天(8月7日)上午,IceFrog在微博发布消息,称V社官方发布了DOTA2自定义游戏制作工具——Dota2WorkshopToolsAlpha供广大开发者使用[本站相关报道],这可能是一个在...

以现在的眼光来看,dota中最离谱的英雄是谁?老玩家:27技能卡尔

哈喽大家好,这里是蜻蜓队长Zwj。大家应该都知道,dota1远古时期中的很多英雄都是很imba的(成长或技能),而在聊起远古时期中最离谱的英雄时队长就想到了手握27个不同技能的召唤师。召唤师/祈求者聊...

Dota2:美女解说公然辱骂Ti冠军队,被教育不知悔改,遭Imba开除

近期国内外的刀圈,最重要的赛事可以说是DPC联赛第二赛季的比赛了,国内的S级联赛方面竞争还是非常激烈的,一度出现了6支战队同为2胜2负的盛况,茶队这边近期状态不错取得了4连胜高举榜首,SAG难求一胜,...

DOTA2采访EG.Cr1t-:无敌斩斩莲花很糟糕!最大的对手就是VG

北京时间11月21日,MDL成都Major媒体日上EG战队EG.Cr1t-接受我们采访。采访中他对于昨天剑圣斩莲花感到非常难受,并且认为VG就是他们本次比赛最大的对手。Q:对于EG在这次Major的...