Selenium爬虫实践:ajax请求抓包、浏览器退出
ninehua 2024-12-06 18:08 13 浏览
前言
最近在搞公司内部系统,累的一批,需要从另一个内部系统导出数据存到数据库做分析,有大量的数据采集工作,又没办法去直接拿到那个系统的接口,太难了,只能爬虫,但是cookie还经常失效,为了不每次登录失效就来找我重新注入Cookie,我写了一个手机版的网页,用来控制后台的selenium自动登录,截取token和cookie。
ajax请求抓包方案
搜索资料的过程真的痛苦,不过还好这时间没有白花,最终还是解决了问题……
根据找到的资料,有以下几种方法可以在Selenium中抓取ajax请求中的数据。
·使用本地代理:browsermob-proxy
· 使用selenium的执行js功能注入 ajax hook 并执行,然后本地开一个服务器接收拦截到的ajax数据
· 用第三方库selenium-wire,这个是一个GitHub上的开源项目,可以直接截取response_code和body,原理应该走的也是代理
· 开启selenium的性能抓取,在性能日志里面可以做改动,以拦截response_body
使用本地代理
本文使用Browsermob-Proxy这个代理服务器,这个是用Java写的,有一个python封装的接口包可以方便交互……
先去下载:https://github.com/lightbody/browsermob-proxy/releases
安装python包:
pip install browsermob-proxy
在代码中使用,这里我截取了项目的部分代码,随便看看就好了,完整代码可以看官网文档或者参考资料~
有几个需要注意的坑的地方,我在代码中标出了。
# 创建代理服务器
self.server = Server(
# Windows就是bat,如果Linux就是另一个不带后缀名的
r'path\bin\browsermob-proxy.bat',
# 这里可以自定义端口
options={'port': 9090}
)
# 这里启动服务器,等会机会要关掉,不然下次用就端口占用冲突了
self.server.start()
# 注意这里一定要 trustAllServers 不然等会selenium会报 error_tunnel 错误
self.proxy = self.server.create_proxy(params={'trustAllServers': 'true'})
# 设置selenium的代理
options = ChromeOptions()
options.add_argument('--ignore-certificate-errors')
options.add_argument(f'--proxy-server={self.proxy.proxy}')
self.driver = webdriver.Chrome(options=options)
使用代理来进行抓包,我这个项目需要在ajax请求的header里面提取出token和cookie,截取了关键部分的代码如下:
self.proxy.new_har('抓包名称 自己起一个', options={'captureHeaders': True, 'captureContent': True})
# 找到需要点击的元素
elem_query = self.driver.find_element_by_css_selector(elem_css_selector)
elem_query.click()
# 点击按钮后等待 并把数据取出来
time.sleep(5)
result = self.proxy.har
data = {}
for entry in result['log']['entries']:
url = entry['request']['url']
# 根据URL找到数据接口
if 'xxx/query' in url:
_response = entry['response']
_content = _response['content']['text']
for item in entry['request']['headers']:
# 提取出header里面的 token
if item['name'] == 'Authorization':
data['authorization'] = item['value']
# 提取出header里面的 cookie
if item['name'] == 'Cookie':
data['cookie'] = item['value']
break
print(data)
以上代码同样不是完整代码,不过已经将具体抓包的过程完整表达出来,需要的同学可以根据自己的实际需求进行编码,只要能抓到数据,一切都好说~
浏览器和代理服务器退出
这个没啥好写的,但是也有一个小坑,水一下吧~
从上面的代码里也可以看出来,我写了一个类来操作Selenium,程序执行完了肯定要把代理和服务器关了,不然selenium会留着一个 chromedriver.exe 的进程在后台占用资源,时间一长,系统内存都满了。
我在类的__del__方法中加入了关闭代理服务器和浏览器的代码,如下:
def __del__(self):
print('SeleniumFxxkUnicom has been deleted.')
self.proxy.close()
self.server.stop()
for win in self.driver.window_handles:
self.driver.switch_to.window(win)
self.driver.close()
os.system('taskkill /im chromedriver.exe /F')
注意这个循环的driver.close(),在__del__里是没办法正常执行driver.quit()的,按理说quit才是最好的退出方法,但是他还要导入什么鬼乱七八糟的模块,导致我在这个__del__里执行失败,于是只好曲线救国,先把全部标签页关闭,然后用系统命令结束掉进程……
相关推荐
- DOTA7.22版本更新了什么 7.22版本更新内容一览
-
[海峡网]《DOTA2》7.22版本近日上线了,7.22版本后DOTA2迎来了全面A杖时代,而某些英雄的A杖效果过于IMBA,导致冰娃很快发布了新补丁7.22b,一起来看看吧。7.22b削弱了当前一些...
- 网易电竞平台发布首款游戏DOTA 六大革新机制首曝
-
网易首款专业电竞平台今日对外发布,并宣告将于6月20日正式开启首轮精英测试,首款平台游戏则是大名鼎鼎的DOTA。网易电竞平台作为国内最专业的新一代电子竞技游戏平台,致力于为电子竞技玩家提供更稳定、更快...
- 水友吐槽最失望的全明星 冷板凳的选手们
-
本次全明星采取主持人随机现场观众,报喜爱的选手名字进行10V10比赛,然而很多人气选手均没有上场的机会,国外水友粉粉吐槽应该改善投票方式Handa711:V社的套路需要改变一下了。这次全明星太逊。Sl...
- Dota2:NB假赛事件再起风波,中单AQ直接自爆,茶队被牵连其中
-
就在前一天,一则消息的传出,让整个Dota2圈子甚至是电竞圈都感到意外:TI4冠军、TI7亚军得主Newbee战队,涉嫌打假赛从中获利,被CDA联盟以及IMBA传媒共同出面,将其永久封禁,禁止参加CD...
- DOTA的世界,LOL玩家你不懂! dota?
-
◆IntroductionDOTA玩家与LOL玩家究竟有什么不同,看完你就知道了,不要有任何优越感哦,都是玩游戏的,没必要!....暗牧对蛮王说:给自己5秒的人永远不是真男人。龙骑对龙姬说:你身上流的...
- Dota2:肉核体系已完全没落?刚被、混沌、幽鬼等英雄胜率垫底
-
哈喽大家好,这里是蜻蜓队长Zwj。想必大家都能感觉得到,越是大赛职业战队们就越偏爱刚被、潮汐、斧王、幽鬼这种进可攻退可守的肉核型英雄;而在7.30更新后,这些英雄却几乎绝迹了。下面,就让队长带大家一起...
- 探访上海IMBA电竞体验中心 电子竞技高手荣誉相册引人注目
-
来源:环球网2021年5月10日,上海,探访世界级电子竞技品牌赛事之一“SL-iS7CS:GO群星联赛”举办地IMBA电竞体验中心,整排的电竞职业高手荣誉相册和手模吸引眼球。作为普陀区首个设在商业...
- dota2IMBA Tinker修补匠进阶攻略 dota修补匠外号
-
他曾经是某个版本第一无解后期,刷新BKB骑脸的感觉,酸爽。但是随后的版本更新在刷新下面加了一行小字,不可以刷新BKB,tinker修补匠就再次跌下神坛。也许你是tinker的忠实粉丝,也许你怀念那个B...
- 《DOTA2》新版本6.83c降临:寒冬飞龙登场、斧王遭削弱
-
新年将至,《DOTA2》也迎来了全新版本6.83c,本次的新版本也是亮点多多,除了加入万众期待的英雄“寒冬飞龙”之外,冰女MM的全新至宝也一并公开,相信届时又有大批土豪会为自己的冰女换上漂亮的装扮。除...
- dota2imba虚空假面攻略 dota2虚空假面出什么装备
-
本文由17173DOTA2特约作者[41酱]原创提供,未经许可禁止转载。节奏快,人头多,就是干是他的标签,比起有着冗长无聊的farm时间的普通模式,来一场imba绝对可以战个痛快。200人头?那只是起...
- OMG模式中,你拿到这些技能就赢了一半
-
?技能征召(OMG)是什么?技能征召是DOTA2中普通匹配的一种模式,与全英雄选择、加速模式、随机征召并列,在点击“开始DOTA”后选择普通匹配可以勾选。该模式偏娱乐,可以自由组合搭配自己的技能,刚接...
- DOTA2编辑器开放 米米亚将制作DOTA2版IMBA
-
今天(8月7日)上午,IceFrog在微博发布消息,称V社官方发布了DOTA2自定义游戏制作工具——Dota2WorkshopToolsAlpha供广大开发者使用[本站相关报道],这可能是一个在...
- 以现在的眼光来看,dota中最离谱的英雄是谁?老玩家:27技能卡尔
-
哈喽大家好,这里是蜻蜓队长Zwj。大家应该都知道,dota1远古时期中的很多英雄都是很imba的(成长或技能),而在聊起远古时期中最离谱的英雄时队长就想到了手握27个不同技能的召唤师。召唤师/祈求者聊...
- Dota2:美女解说公然辱骂Ti冠军队,被教育不知悔改,遭Imba开除
-
近期国内外的刀圈,最重要的赛事可以说是DPC联赛第二赛季的比赛了,国内的S级联赛方面竞争还是非常激烈的,一度出现了6支战队同为2胜2负的盛况,茶队这边近期状态不错取得了4连胜高举榜首,SAG难求一胜,...
- DOTA2采访EG.Cr1t-:无敌斩斩莲花很糟糕!最大的对手就是VG
-
北京时间11月21日,MDL成都Major媒体日上EG战队EG.Cr1t-接受我们采访。采访中他对于昨天剑圣斩莲花感到非常难受,并且认为VG就是他们本次比赛最大的对手。Q:对于EG在这次Major的...