百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 软件资讯 > 正文

手把手教你使用Python网络爬虫下载一本小说(附源码)

ninehua 2025-02-19 13:20 6 浏览

大家好,我是Python进阶者。

前言

前几天【磐奚鸟】大佬在群里分享了一个抓取小说的代码,感觉还是蛮不错的,这里分享给大家学习。


一、小说下载

如果你想下载该网站上的任意一本小说的话,直接点击链接进去,如下图所示。

只要将URL中的这个数字拿到就可以了,比方说这里是951,那么这个数字代表的就是这本书的书号,在后面的代码中可以用得到的。


二、具体实现

这里直接丢大佬的代码了,如下所示:

# coding: utf-8
'''
笔趣网小说下载
仅限用于研究代码
勿用于商业用途
请于24小时内删除
'''
import requests
import os
from bs4 import BeautifulSoup
import time




def book_page_list(book_id):
    '''
    通过传入的书号bookid,获取此书的所有章节目录
    :param book_id:
    :return: 章节目录及章节地址
    '''
    url = 'http://www.biquw.com/book/{}/'.format(book_id)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}
    response = requests.get(url, headers)
    response.encoding = response.apparent_encoding
    response = BeautifulSoup(response.text, 'lxml')
    booklist = response.find('div', class_='book_list').find_all('a')
    return booklist




def book_page_text(bookid, booklist):
    '''
    通过书号、章节目录,抓取每一章的内容并存档
    :param bookid:str
    :param booklist:
    :return:None
    '''
    try:
        for book_page in booklist:
            page_name = book_page.text.replace('*', '')
            page_id = book_page['href']
            time.sleep(3)
            url = 'http://www.biquw.com/book/{}/{}'.format(bookid,page_id)
            headers = {
                'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}
            response_book = requests.get(url, headers)
            response_book.encoding = response_book.apparent_encoding
            response_book = BeautifulSoup(response_book.text, 'lxml')
            book_content = response_book.find('div', id="htmlContent")
            with open("./{}/{}.txt".format(bookid,page_name), 'a') as f:
                f.write(book_content.text.replace('\xa0', ''))
                print("当前下载章节:{}".format(page_name))
    except Exception as e:
        print(e)
        print("章节内容获取失败,请确保书号正确,及书本有正常内容。")




if __name__ == '__main__':
    bookid = input("请输入书号(数字):")
    # 如果书号对应的目录不存在,则新建目录,用于存放章节内容
    if not os.path.isdir('./{}'.format(bookid)):
        os.mkdir('./{}'.format(bookid))
    try:
        booklist = book_page_list(bookid)
        print("获取目录成功!")
        time.sleep(5)
        book_page_text(bookid, booklist)
    except Exception as e:
        print(e)
        print("获取目录失败,请确保书号输入正确!")

程序运行之后,在控制台输入书号,即可开始进行抓取了。

在本地也会自动新建一个书号命名的文件夹,在该文件夹下,会存放小说的章节,如下图所示。


三、常见问题

在运行过程中小伙伴们应该会经常遇到这个问题,如下图所示。

这个是因为访问太快,网站给你反爬了。可以设置随机的user-agent或者上代理等方法解决。


四、总结

我是Python进阶者。这篇文章主要给大家介绍了小说内容的获取方法,基于网络爬虫,通过requests爬虫库和bs4选择器进行实现,并且给大家例举了常见问题的处理方法。

小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。

相关推荐

鲁威地产携手贝壳找房 联手破解真房源难题

12月17日,威海鲁威地产总经理王壮在三十店齐开盛典上,面向全市购房者郑重承诺:公司全部经纪人在所有渠道发布的房源信息都是真实存在、真实在售、真实价格、真实图片,绝对不会存在虚假房源。12月17日,鲁...

大公国际决定将福建福晟集团主体信用等级由A+下调为C

新京报贝壳财经讯大公国际决定将福建福晟集团有限公司(以下简称“福晟集团”)主体信用等级由A+下调为C,“18福晟02”信用等级由A+调整为C、“18福晟03”、“19福晟01”及“19福晟02”的信...

贝壳找房加入“数字化转型伙伴行动”助力居住服务行业转型升级

来源:环球网综合5月13日,国家发展改革委联合17个部门以及互联网平台、行业龙头企业、金融机构等145家单位,共同启动“数字化转型伙伴行动”,发布“数字化转型伙伴行动”倡议。倡议提出,政府和社会各界联...

德勤亚太区高科技高成长500强出炉 “新居住”平台贝壳找房位列榜首

12月6日,全球最具权威的审计服务机构德勤正式揭晓了“2018年亚太区高科技高成长500强”评选结果,领先且垂直的全价值链房产服务平台贝壳找房(北京)科技有限公司以过去三年的高增长率位列榜首。贝壳找房...

1元起投蚂蚁新股 中签率比打新高百倍 剁手买它前得知道这些

能够一元起投蚂蚁集团的基金,将于9月25日开售。9月22日晚,华夏、易方达、鹏华、汇添富、中欧等5只创新未来18个月封闭运作混合型基金正式获得批文,募集限额均为120亿元。5只产品计划参与蚂蚁集团股票...

胖东来和东方甄选的酱油,为什么都在做“0添加”?

近日,“酱油茅”计划赴港上市的消息一经发布便引来诸多关注,有声音称这是新董事长上任后的“第一把火”,意在加速全球化布局;也有观点认为此举可能是为了响应政策导向。不过,无论何种分析方向,都在获得更多的关...

多路力量齐发力 加码护航保就业

来源:经济参考报领军企业加速“招兵买马”新经济成就业蓄水池位于“六保”之首的保就业,正迎来多路力量加码护航。《经济参考报》记者获悉,有关部门和地方近日频频部署,千方百计稳定和扩大就业,加强对重点行业...

因任职期限规定等原因,青岛银行12年董事长辞职,仍持65万股

新京报贝壳财经讯(记者黄鑫宇)6月8日,青岛银行股份有限公司(002948.SZ,03866.HK;下称“青岛银行”)发布公告称,因监管有关银行关键岗位任职期限的规定以及临近退休年龄,郭少泉辞去该行董...

债券黑洞②:多家券商卷入信用债违约“漩涡”债券发行潜规则揭秘

“信用债结构性发行此前是在灰色地带,大家都睁一只眼闭一只眼,市场好的时候皆大欢喜,各方受益。信用一旦分化,弱信用主体一定先倒霉。”业内人士表示。该来的还是来了,10月下旬以来,信用债违约的“灰犀牛”由...

居住服务数字化路径考:贝壳找房的大局观与“纵横术”

淘宝改变了一代人的消费习惯,美团引发用餐习惯和餐饮业态的剧变,滴滴则利用数字化调配出行资源。在“住”的领域,数字化又将触发什么样的变动?在这一过程中,虽然科技发展与用户习惯调整的大势有着重要影响,但行...

重组凉凉后国联大跌副总裁离职,国金回应正常,券商合并咋这么难

自9月下旬开始在市场引起轩然大波的国联证券与国金证券的合并计划,在10月12日晚以一纸“终止”公告而终结。双方先后称,由于交易关联方未能就本次重大资产重组方案的部分核心条款达成一致意见,故决定终止股权...

贝壳“佣金”再调查:3%为行业最低,中介行业透明化迫在眉睫

有律师指出,房产中介只能收取佣金,贷款服务费、评估费等都属于附属费用。这是二手房交易服务费混乱、不透明态势的最重要原因。取消贷款服务费,让房产中介行业透明化,迫在眉睫。...

“横店系”南华期货拟赴港IPO 业务重心将转向

基于深化全球战略布局的需要,南华期货拟赴港股上市。1月20日,南华期货宣布,公司拟赴港IPO。截至目前,公司正积极与相关中介机构就相关工作进行商讨,其他关于本次发行并上市的具体细节尚未确定。对于本次募...

贝壳找房ACN经纪人网络 “难以置信”的跨品牌联卖

第一个吃到蛋糕的人,滋味最值得分享。5月6日,武汉德佑A+系统在当地上线第三天,郑艳就成交了一单,房源来自链家网,在她看来,“这是以前想都不敢想的事情”。作为武汉德佑海上五月花店的经纪人,郑艳吃到了武...

破产重整!华晨集团命运落定,经历了怎样的“魔幻”三个月

“没听说,一切正常。”尽管华晨集团破产重整消息已在坊间传开,11月20日,华晨集团这样回应。当天,沈阳市中级人民法院20日裁定受理债权人对华晨汽车集团控股有限公司(以下简称华晨集团)重整申请,标志着这...