博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python 爬虫(起点)网络小说
阅读量:1946 次
发布时间:2019-04-27

本文共 891 字,大约阅读时间需要 2 分钟。

1 先确定要爬取的小说是get 请求换是post 请求

1.1先在网站上打开一篇小说:

1.2 f12 进去开发者模式

1.3 切换到NetWork 发现有一个空白,可以点击左侧的小说内容

 NetWork 中间有没有连接的,我是重新打开然后重新f12 查看

一般都是可以看到Name 下面有连接的

确认是get 请求之后,先确认电脑上是否下载2个工具   requests(负责连接网站处理http 协议) 和 bs4(bs4负责将网页变成结构化数据)

没有的话可以下载 终端中使用 pip install requests , pip install beautifulsoup4 下载,或者使用其他工具easy_install 下载

准备好之后开始写代码,

下面代码都有注释,代码很少就不多说了,

# 负责连接网站处理http 协议import requests# bs4负责将网页变成结构化数据from bs4 import BeautifulSoupdef getContent():    # 定义一个url    url = "https://read.qidian.com/chapter/tlBx1lEZoo3djrstIrF5-w2/-hwjPfM_yFT6ItTi_ILQ7A2"    # 获取网页的url    req_url = requests.get(url)    # 获取网页html信息    req_html = req_url.text    # bs4 处理    bs_obj = BeautifulSoup(req_html, "html.parser")    # find_all 匹配 div 和 class    texts = bs_obj.find_all("div", class_="read-content j_readContent")    # 使用text属性 过滤文字    print(texts[0].text)if __name__ == "__main__":    getContent()

运行效果如下

 

转载地址:http://lrfif.baihongyu.com/

你可能感兴趣的文章
数据库系列篇mysql8-分库分表中间件mycat(WINDOWS环境)
查看>>
用户权限设计-基于RBAC模型
查看>>
微服务springcloud2系列篇-网关GATEWAY跨域问题
查看>>
微服务springcloud(H版本)与springboot(2.X版本) maven常见问题整理记录
查看>>
Java并发以及多线程基础
查看>>
软件质量的8个特性
查看>>
应届渣渣前端的艰难求职之路
查看>>
2021年不可错过的17种JS优化技巧(一)
查看>>
2021年不可错过的17种JS优化技巧(二)
查看>>
月薪15~20k的前端面试问什么?
查看>>
一文学会使用Vue3
查看>>
我是如何看Vue源码的
查看>>
在 Vue 中用 Axios 异步请求API
查看>>
LVM逻辑卷------基础命令详解(三分钟入门)
查看>>
LVM逻辑卷------详细操作过程(三分钟上手)
查看>>
mysql——介绍及安装与基本用法
查看>>
MySQL数据库之索引
查看>>
MYSQL——事务操作+视图+存储引擎
查看>>
Mysql——完全备份+增量备份+备份恢复
查看>>
MySQL进阶查询(SELECT 语句高级用法)
查看>>