bs4爬虫的一点心得----坑

bs4 里提取a标签里的坑啊

今天遇到了一个很坑的事情

使用bs4（全称：BeautifulSoup）提取一个网页里所有a标签里的href属性

比较坑的地方是这个网页里有的a标签里没有href属性，所以一运行循环提取a标签的href就可劲的报错，搞得人很焦灼

我尝试用控制循环的次数和字符串的替换来跳过这个坑。

你懂的

都失败了

最后

我将提取href的方式从[‘href’]改为get(‘href’)就逃过这个坑！！！！！！

这个bug！！！好坑！！！

bs4爬虫的一点心得----坑的相关教程结束。

《bs4爬虫的一点心得----坑.doc》

下载本文的Word格式文档，以方便收藏与打印。

相关推荐

Python网络爬虫实战案例之：7000本电子书下载（2）

一、前言本文是《Python开发实战案例之网络爬虫》的第二部分：7000本电子书下载网络爬虫开发环境安装部署。配套视频课程详见51CTO学院。二、章节目录（1）Python开发环境依赖（2）Python依赖程序安装（3）Requ...
2024-03-14编程代码00,000,python,爬虫
如何解决bs4在Python 3.6下出现“ImportError: cannot import name 'HTMLParseError'错误问题

本篇文章为大家展示了如何解决bs4在Python 3.6下出现“ImportError: cannot import name 'HTMLParseError'错误问题，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有...
2024-03-14编程代码bs4,ImportError,python
python爬虫爬取笔趣网小说网站过程图解

首先：文章用到的解析库介绍 BeautifulSoup： Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不...
2023-10-28编程代码python,爬取,爬虫
scrapy爬虫如何爬取javascript内容

本篇文章给大家分享的是有关scrapy爬虫如何爬取javascript内容，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。很多网站都使用javascript......
2023-10-27编程代码javascript,scrapy,爬虫
python使用selenium实现爬虫知乎

本篇文章为大家展示了python使用selenium实现爬虫知乎，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。说起爬虫一般想到的情况是，使用 python 中都通过 requests 库...
2023-10-27编程代码python,selenium,爬虫
爬虫之header

有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers 的属性。首先，打开我们的浏览器，调试浏览器F12，我用的是Chr...
2023-10-27编程代码header,python,爬虫
【爬虫+数据清洗+可视化】用Python分析“淄博烧烤“的评论数据

目录一、背景介绍二、爬虫代码 2.1 展示爬取结果 2.2 爬虫代码讲解三、可视化代码 3.1 读取数据 3.2 数据清洗 3.3 可视化 3.3.1 IP属地分析-柱形图 3.3.2 评论时间分析-折线图 3.3.3 点赞数分布-箱线图 3.3.4 ...
2023-07-29编程代码数据,淄博,爬虫
python爬虫防止IP被封的一些措施(转)

python爬虫防止IP被封的一些措施(转) 在编写爬虫爬取数据的时候，因为很多网站都有反爬虫措施，所以很容易被封IP，就不能继续爬了。在爬取大数据量的数据时更是瑟瑟发抖，时刻担心着下一秒IP可能就被封了。本文...
2023-07-29编程代码python,措施,爬虫