bs4 里提取a标签里的坑啊
今天遇到了一个很坑的事情
使用bs4(全称:BeautifulSoup)提取一个网页里所有a标签里的href属性
比较坑的地方是这个网页里有的a标签里没有href属性,所以一运行循环提取a标签的href就可劲的报错,搞得人很焦灼
我尝试用控制循环的次数和字符串的替换来跳过这个坑。
你懂的
都失败了
最后
我将提取href的方式从[‘href’]改为get(‘href’)就逃过这个坑!!!!!!
这个bug!!!好坑!!!
使用bs4(全称:BeautifulSoup)提取一个网页里所有a标签里的href属性
《bs4爬虫的一点心得----坑.doc》
下载本文的Word格式文档,以方便收藏与打印。
本篇文章为大家展示了如何解决bs4在Python 3.6下出现“ImportError: cannot import name 'HTMLParseError'错误问题,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有...
2024-03-14编程代码bs4,ImportError,python本篇文章给大家分享的是有关scrapy爬虫如何爬取javascript内容,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。 很多网站都使用javascript......
2023-10-27编程代码javascript,scrapy,爬虫