抓取网页用normalize-space出现特殊符号两种方法解决

xpath抓取数据值有\r\n\t时去掉的方法：https://blog.csdn.net/z564359805/article/details/101597953

抓取网页含\r \t \n时,用normalize-space出现特殊符号有时候并不会成功，例如：['商家 \xa0厦门有限公司']，'\xa0'在网页源码中是' '，可以用如下方法：

方法一：修改response这种方法是修改网页代码里面的数据，'\xa0'在网页源码中是' ',个人觉得毕竟不是筛选后的数据，修改时间会比较长

def parse(self,response):
    # 修改网页代码里面的数据
    response = response.replace(body=response.text.replace('&nbsp;',''))
    order_company = response.xpath('normalize-space(//*[@id="to"]/tbody/tr/td[3]/a/text())').extract()
    item['order_company'] = order_company[0].strip()

方法二：在选择出需要的item数据传递时候直接替换

item['order_company'] = order_company[0].replace("\xa0", "").strip()

本文地址：https://blog.csdn.net/z564359805/article/details/107085872

《抓取网页用normalize-space出现特殊符号两种方法解决.doc》

下载本文的Word格式文档，以方便收藏与打印。

相关推荐

.Net Core 3.0 对 MongoDB 的多条件查询（两种）操作

前言在日常开发中，偶尔会用到 MongoDB 的数据操作，也花费了一些时间调试，因此在此处记录一下，共同进步。废话少说，出招吧！正文 2.1 准备工作首先需要引入 .Net 平台链接 MongoDB 的动态库：MongoDB.Dr...
2023-08-02编程代码两种,多条,操作
js 关于 replace 取值、替换第几个匹配项（两种方式：正则、普通字符串操作）

〇、前言在日常开发中，经常遇到针对字符串的替换、截取，知识点比较碎容易混淆，特此总结一下，仅供参考。一、替换第一个匹配项字符串替换 let strtest = "0123测试replace456测试replace789测试replace0" co...
2023-08-02编程代码两种,几个,正则
解决：Invalid HTTP_HOST header: '192.168.56.1:8001'. You may need to add '192.168.56.1' to ALLOWED_HOSTS.

在setting.py下的ALLOWED_HOSTS=['*']添加‘*’就可以解决显示不出来的问题。解决：Invalid HTTP_HOST header: '192.168.56.1:8001'. You may need to add '192.168.56.1' to ALLOWED_HOSTS....
2023-08-01编程代码HTTP_HOST,invalid,解决
【Redis】-使用Lua脚本解决多线程下的超卖问题以及为什么？

一.多线程下引起的超卖问题呈现1.1.我先初始化库存数量为1、订单数量为0 1.2.开启3个线程去执行业务业务为：判断如果说库存数量大于0，则库存减1，订单数量加1 结果为：库存为-2，订单数量为3 原因：如下图所示...
2023-08-01编程代码多线程,脚本,解决
解决SQL命令行回退的问题

场景在linux或者aix上安装后Oracle后，在SQL命令行下无法通过键盘的退格键回退，如下解决方法安装软件 # rpm -ivh rlwrap-0.41-1.el6.x86_64.rpm warning: rlwrap-0.41-1.el6.x86_64.rpm: Header V3 RSA/SHA2...
2023-07-31编程代码SQL,命令行,解决
drf——序列化之source(了解)、定制字段的两种方式(重要)、多表关联反序列化保存、反序列化字段校验、ModelSerializer使用

1 序列化高级用法之source(了解) # 1.创建了5个表(图书管理的5个) # 2.对book进行序列化 # 总结:source的用法 1.修改前端看到的字段key值--->source指定的必须是对象的属性 book_name = serialiazers.C...
2023-07-31编程代码两种,字段,序列化
Java SpringMVC实现PC端网页微信扫码支付完整版

一：前期微信支付扫盲知识前提条件是已经有申请了微信支付功能的公众号，然后我们需要得到公众号APPID和微信商户号，这个分别在微信公众号和微信支付商家平台上面可以发现。其实在你申请成功支付功能之后，微信...
2023-07-30编程代码完整版,支付,网页
问题解决：TNS-12543: TNS:destination host unreachable

环境： 11.2.0.3 ADG (db11g\db11gadg\db11gcas) 在自己先前克隆后的环境互相tnsping报错。 tnsping 本机ok，tnsping其他机器均报错： [oracle@db11g ~]$ tnsping jingyu TNS Ping Utility for Linux: Version 1...
2023-07-30编程代码destination,TNS,解决