Python2 下 Unicode 的一个小bug

关于Python的编码问题已经是老生常谈了，此处主要是介绍一个罕见的问题，也算是Python2的一个bug了（Python3不会有此问题）。

在有时候我们去爬取网页或者调用一些第三方库获取文本的时候，有可能会出现这样一种情况：

 invalid_str = u"\xbd\xf4\xb4\xd5\xd0\xcd\xb3\xb5"

在一个unicode对象里内容居然是GBK的编码！这时候无论你怎么encode或decode，要么是抛错，要么是乱码。

实际上这种情况不应该出现的，在Python3里这种情况是不合法的会抛错。但Python2容许了其存在，就造成了很多问题。

解决办法很简单，一个小trick，利用"latin-1"编码的特殊性:

 unicode_str = invalid_str.encode('latin-1').decode('gbk')

这时候的 unicode_str 便是合法的unicode对象了，print一下就能看到你所期待的结果了！

Python2 下 Unicode 的一个小bug的相关教程结束。

《Python2 下 Unicode 的一个小bug.doc》

下载本文的Word格式文档，以方便收藏与打印。

相关推荐

解Bug之路-应用999线升高

前言监控指标诚然是发现问题于微末之时的极佳手段，但指标往往有其表达的极限。在很多情况下，单独看一个黄金指标并不能表征系统的健康程度，反而有可能被其迷惑，进而忽略相关问题。(本文所提及的Linux Kernel...
2023-07-11编程代码BUG,之路,升高
python2和3同时用pip的方法

这篇文章将为大家详细讲解有关python2和3同时用pip的方法，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。当Python2和Python3同时存在于windows上时，它们对应的pip都叫pip...
2023-06-26编程教程pip,python2,同时
从bug中学习怎么写代码

博客搬到了fresky.github.io - Dawei XU，请各位看官挪步。最新的一篇是：从bug中学习怎么写代码。从bug中学习怎么写代码的相关教程结束。
2023-06-25编程教程BUG,代码,学习
如何分析Python unicode编码问题

如何分析Python unicode编码问题，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。这个问题在python3.0里已经解决了。这有篇很好的文章，可以...
2023-06-25编程教程python,Unicode
Perl Unicode的示例分析

这篇文章将为大家详细讲解有关Perl Unicode的示例分析，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。 Perl Unicode全攻略本文内容适用于perl5.8及其以上版本. perlintern...
2023-06-25编程教程Perl,Unicode
MySQL中怎么获取中文unicode编码

今天就跟大家聊聊有关MySQL中怎么获取中文unicode编码，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。 SELECT ORD(CONVERT('中' USING ...
2023-06-25编程教程mysql,Unicode
ASCII、Unicode、UTF-8编码问题实例分析

本篇内容介绍了“ASCII、Unicode、UTF-8编码问题实例分析”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！...
2023-06-25编程教程ASCII,Unicode,utf-8
Swift字符unicode编码

1、字符在C# Object语言中，字符放在单引号(')之间，但是在swift语言中，必须把字符放在双引号之间；（1）unicode编码 ...
2023-06-25编程教程Unicode,字符,编码