python去除特殊字符_python去除BOM头\ufeff等特殊字符
1.\ufeff 字節順序標記
去掉\ufeff,只需改一下編碼就行,把UTF-8編碼改成UTF-8-sig
with open(file_path, mode='r', encoding='UTF-8-sig') as f:
s = f.read()
2.\xa0 是不間斷空白符
\xa0 是不間斷空白符 ?
我們通常所用的空格是 \x20 ,是在標準ASCII可見字符 0x20~0x7e 范圍內。
而 \xa0 屬于 latin1 (ISO/IEC_8859-1)中的擴展字符集字符,代表空白符nbsp(non-breaking space)。
latin1 字符集向下兼容 ASCII ( 0x20~0x7e )。通常我們見到的字符多數是 latin1 的,比如在 MySQL 數據庫中。
去除\xa0
str.replace(u'\xa0', u' ')
3.\u3000 是全角的空白符
根據Unicode編碼標準及其基本多語言面的定義, \u3000 屬于CJK字符的CJK標點符號區塊內,是空白字符之一。它的名字是 Ideographic Space ,有人譯作表意字空格、象形字空格等。顧名思義,就是全角的 CJK 空格。它跟 nbsp 不一樣,是可以被換行間斷的。常用于制造縮進, wiki 還說用于抬頭,但沒見過。
去除\u3000
str.replace(u'\u3000',u' ')
去除空格和\xa0、\u3000
title.strip().replace(u'\u3000', u' ').replace(u'\xa0', u' ')
總結
以上是生活随笔為你收集整理的python去除特殊字符_python去除BOM头\ufeff等特殊字符的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: hrbust/哈理工oj 1475国王的
- 下一篇: ZeroC ICE的远程调用框架 ASM