程序師世界是廣大編程愛好者互助、分享、學習的平台，程序師世界有你更精彩！


設為首頁	加入收藏

首頁
編程語言: C語言|JAVA編程
 Python編程
網頁編程: ASP編程|PHP編程
 JSP編程
數據庫知識: MYSQL數據庫|SqlServer數據庫
 Oracle數據庫|DB2數據庫

程式師世界 >> 編程語言 >> 更多編程語言 >> Python >> Python處理中文的時候的一些小技巧

Python處理中文的時候的一些小技巧

編輯：Python

相信第一次處理中文的朋友們可能都會對中文的encoding 和程序的報錯很頭疼。

如果你像我一樣希望能夠把事情盡快做好而不去深究，你可能會寫一些異常處理的代碼把 UnicodeEncodingError糊弄過去先，但當你開始懷疑有多少encoding出錯的信息被你丟棄的時候，可能你會很驚奇。於是，你還是會想坐下來，（洗把臉）然後面對自己必須弄懂什麼是utf-8，什麼是 ‘gb2312’，什麼是 ‘gbk’ 和其中的貓膩。正如有時候猛撕小傷口上邦迪膠布的快感一樣，有時候當你認真面對一些你平時一直回避的問題的時候（其實有時候需要的不是勇氣），你反而會覺得“不過如此”，並且能夠一勞永逸的解決問題。

關於Python處理Unicode，我所能找到的最言簡意赅的入門教程是：

Unicode In Python, Completely Demystified （揭秘Python Unicode）

簡要羅列一下最重要最實用的點：

Solution

Decode early （盡早decode, 將文件中的內容轉化成 unicode 再進行下一步處理)

Unicode everywhere (程序內部處理都用unicode)

Encode late (最後encode回所需的encoding, 例如把最終結果寫進結果文件)

1. Decode early

Decode to <type ‘unicode’> ASAP

>>> def to_unicode_or_bust(

…         obj, encoding=’utf-8′):

…     if isinstance(obj, basestring):

…         if not isinstance(obj, unicode):

…             obj = unicode(obj, encoding)

…     return obj

…

>>>

detects if object is a string and if so converts to unicode, if not already.

2. Unicode everywhere

>>> to_unicode_or_bust(ivan_uni)

u’Ivan Krsti\u0107′

>>> to_unicode_or_bust(ivan_utf8)

u’Ivan Krsti\u0107′

>>> to_unicode_or_bust(1234)

1234

3. Encode late

Encode to <type ‘str’> when you write to disk or print

>>> f = open(‘/tmp/ivan_out.txt’,’w’)

>>> f.write(ivan_uni.encode(‘utf-8′))

>>> f.close()

我以前一直覺得unicode相關的處理都是很 dirty 的工作，一般都會一邊嘗試，一邊用異常處理去補丁，看完以上這個教程以後豁然開朗。

祝大家也能早日理清處理中文的時候的頭緒，坦然直面“神秘”的unicode

上一頁:學習使用python打包工具distutils
下一頁:Python腳本如何對文件通配符匹配

Python

通過view實現字段的只讀、隱藏操作

在OpenERP V7視圖（ir.ui.view）多了一個非

PYTHON解析XML的多種方式效率對比實測

在最初學習PYTHON的時候，只知道有DOM和SAX兩種解析

python 的文件類型

文件類型1：源代碼Python源代碼文件以“py”為擴展名，

brew安裝錯誤:/usr/local/include is not writable

在Mac上使用brew命令安裝東西，提示/us

python內置模塊(4)

這一部分是python內置模塊系列的最後一部分，介紹了一些小

如何用python的裝飾器定義一個像C++一樣的強類型函數

Python作為一個動態的腳本語

相關文章

閱讀排行榜

python字符串的encode和decode 如何使用supervisord來管理process centos5.5下搭建python開發運行環境 Python處理海量手機號碼 sys.argv[] 的使用詳解得到一張圖片或logo的主要顏色（顏色趨向）python版改寫《python基礎教程》中的一個例子 python是c語言開發的記錄規則 – 銷售只能看到自己的客戶，經理可以看到全部 PHP調用python模塊的方法 python內置模塊(3)

熱門圖文

在php和MySql中計算時間差的方法 Java二進制兼容性原理 new-link制作課程表，這個程序修改後還是有時會出現體育課在第一節，請問哪裡錯了 c++-ado 連接數據庫，能從異常或者返回值裡區分出異常產生的原因嗎 php+js 實現瀑布流效果 email-在android，使用JavaMail API發送郵件，而不使用默認的/內置的應用程序。 c# 數據庫編程（通過SqlCommand 執行數據庫查詢）網站被攻擊php防止辦法

欄目導航

匯編語言 Delphi Groovy WebSphere Rational Python Ruby 編程解疑編程綜合問答更多關於編程編程問題解答

Copyright © 程式師世界 All Rights Reserved