漢字的特點使我們碰到了兩個基本且又非常重要的概念,即全角與半角。形象的說,在使用英文輸入法時,電腦屏幕上,一個英文字符(如a)所占的位置,人們稱其為半角,而一個漢字所占的位置則等於兩個英文字符,故稱其為全角。
英文輸入法下,無論是輸入字母、符號還是數字,始終都只占一個英文字符的位置,即半角。但在中文輸入法下,則會有全角半角兩種選擇,對中文字符來說,這兩種選擇對其沒有影響,它始終都要占兩個英文字符的位置,但對此狀態下輸入的符號、數字以及英文字母來說,就顯得很重要,如以下所示:
china
china
前者輸入選擇的是半角,後者為全角。在選擇全角後,即便是字母、符號、數字都無一例外地要被當成漢字進行處理,視覺上看,由於它們占兩個英文字符的位置,顯得別扭了許多。
Ansi多字節字體集在中文(漢字、中文符號)下即GBK編碼,英文(英文字母、英文符號)下為ASCII碼,一般來說,Ansi編碼的文本便於程序的處理。對文本中字符串操作前,建議統一使用全角或半角。比如全角的空格“”(對應的GBK編碼A1A1),而半角的空格 對應的ASCII編碼為\x20),如果文本中混合使用,要查找空格位置或按空格分割段落時,顯然兩種空格會帶來不必要的麻煩。文本中的內容可分為以下四類:
分類 解釋 轉化方法 漢字以及中文字符 如:“中國”、“好”等漢字和“……”“——”等中文中的特有符號,這些只能是全角,不存在轉化的問題 NULL 英文字母與英文符號 指ASCII表中33-126對應的字符,如:!*+012abc{}等。它們有全角和半角兩種形式,例如上述的china與china 半角轉全角:前添加字節A3,原字節最高位置1由此,全角轉半角的程序如下
<iostream><fstream><> std:: sbc_high = -; sbc_space = -; SBC2DBC( & dbc = len = ( i=; i<len; ++ (sbc[i] > ) (sbc[i] == sbc_high) , sbc[i+]& (sbc[i]==sbc_space && sbc[i+]==sbc_space) , += sbc.substr(i, ++
半角轉全角的程序如下
DBC2SBC( & sbc = len = ( i=; i<len; ++ (dbc[i] < ) += dbc.substr(i, ++ (dbc[i] == ) += (dbc[i]>= && dbc[i]<=) , dbc[i]|, dbc[i]);
處理一個文本轉化的示例程序如下
ProcessFile( * strLine = strResult = (!+= strLine+= SBC2DBC (strResult);
在實際的工作中,可能碰到unicode編碼的文本。在這種情況下,半角與全角的轉化過程與上述方法一致,只需要處理“英文字母與英文符號”和“空格”即可。當然,unicode編碼下,所有字符都用兩個字節表示,如半角的空格為\x0020,全角的空格為\x3000,(unicode編碼詳見:http://www.cnblogs.com/houkai/archive/2013/06/04/3116955.html),這樣避免了字符的添加或丟棄,處理更為簡單。如需Unicode編碼表,可下載。 轉化方法:
a.全角空格為12288,半角空格為32
b.其他字符半角(33-126)與全角(65281-65374)的對應關系是:均相差65248
程序實現比較簡單,以UTF8轉ANSI中的changeTxtEncoding函數為基礎,改寫後示例如下:
* changeTxtEncoding(* wcsLen = ::MultiByteToWideChar(CP_UTF8, NULL, szU8, -, NULL, * wszString = - ( i=; i<wcsLen; i++(wszString[i]==) = ( (wszString[i]>=) && (wszString[i]<=) ) -= ansiLen = ::WideCharToMultiByte(CP_ACP, NULL, wszString, -, NULL, , NULL, NULL); * szAnsi = -