程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> C語言 >> C++ >> C++入門知識 >> 全角與半角的轉化,全角半角轉化

全角與半角的轉化,全角半角轉化

編輯:C++入門知識

全角與半角的轉化,全角半角轉化


1.全角與半角的區別

漢字的特點使我們碰到了兩個基本且又非常重要的概念,即全角與半角。形象的說,在使用英文輸入法時,電腦屏幕上,一個英文字符(如a)所占的位置,人們稱其為半角,而一個漢字所占的位置則等於兩個英文字符,故稱其為全角。
英文輸入法下,無論是輸入字母、符號還是數字,始終都只占一個英文字符的位置,即半角。但在中文輸入法下,則會有全角半角兩種選擇,對中文字符來說,這兩種選擇對其沒有影響,它始終都要占兩個英文字符的位置,但對此狀態下輸入的符號、數字以及英文字母來說,就顯得很重要,如以下所示:
china
china
前者輸入選擇的是半角,後者為全角。在選擇全角後,即便是字母、符號、數字都無一例外地要被當成漢字進行處理,視覺上看,由於它們占兩個英文字符的位置,顯得別扭了許多。

2.全角與半角的轉化

Ansi多字節字體集在中文(漢字、中文符號)下即GBK編碼,英文(英文字母、英文符號)下為ASCII碼,一般來說,Ansi編碼的文本便於程序的處理。對文本中字符串操作前,建議統一使用全角或半角。比如全角的空格“  ”(對應的GBK編碼A1A1),而半角的空格“ ”(對應的ASCII編碼為\x20),如果文本中混合使用,要查找空格位置或按空格分割段落時,顯然兩種空格會帶來不必要的麻煩。文本中的內容可分為以下四類:

分類 解釋 轉化方法 漢字以及中文字符 如:“中國”、“好”等漢字和“……”“——”等中文中的特有符號,這些只能是全角,不存在轉化的問題 NULL 英文字母與英文符號 指ASCII表中33-126對應的字符,如:!*+012abc{}等。它們有全角和半角兩種形式,例如上述的china與china 半角轉全角:前添加字節A3,原字節最高位置1
全角轉半角:丟棄第一個字節,第二個字節最高位置0 空格 ASCII碼的空格為\x20,GBK編碼的空格為A1A1 和英文字母和英文符號不同,這個要特殊對待 控制字符 指ASCII表中0-31的字符,用於控制文件格式。如回車換行便對應\x0D\x0A(CR LF),這部分只能是半角,不需轉化 NULL

由此,全角轉半角的程序如下

復制代碼
/*
 *作者:侯凱
 *說明:全角與半角相互轉化
 *日期:2013-6-9
 */
#include <iostream>
#include <fstream>
#include <string>
using std::string;
using namespace std;

const char sbc_high = -93; //全角字符的第一個字節為A3
const char sbc_space = -95; //全角空格為A1A1

//全角轉半角
string SBC2DBC(const string &sbc)
{
    string dbc = "";
    int len = sbc.length();
    for (int i=0; i<len; ++i)
    {
        if (sbc[i] > 0)    //已經是單字節字符,或者是控制字符
        {
            dbc.append(1, sbc[i]);
        }
        else
        {
            if (sbc[i] == sbc_high)    //全角的英文字母或全角英文符號,如!(A3A1)
            {
                dbc.append(1, sbc[i+1]&0x7f);
            }
            else if (sbc[i]==sbc_space && sbc[i+1]==sbc_space)    //單獨處理空格
            {
                dbc.append(1, ' ');
            }
            else //針對漢字以及~……等中文符號
            {
                dbc += sbc.substr(i, 2);
            }
            ++i;
        }
    }
    return dbc;
}
復制代碼

半角轉全角的程序如下

復制代碼
//半角轉全角
string DBC2SBC(const string &dbc)

{
    string sbc = "";
    int len = dbc.length();
    for (int i=0; i<len; ++i)
    {
        if (dbc[i] < 0)    //已經是雙字節字符,或者是漢字及中文符號
        {
            sbc += dbc.substr(i, 2);
            ++i;
        }
        else if (dbc[i] == ' ')    //單獨處理空格
        {
            sbc += " ";
        }
        else
        {
            if (dbc[i]>=33 && dbc[i]<=126)//半角的英文字母或半角英文符號
            {
                sbc.append(1, sbc_high);
                sbc.append(1, dbc[i]|0x80);
            }
            else
            {
                sbc.append(1, dbc[i]);//控制字符
            }
        }
    }
    return sbc;
}
復制代碼

處理一個文本轉化的示例程序如下

復制代碼
//處理txt文本的簡單例子
void ProcessFile(const char* filename)  
{  
    ifstream infile;
    string strLine = "";
    string strResult = "";  
    infile.open(filename);
    if (infile)  
    {  
        while (!infile.eof())
        {  
            getline(infile,strLine);  
            strResult += strLine+"\n";
        }  
    }
    infile.close();

    strResult = SBC2DBC (strResult);//轉化

    ofstream outfile;  
    outfile.open (filename);
    outfile.write (strResult.c_str(), strResult.length());  
    outfile.flush();  
    outfile.close();
}
復制代碼

3.unicode編碼下的轉化

在實際的工作中,可能碰到unicode編碼的文本。在這種情況下,半角與全角的轉化過程與上述方法一致,只需要處理“英文字母與英文符號”和“空格”即可。當然,unicode編碼下,所有字符都用兩個字節表示,如半角的空格為\x0020,全角的空格為\x3000,(unicode編碼詳見:http://www.cnblogs.com/houkai/archive/2013/06/04/3116955.html),這樣避免了字符的添加或丟棄,處理更為簡單。如需Unicode編碼表,可下載。 轉化方法:
a.全角空格為12288,半角空格為32
b.其他字符半角(33-126)與全角(65281-65374)的對應關系是:均相差65248
程序實現比較簡單,以UTF8轉ANSI中的changeTxtEncoding函數為基礎,改寫後示例如下:

復制代碼
//原函數的功能是實現UTF8編碼的szU8字符轉unicode,unicode再轉Ansi
//這裡,在UTF8轉unicode後添加了“全角轉半角程序”部分
char* changeTxtEncoding(char* szU8)
{  
    int wcsLen = ::MultiByteToWideChar(CP_UTF8, NULL, szU8, -1, NULL, 0);  
    wchar_t* wszString = new wchar_t[wcsLen];
    ::MultiByteToWideChar(CP_UTF8, NULL, szU8, -1, wszString, wcsLen);

    //全角轉半角程序
    //wszString是unicode編碼
    for (int i=0; i<wcsLen; i++)
    {
        if(wszString[i]==12288) //空格
        {
            wszString[i] = 32;
        }
        if( (wszString[i]>=65281) && (wszString[i]<=65374) )//其他字符
        {
            wszString[i] -= 65248;
        }
    }

    int ansiLen = ::WideCharToMultiByte(CP_ACP, NULL, wszString, -1, NULL, 0, NULL, NULL);  //wcslen(wszString)
    char* szAnsi = new char[ansiLen];  
    ::WideCharToMultiByte(CP_ACP, NULL, wszString, -1, szAnsi, ansiLen, NULL, NULL); 
    delete[] wszString;
    return szAnsi;  
}
復制代碼

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved