Base64是一種很常用的編碼方式,利用它可以將任何二進制的字符編碼到可打印的64個字符之中, 這樣,不管是圖片,中文文本等都可以編碼成只有ASCII的純文本。至於為什麼要進行這個轉換呢, 最初主要使用在EMail領域,早期的一些郵件網關只識別ASCII, 如果發現郵件裡有其他字符,就會將它們過濾掉,這樣中文的郵件,有圖片附件的郵件在這些網關上就會發生問題,於是將中文和圖片都使用base64編碼然後傳輸,接受後再解碼就客服了這個問題了。 Base64除了可以使用在相似場合,還可以用作簡單的加密等等。下面介紹下Base64的方法:
首先是Base64中 可能出現的所有字符:
0 A 17 R 34 i 51 z
1 B 18 S 35 j 52 0
2 C 19 T 36 k 53 1
3 D 20 U 37 l 54 2
4 E 21 V 38 m 55 3
5 F 22 W 39 n 56 4
6 G 23 X 40 o 57 5
7 H 24 Y 41 p 58 6
8 I 25 Z 42 q 59 7
9 J 26 a 43 r 60 8
10 K 27 b 44 s 61 9
11 L 28 c 45 t 62 +
12 M 29 d 46 u 63 /
13 N 30 e 47 v
14 O 31 f 48 w (pad) =
15 P 32 g 49 x
16 Q 33 h 50 y
所有的字符就 是'A'~'Z','a'~'z','0'~'9','+','/'共64個,以及末 尾的填充字符'='
編碼的方法是:
從輸入緩沖中依 次取出字符,第一個字符的,從最高位開始取出6個 bit,這6個bit的值的范圍在0~63,將這個值作為索引 , 對應上面的表格,找到相應的字符,這便是 第一個Base64後的字符,然後將第一個字符的低2位與 第二個字符的高4位組成6個bit, 同樣查表得到第二個 Base64字符,以此類推,從左向右沒湊足6個bit就轉 換成一個Base64字符,由於輸入緩沖中每3個字符 包含24個bit,這24個bit正好可以轉成4個 Base64字符,所以沒3個字符能組成一個轉換循環,如 果輸入緩沖中字符的個數是3 的整數倍,那麼結果就 是4的整數倍,兩者的長度是3:4的關系,但是如果輸 入字符不是3的整數倍呢?這就涉及到了末尾填充問題 。
輸入緩沖的末尾 可能余下一個字符,或兩個字符:
如果余下一個字 符,前6個bit轉換成Base64,剩下的低2位要右邊補0 ,湊成6bit,然後轉換成Base64,為了讓解析者了解 這個 情況,在輸出緩沖的最後要補上兩個'='。
如果余下兩個字符,同樣轉換出兩個Base64 字符後,在剩下的4個bit右邊補0,湊成6bit,然後轉 換成Base64,同樣在輸出緩沖 的末尾要補上一個'=' 。
由此可見Base64 後的字符串,長度一定是4的整數倍,末尾有一個,兩 個或沒有'='。
要注意的是為了兼容有些郵件服務器, Base64後的字符串經常要插入來確保每一行 不超過76個字符,解析時要跳過它們。
好了,原理就是 這樣的,是不是很簡單,就是取3個轉成4個,好了, 上代碼:
首先是編碼:
const BYTE Base64ValTab[65] = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/";
#define AVal(x) Base64ValTab[x]
int CSeeBase64Dlg::EncodeBase64(char * pInput, char * pOutput)
{
int i = 0;
int loop = 0;
int remain = 0;
int iDstLen = 0;
int iSrcLen = (int)strlen(pInput);
loop = iSrcLen/3;
remain = iSrcLen%3;
// also can encode native char one by one as decode method
// but because all of char in native string is to be encoded so encode 3-chars one time is easier.
for (i=0; i < loop; i++)
{
BYTE a1 = (pInput[i*3] >> 2);
BYTE a2 = ( ((pInput[i*3] & 0x03) << 4) | (pInput[i*3+1] >> 4) );
BYTE a3 = ( ((pInput[i*3+1] & 0x0F) << 2) | ((pInput[i*3+2] & 0xC0) >> 6) );
BYTE a4 = (pInput[i*3+2] & 0x3F);
pOutput[i*4] = AVal(a1);
pOutput[i*4+1] = AVal(a2);
pOutput[i*4+2] = AVal(a3);
pOutput[i*4+3] = AVal(a4);
}
iDstLen = i*4;
if (remain == 1)
{
// should pad two equal sign
i = iSrcLen-1;
BYTE a1 = (pInput[i] >> 2);
BYTE a2 = ((pInput[i] & 0x03) << 4);
pOutput[iDstLen++] = AVal(a1);
pOutput[iDstLen++] = AVal(a2);
pOutput[iDstLen++] = '=';
pOutput[iDstLen++] = '=';
pOutput[iDstLen] = 0x00;
}
else if (remain == 2)
{
// should pad one equal sign
i = iSrcLen-2;
BYTE a1 = (pInput[i] >> 2);
BYTE a2 = ( ((pInput[i] & 0x03) << 4) | (pInput[i+1] >> 4));
BYTE a3 = ( (pInput[i+1] & 0x0F) << 2);
pOutput[iDstLen++] = AVal(a1);
pOutput[iDstLen++] = AVal(a2);
pOutput[iDstLen++] = AVal(a3);
pOutput[iDstLen++] = '=';
pOutput[iDstLen] = 0x00;
}
else
{
// just division by 3
pOutput[iDstLen] = 0x00;
}
return iDstLen;
}
下面是解析的:
const BYTE Base64IdxTab[128] =
{
255,255,255,255, 255,255,255,255, 255,255,255,255, 255,255,255,255,
255,255,255,255, 255,255,255,255, 255,255,255,255, 255,255,255,255,
255,255,255,255, 255,255,255,255, 255,255,255,62, 255,255,255,63,
52,53,54,55, 56,57,58,59, 60,61,255,255, 255,255,255,255,
255,0,1,2, 3,4,5,6, 7,8,9,10, 11,12,13,14,
15,16,17,18, 19,20,21,22, 23,24,25,255, 255,255,255,255,
255,26,27,28, 29,30,31,32, 33,34,35,36, 37,38,39,40,
41,42,43,44, 45,46,47,48, 49,50,51,255, 255,255,255,255
};
#define BVal(x) Base64IdxTab[x]
int CSeeBase64Dlg::DecodeBase64(char * pInput, char * pOutput)
{
int i = 0;
int iCnt = 0;
int iSrcLen = (int)strlen(pInput);
char * p = pOutput;
for (i=0; i < iSrcLen; i++)
{
if (pInput[i] > 127) continue;
if (pInput[i] == '=') return p-pOutput+1;
BYTE a = BVal(pInput[i]);
if (a == 255) continue;
switch (iCnt)
{
case 0:
{
*p = a << 2;
iCnt++;
}
break;
case 1:
{
*p++ |= a >> 4;
*p = a << 4;
iCnt++;
}
break;
case 2:
{
*p++ |= a >> 2;
*p = a << 6;
iCnt++;
}
break;
case 3:
{
*p++ |= a;
iCnt = 0;
}
break;
}
}
*p = 0x00;
return p-pOutput;
}
本文配套源碼