14. 基本數據類型:字符型(上) 1.字符型(char)簡介 字符型(
char)用於儲存字符(
character),如英文字母或標點。嚴格來說,char 其實也是整數類型(
integer type),因為 char 類型儲存的實際上是整數,而不是字符。計算機使用特定的整數編碼來表示特定的字符。美國普遍使用的編碼是
ASCII(American Standard Code for Information Interchange 美國信息交換標准編碼)。例如:ASCII 使用 65 來代表大寫字母 A,因此存儲字母 A 實際上存儲的是整數65。注意:許多IBM大型機使用另一種編碼——EBCDIC(Extended Binary-Coded Decimal Interchange Code 擴充的二進制編碼的十進制交換碼);不同國家的計算機使用的編碼可能完全不同。 ASCII 的范圍是 0 到 127,故而 7 位(bit)就足以表示全部 ASCII。char 一般占用 8 位內存單元,表示ASCII綽綽有余。許多系統都提供
擴展ASCII(Extended ASCII),並且所需空間仍然在 8 位以內。注意,不同的系統提供的擴展 ASCII 的編碼方式可能有所不同! 許多
字符集超出了 8 位所能表示的范圍(例如漢字字符集),使用這種字符集作為
基本字符集的系統中,char 可能是 16 位的,甚至可能是 32 位的。總之,C 保證 char 占用空間的大小足以儲存系統所用的
基本字符集的編碼。C 語言定義一個字節(byte)的位數為 char 的位數,所以一個字節可能是 16 位,也可能是 32 位,而不僅僅限於 8 位。
2.聲明字符型變量 字符型變量的聲明方式和其它類型變量的聲明方式一樣: char good; char better, best; 以上代碼聲明了三個字符型變量:good、better,和 best。
3.字符常量與初始化 我們可以使用以下語句來初始化字符型變量: char ch = 'A'; 這個語句把 ch 的值初始化為 A 的編碼值。在這個語句中,'A' 是
字符常量。C 語言中,使用單引號把字符引起來就構成字符常量。我們來看另外一個例子: char fail; /* 聲明一個字符型變量 */ fail = 'F'; /* 正確 */ fail = "F"; /* 錯!"F" 是字符串常量 */ 把字符用雙引號引起來構成
字符串常量,所以第三個語句是錯誤的。我們會在後續的教程中討論字符串,現在暫且把它放下。 因為字符實質上是以數字的形式存儲的,所以我們可以直接使用數字來初始化字符變量,或者給字符變量賦值: char ch = 65; /* 不好的風格 */ 在 ASCII 中,A 的編碼是 65,所以對於使用 ASCII 的系統來說,這個語句等同於 char ch = 'A';。使用非 ASCII 的系統中,65 代表的不一定是 A,而有可能是其它任何字符,所以使用數字來初始化字符變量,或者給字符變量是一種不好的風格,因為移植性太差了!但是,使用字符常量(例如 'A')來初始化字符變量,或者給字符變量賦值,字符變量得到的一定是我們所期待的字符的編碼值。例如: char ch = 'A'; 無論在使用任何編碼的系統中,ch 都能夠得到字符 A 所對應的編碼值。這是因為編譯器會自動把 'A' 轉化成 A 所對應的編碼值。因此,我們應該使用字符常量來初始化字符變量,或者給字符變量賦值;而不要用數字。 有趣的是,C 使用 int 類型來處理字符常量,而不是 char 類型。例如,在使用32位 int 的ASCII 系統中,以下代碼 char ch = 'C'; 'C' 的編碼值 67 被存儲於 32 位的內存單元中;不過 ch 仍然存儲於 8 位的內存單元中,只是它的值變成了 67。因此,我們可以定義形如 'good' 的古怪字符常量。因為每個字符的編碼值占用 8 位的內存單元,所以這個常量剛好可以存儲於 32 位的內存單元。然而,用這種字符常量初始化字符變量,或者給字符變量賦值的話,導致的結果是,字符變量只能得到字符常量的最後 8 位。也就是說,以下代碼 char ch = 'good'; ch 得到的是 'd' 的值。
以後,在沒有特殊說明的情況下,我們討論的都是 ASCII。15. 基本數據類型:字符型(中)
不可打印字符(Nonprinting Characters) 有些 ASCII 字符是不可打印的。例如
退格、
另起一行、
警報等。C 語言提供了兩種方法來表示這種
不可打印字符。 第一種方法是使用 ASCII 編碼。例如,ASCII 編碼中,7 用於表示警報: char beep = 7; 第二種方法是使用特殊符號序列,也就是所謂的
轉義字符escape sequences)。參見下表:(
轉義字符 含義 \a 警報( Alert (ANSI C) ) \b 退格(Backspace) \f 換頁(Form feed) \n 換行(Newline) \r 回車(Carriage return) \t 水平制表符(Horizontal tab) \v 垂直制表符(Vertical tab) \\ 反斜桿( Backslash (\) ) \' 單引號( Single quote (') ) \" 雙引號( Double quote (") ) \? 問號( Question mark (?) ) \0oo 八進制數( Octal value (o 代表一個八進制數字) ) \xhh 十六進制數( Hexadecimal value (h 代表一個十六進制數字) ) 給變量賦值的時候,轉義字符必須使用單引號引住。例如: char nl = '\n'; 下面我們詳細學習每個轉移字符的含義。
\a(警報)是 ANSI C89 添加的,用於產生
可聽或者
可視的警報。\a 產生的效果
取決於硬件。一般來說,輸出 \a 會產生
鳴響。但是在某些系統,輸出 \a 不會產生任何效果,或者僅僅顯示一個特殊字符。標准明確指出,\a 不應該改變當前
活躍位置(
active position)。所謂活躍位置,是指顯示設備(顯示器、打字機、打印機等等)顯示下一個字符的位置。以顯示器為例,活躍位置就是指光標所處的位置,輸出 \a 不會導致光標移動位置。
\b、
\f、
\n、
\r、
\t,以及
\v 都是輸出設備控制符。退格符(
\b)使當前行的活躍位置後退一個位置。換頁符(
\f)使活躍位置跳到下一頁的開端。注:換頁符可用於控制打印機換頁,但不會導致 PC 機的顯示屏換頁。換行符(
\n)使活躍位置跳到下一行的開端。回車符 (
\r ) 使活躍位置返回當前行的開端。水平制表符(
\t)使活躍位置移動若干個位置(通常是8個)。垂直制表符(
\v)使活躍位置換若干行。注:
\v可用於控制打印機換若干行,但是不會導致PC機的顯示屏換行。
\\、
\',以及
\" 使我們可以把
\,
' 和
" 用作字符常量。如果要打印以下句子: "\ is called 'backslash'." 我們需要使用如下語句: printf("\"\\ is called \'backslash\'.\"");
\0oo 和
\xhh 是ASCII碼的兩種特殊表示形式。如果想用八進制ASCII碼表示字符,可以在八進制數前面加上
\ ,然後用單引號引起來。例如: beep = '\007';
/* \007 代表 \a */ 打頭的那些0可以省略,也就是說,寫成 '\07' 或者 '\7' 都一樣。無論有沒有打頭的0 ,7 都會被當成八進制數處理。 從 C89 開始,C提供了用十六進制表示字符常量的方法:在反斜桿後面寫一個 x ,然後再寫 1 到 3 個十六進制數字。例如: nl = '\xa';
/* \xa 代表 \n */ 注意:使用ASCII碼時,要注意區分
數字4的ASCII碼是52 ,'4' 代表字符 4 ,而不是數字4。此外,盡管 '\n' 和 '\xa' ,'\a' 和 '\007' 是等價的,但是我們應該盡可能使用 '\n' 和 '\a' ,而不要用 '\xa' 和 '\007' 。這是因為前者易懂、便於記憶,而且移植性更高。而後者只對使用ASCII碼的系統有效。和
數字字符。例如:字符
16. 基本數據類型:字符型(下)
一、字符輸出 printf 函數使用
%c 表示輸出字符。因為字符是以 1 字節整數的形式存取的,所以,如果使用
%d 的話,輸出的會是整數。例如: /* 這個程序輸出字符以及字符的整數編碼 */#include
<stdio.h
> int main(void){ char ch; printf("Please enter a character.\n"); scanf("%c", &ch); /* 由用戶輸入一個字符 */ printf("The code for %c is %d.\n", ch, ch); return 0;} 請各位自行編譯執行此程序,查看其執行結果。輸入字符後記得要按回車鍵。 printf 函數輸出 ch 的值兩次,第一次以字符的形式輸出(因為格式限定符為 %c),第二次以十進制整數的形式輸出(因為格式限定符是 %d)。注意:格式限定符只是用於指定數據的輸出形式,而不是用來指定數據怎麼存儲。
二、字符類型的符號 某些編譯器中,char 默認是
有符號的(signed)。對於這類型的編譯器來說,char 的表示范圍通常是 -128 到 127 。而另外一些編譯器中,char 默認是
無符號的(unsigned)。對於這類型的編譯器來說,char 的表示范圍通常是 0 到 255 。一般來說,編譯器的使用說明會注明它默認把 char 當作有符號的還是無符號的。 從 C89 開始,我們可以使用關鍵字 signed 和 unsigned 來修飾 char 。這麼一來,無論編譯器默認 char 是有符號的也好,無符號的也罷,我們都可以用 signed char 表示有符號 char ,也可以用 unsigned char 表示無符號 char 。