程式師世界 >> 編程語言 >> C語言 >> 關於C語言 >> sizeof 操作符詳解

sizeof 操作符詳解

編輯：關於C語言

1. 定義：
sizeof是何方神聖？
sizeof 乃 C/C++ 中的一個操作符（operator）是也。簡單說其作用就是返回一個對象或者類型所占的內存字節數。
MSDN上的解釋為：
The sizeof keyword gives the amount of storage, in bytes, associated with a variable or a type (including aggregate types).This keyword returns a value of type size_t.
其返回值類型為size_t，在頭文件stddef.h中定義。這是一個依賴於編譯系統的值，一般定義為
typedef unsigned int size_t;
世上編譯器林林總總，但作為一個規范，它們都會保證char、signed char和unsigned char的sizeof值為1，畢竟char是我們編程能用的最小數據類型。

2. 語法：
sizeof有三種語法形式，如下：
1) sizeof( object ); // sizeof( 對象 );
2) sizeof( type_name ); // sizeof( 類型 );
3) sizeof object; // sizeof 對象;
所以，
int i;
sizeof( i ); // ok
sizeof i; // ok
sizeof( int ); // ok
sizeof int; // error
既然寫法2可以用寫法1代替，為求形式統一以及減少我們大腦的負擔，第2種寫法，忘掉它吧！
實際上，sizeof計算對象的大小也是轉換成對對象類型的計算。也就是說，同種類型的不同對象其sizeof值都是一致的。
這裡，對象可以進一步延伸至表達式，即sizeof可以對一個表達式求值。編譯器根據表達式的最終結果類型來確定大小，一般不會對表達式進行計算。
例如：
sizeof( 2 ); // 2的類型為int，所以等價於 sizeof( int );
sizeof( 2 + 3.14 ); // 3.14的類型為double，2也會被提升成double類型，所以等價於 sizeof( double );
sizeof也可以對一個函數調用求值，其結果是函數返回類型的大小，函數並不會被調用。我們來看一個完整的例子：
*********************************************************
char foo()
{
printf("foo() has been called.\n");
return 'a';
}
int main()
{
size_t sz = sizeof( foo() ); // foo() 的返回值類型為char，所以sz = sizeof(char)，但函數foo()並不會被調用
printf("sizeof( foo() ) = %d\n", sz);
}
*********************************************************
C99標准規定，函數、不能確定類型的表達式以及位域（bit-field）成員不能被計算sizeof值，即下面這些寫法都是錯誤的：
sizeof( foo ); // error
void foo2() { }
sizeof( foo2() ); // error
struct S
{
unsigned int f1 : 1;
unsigned int f2 : 5;
unsigned int f3 : 12;
};
sizeof( S.f1 ); // error

3. sizeof的常量性
sizeof的計算發生在編譯時刻，所以它可以被當作常量表達式使用。如：
char ary[ sizeof( int ) * 10 ]; // ok
最新的C99標准規定sizeof也可以在運行時刻進行計算。如下面的程序在Dev-C++中可以正確執行：
int n;
n = 10; // n動態賦值
char ary[n]; // C99也支持數組的動態定義
printf("%d\n", sizeof(ary)); // ok. 輸出10
但在沒有完全實現C99標准的編譯器中就行不通了，上面的代碼在VC6中就通不過編譯。所以我們最好還是認為sizeof是在編譯期執行的，這樣不會帶來錯誤，讓程序的可移植性強些。

4. 基本數據類型的sizeof
這裡的基本數據類型指short、int、long、float、double這樣的簡單內置數據類型。由於它們都是和系統相關的，所以在不同的系統下取值可能不同。這務必引起我們的注意，盡量不要在這方面給自己程序的移植造成麻煩。
一般的，在32位編譯環境中，sizeof(int)的取值為4。

5. 指針變量的sizeof
學過數據結構的你應該知道指針是一個很重要的概念，它記錄了另一個對象的地址。既然是來存放地址的，那麼它當然等於計算機內部地址總線的寬度。所以在32位計算機中，一個指針變量的返回值必定是4（注意結果是以字節為單位）。可以預計，在將來的64位系統中指針變量的sizeof結果為8。
*********************************************************
char* pc = "abc";
int* pi;
string* ps;
char** ppc = &pc;
void (*pf)(); // 函數指針
sizeof( pc ); // 結果為4
sizeof( pi ); // 結果為4
sizeof( ps ); // 結果為4
sizeof( ppc );// 結果為4
sizeof( pf ); // 結果為4
*********************************************************
指針變量的sizeof值與指針所指的對象沒有任何關系，正是由於所有的指針變量所占內存大小相等，所以MFC消息處理函數使用兩個參數WPARAM、LPARAM就能傳遞各種復雜的消息結構（使用指向結構體的指針）。

6. 數組的sizeof
數組的sizeof值等於數組所占用的內存字節數，如：
char a1[] = "abc";
int a2[3];
sizeof( a1 ); // 結果為4，字符末尾還存在一個NULL終止符
sizeof( a2 ); // 結果為3*4=12（依賴於int）
一些朋友剛開始時把sizeof當作了求數組元素的個數，現在，你應該知道這是不對的。那麼應該怎麼求數組元素的個數呢？
Easy，通常有下面兩種寫法：
int c1 = sizeof( a1 ) / sizeof( char ); // 總長度/單個元素的長度
int c2 = sizeof( a1 ) / sizeof( a1[0]); // 總長度/第一個元素的長度
寫到這裡，提一問，下面的c3，c4值應該是多少呢？
*********************************************************
void foo3(char a3[3])
{
int c3 = sizeof( a3 ); // c3 ==
}
void foo4(char a4[])
{
int c4 = sizeof( a4 ); // c4 ==
}
*********************************************************
也許當你試圖回答c4的值時已經意識到c3答錯了，是的，c3!=3。
這裡函數參數a3已不再是數組類型，而是蛻變成指針。相當於char* a3，為什麼仔細想想就不難明白。
我們調用函數foo1時，程序會在棧上分配一個大小為3的數組嗎？不會！
數組是“傳址”的，調用者只需將實參的地址傳遞過去，所以a3自然為指針類型（char*），c3的值也就為4。

7. 結構體的sizeof
這是初學者問得最多的一個問題，所以這裡有必要多費點筆墨。讓我們先看一個結構體：
struct S1
{
char c;
int i;
};
問sizeof(s1)等於多少？
聰明的你開始思考了，char占1個字節，int占4個字節，那麼加起來就應該是5。
是這樣嗎？
你在你機器上試過了嗎？
也許你是對的，但很可能你是錯的！
VC6中按默認設置得到的結果為8。
Why？為什麼受傷的總是我？
請不要沮喪，我們來好好琢磨一下sizeof的定義 —— sizeof的結果等於對象或者類型所占的內存字節數。好吧，那就讓我們來看看S1的內存分配情況：
S1 s1 = { 'a', 0xFFFFFFFF };
定義上面的變量後，加上斷點，運行程序，觀察s1所在的內存，你發現了什麼？
以我的VC6.0為例，s1的地址為0x0012FF78，其數據內容如下：
0012FF78: 61 CC CC CC FF FF FF FF
發現了什麼？怎麼中間夾雜了3個字節的CC？
看看MSDN上的說明：
When applied to a structure type or variable, sizeof returns the actual size, which may include padding bytes inserted for alignment.
原來如此，這就是傳說中的字節對齊啊！一個重要的話題出現了。
為什麼需要字節對齊？
計算機組成原理教導我們，這樣有助於加快計算機的取數速度，否則就得多花指令周期了。
為此，編譯器默認會對結構體進行處理（實際上其它地方的數據變量也是如此），讓寬度為2的基本數據類型（short等）都位於能被2整除的地址上，讓寬度為4的基本數據類型（int等）都位於能被4整除的地址上。以此類推，這樣，兩個數中間就可能需要加入填充字節，所以整個結構體的sizeof值就增長了。
讓我們交換一下S1中char與int的位置：
struct S2
{
int i;
char c;
};
看看sizeof(S2)的結果為多少？怎麼還是8。
再看看內存，原來成員c後面仍然有3個填充字節。
這又是為什麼啊？別著急，下面總結規律。

字節對齊的細節和編譯器實現相關，但一般而言，滿足三個准則：
1) 結構體變量的首地址能夠被其最寬基本類型成員的大小所整除；
2) 結構體每個成員相對於結構體首地址的偏移量（offset）都是成員大小的整數倍，如有需要編譯器會在成員之間加上填充字節（internal adding）；
3) 結構體的總大小為結構體最寬基本類型成員大小的整數倍，如有需要編譯器會在最末一個成員之後加上填充字節（trailing padding）。

對於上面的准則，有幾點需要說明：
1) 前面不是說結構體成員的地址是其大小的整數倍，怎麼又說到偏移量了呢？
因為有了第1點存在，所以我們就可以只考慮成員的偏移量，這樣思考起來簡單。想想為什麼。
結構體某個成員相對於結構體首地址的偏移量可以通過宏offsetof()來獲得，這個宏也在stddef.h中定義，如下：
#define offsetof(s,m) (size_t)&(((s *)0)->m)
例如，想要獲得S2中c的偏移量，方法為
size_t pos = offsetof(S2, c);// pos等於4

2) 基本類型是指前面提到的像char、short、int、float、double這樣的內置數據類型。這裡所說的“數據寬度”就是指其sizeof的大小。由於結構體的成員可以是復合類型，比如另外一個結構體，所以在尋找最寬基本類型成員時，應當包括復合類型成員的子成員，而不是把復合成員看成是一個整體。但在確定復合類型成員的偏移位置時則是將復合類型作為整體看待。
這裡敘述起來有點拗口，思考起來也有點撓頭，還是讓我們看看例子吧（具體數值仍以VC6為例，以後不再說明）：
struct S3
{
char c1;
S1 s;
char c2;
};
S1的最寬簡單成員的類型為int，S3在考慮最寬簡單類型成員時是將S1“打散”看的，所以S3的最寬簡單類型為int。這樣，通過S3定義的變量，其存儲空間首地址需要被4整除，整個sizeof(S3)的值也應該被4整除。
c1的偏移量為0，s的偏移量呢？這時s是一個整體，它作為結構體變量也滿足前面三個准則，所以其大小為8，偏移量為4，c1與s之間便需要3個填充字節，而c2與s之間就不需要了，所以c2的偏移量為12，算上c2的大小為13，13是不能被4整除的，這樣末尾還得補上3個填充字節。最後得到sizeof(S3)的值為16。

通過上面的敘述，我們可以得到一個公式：
結構體的大小等於最後一個成員的偏移量加上其大小再加上末尾的填充字節數目，即：
sizeof( struct ) = offsetof( last item ) + sizeof( last item ) + sizeof( trailing padding )

8.類的sizeof

類的sizeof值等於類中成員變量所占用的內存字節數。如：
****************************************************************

class A
{
public:
int b;
float c;
char d;
};
int main(void)
{
A object;
cout <<"sizeof(object) is "< return 0 ;
}

***************************************************************

輸出結果為12（我的機器上sizeof(float)值為4，字節對其前面已經講過）。

不過需要注意的是，如果類中存在靜態成員變量，結果又會是什麼樣子呢？

***************************************************************
class A
{
public:
static int a;
int b;
float c;
char d;
};
int main()
{
A object;
cout <<"sizeof(object) is "< return 0 ;
}

**************************************************************

16？不對。結果仍然是12.
因為在程序編譯期間，就已經為static變量在靜態存儲區域分配了內存空間，並且這塊內存在程序的整個運行期間都存在。
而每次聲明了類A的一個對象的時候，為該對象在堆上，根據對象的大小分配內存。

如果類A中包含成員函數，那麼又會是怎樣的情況呢？看下面的例子

*************************************************************
class A
{
public:
static int a;
int b;
float c;
char d;
int add(int x,int y)
{
return x+y;
}
};
int main()
{
A object;
cout <<"sizeof(object) is "< b = object.add(3,4);
cout <<"sizeof(object) is "< return 0 ;
}

***************************************************************

結果仍為12。

因為只有非靜態類成員變量在新生成一個object的時候才需要自己的副本。
所以每個非靜態成員變量在生成新object需要內存，而function是不需要的。

注：C++中的多態和虛繼承也是非常重要的東西，不過比較復雜，編譯器不同，細節也有所不同。