本文將對Array數組的各個方面做一個比較簡略地介紹,其中包括數組的基礎知識,分類,以及效率性能問題。
1. 數組大局觀
數組是一個引用類型,也就是意味著數組的內存分配在托管堆上,並且我們在棧上維護的是他的指針而並非真正的數組。接下來我們分析下數組的元素,其中的元素無外乎是引用類型和值類型。當數組中的元素是值類型時,不同於int i;這樣的代碼。數組會根據數組的大小自動把元素的值初始化為他的默認值。例如:
- static void Main(string[] args)
- {
- int[] intArray = new int[3];
- foreach(int i in intArray)
- {
- Console.WriteLine(i);
- }
- DateTime[] dtArray = new DateTime[3];
- foreach (DateTime i in dtArray)
- {
- Console.WriteLine(i);
- }
- }
結果如下:
當數組中的元素是引用類型時,實際上數組中的元素是一個指向對象實際內存空間的指針,占用4Bytes的空間。
2. 談談零基數組
從學C語言時起,相信老師就會對我們講,數組的第一個索引是0,而不是1。但是在C#中,我們可以去構造一個非零基數組,在這一節,我們就來把這個說透。
在常規意義上,我們初始化一個數組,都默認是零基數組,這也使得數組成為了字符串後再一個初始化時特殊的類型。正如我們知道的一樣,初始化一個字符串時,對應的IL指令是newstr,同樣,初始化一個零基數組對應的IL指令是newarr。
當我們希望構造一個非零基數組時,我們可以以下的語句來做到:
- static void Main(string[] args)
- {
- Array intArr = Array.CreateInstance(typeof(Int32), new int[] { 5 }, new int[] { 1 });
- Console.WriteLine(intArr.GetValue(1).ToString());
- Console.WriteLine(intArr.GetValue(0).ToString());
- }
得到的測試結果便如下:
於是便證明,我們初始化了一個非零基數組。此外,延伸一下,我們還應該通過這個記住以下兩個方法:
- static void Main(string[] args)
- {
- Array intArr = Array.CreateInstance(typeof(Int32), new int[] { 5 }, new int[] { 1 });
- Console.WriteLine(intArr.GetLowerBound(0));
- Console.WriteLine(intArr.GetUpperBound(0));
- }
得到的測試結果如下:
3. 談談效率問題
相信會有好多陰謀論者說,C#是個類型安全的語言,也就是意味著我循環時每次訪問一次數組的元素,那麼就要檢查一次該索引是否會造成數組越界,於是就造成了一定的性能損失。那麼在這裡,我們就把這個問題說透。
我們在這裡把數組分成零基數組,非零基數組,多維數組,交錯數組四種情況來分別討論這個問題。
零基數組是.NET中提倡使用的類型,並且初始化時提供了特殊的IL指令newarr則充分說明了他在.NET中的特殊性,自然.Net Framework也會為其提供很大的優化待遇。在循環訪問數組時,如這樣的代碼:
- static void Main(string[] args)
- {
- int[] intArr = new int[5];
- for (int i = 0; i < 4; i++)
- {
- //Some Method
- }
- }
JIT編譯器只會在循環開始之前檢查一次4和intArr.GetUpperBound的大小關系,之後便不會對其進行干預。也就是說JIT編譯器只對其檢查一次安全,因此帶來的性能損失是非常小的。
而對於非零基數組,我們來比較這樣兩段代碼:
- static void Main(string[] args)
- {
- Array intArr = Array.CreateInstance(typeof(Int32), new int[] { 5 }, new int[] { 1 });
- Console.WriteLine(intArr.GetValue(1).ToString());
- Console.WriteLine(intArr.Length);
- //
- int[] intArr1 = new int[5];
- Console.WriteLine(intArr1[1]);
- Console.WriteLine(intArr1.Length);
- }
其實兩者創建的幾乎是相同的數組,調用的也幾乎是一樣的方法,但是我們看下IL卻會發現兩者有著驚人的不同,首先是非零基數組的IL:
接下來是零基數組的:
我們可以發現,對於非零基數組中的大部分操作,.NET Framework都提供了對應的IL指令,我們也可以理解為.Net Framework為其提供了特殊的優化。
當然,實際上,正如CLR via C#所說的一樣:.Net Framework對應非零基數組沒有任何方面的優化,每次訪問都需要檢查其上限和下限與索引之間的關系。效率的損耗是必然的。
事實上,當我們測試這樣一段代碼時,也會發現其實零基數組和非零基數組的區別是很大的:
- static void Main(string[] args)
- {
- Array intArr = Array.CreateInstance(typeof(Int32), new int[] { 5 }, new int[] { 1 });
- Console.WriteLine("intArr的?類à型í是?:o{0}", intArr.GetType());
- //
- int[] intArr1 = new int[5];
- Console.WriteLine("intArr1的?類à型í是?:o{0}", intArr1.GetType());
- }
得到的結果如下:
接下來我們再來簡單地說下多維數組和交錯數組。
多維數組和非零基數組一樣,都沒有受到.Net Framework的特殊優待。
而交錯數組,其實就是數組中的數組,因此效率實際上取決於數組中的數組是零基數組還是非零基數組。
那接下來的一節,我們來具體探討一下交錯數組和多維數組的區別和應用。
4. 多維數組和交錯數組
考慮到兩個詞的翻譯問題,在這裡給出兩個詞的英文:
多維數組:Multi-dimensional Array。
交錯數組:Jagged Array。
好,下面步入正題。
首先從二者的內存分布說起。
多維數組是一個整體的數組,因此他在內存中占據一個整體的托管堆內存塊。
而交錯數組實際上是數組中的數組,因此我們用二維交錯數組來舉例,其內存如圖所示:
也就是說,如果是一個3*100的數組,也就是說需要初始化101次數組,當數組的元素更加多的時候,那創建和垃圾回收將帶來巨大的效率損失。
因此,也就是說:交錯數組的效率瓶頸在於創建和銷毀上,而並非類型安全檢查上。
於是,我們就可以得出這樣的結論:
當一次創建,多次訪問時,我們應該創建交錯數組。
當一次創建,一次訪問時,我們應該創建多維數組。
5. 用代碼改善效率
上面說到了,訪問非零基數組和多維數組的效率是比較低的,對於非零基數組,我們的應用比較少,但是多維數組,相信每個人都或多或少有著一定的應用,那麼面對其性能問題,我們該怎麼辦呢?
我們先來想想,多維數組的訪問,性能瓶頸在安全檢查上。在C語言中,為什麼沒有這樣的問題,對,因為C語言不會做這樣的檢查。於是,相信聰明的大家都會想到不安全代碼。
改善多維數組以及非零基數組的效率問題,我們就用不安全代碼。
- static unsafe void Main(string[] args)
- {
- int[,] intArr = new int[3, 3];
- for (int i = 0; i < 3; i++)
- {
- for (int j = 0; j < 3; j++)
- {
- intArr[i, j] = i * 3 + j;
- }
- }
- fixed (int* p = &intArr[0, 0])
- {
- for (int i = 0; i < 3; i++)
- {
- int baSEOffset = i * 3;
- for (int j = 0; j < 3; j++)
- {
- Console.WriteLine(baSEOffset + j);
- }
- }
- }
- }
這裡,我們又見到了C語言中熟悉的指針,相信不需要多加介紹了。這裡唯一需要注意的就是fixed,由於在垃圾回收時采用的是代機制+壓縮機制,因此其內存地址很可能發生改變,因此我們應該講數組的內存地址鎖住,防止我們訪問到其他的內存地址而造成我們讀取數據的錯誤。
6. 對零基數組的精益求精
當然,即使是零基數組,我們依然在托管堆上為其分配了內存空間。如果對性能要求極高,我們知道創建一個對象也是有著一定的時間損耗,其中包括分配內存空間,同步塊索引,以及指向下一塊內存空間的指針等一系列復雜的操作。那麼我們就放棄掉托管堆這個東東,而直接在棧中來創建這個數組,這樣又省去了很多時間,從而達到了和C語言相同的效果,代碼如下:
- static unsafe void Main(string[] args)
- {
- int* intArr=stackalloc int[10];
- for (int i = 0; i < 10; i++)
- {
- intArr[i] = i;
- }
- for (int i = 0; i < 10; i++)
- {
- Console.WriteLine(intArr[i]);
- }
- }
這樣,效率就進一步提高了,對於二維數組,我們一樣可以如此創建。其代碼與C語言完全等同。我在這裡就不繼續演示了。
編者後話:在文章的最後,介紹的是用不安全代碼來訪問創建數組來提高性能。不過在實際工作中,如果對性能沒有特別高的要求,則沒必要用不安全代碼來操作數組,因為其很可能因為你的一些失誤而帶來其他的一些安全問題,並且對代碼的可讀性也是個比較大的傷害,這就有些得不償失了。
【編輯推薦】