集合是一些有共同特征的獨立數據項組成的,通過集合,我們可以可以使用相同的調用代碼來處理一個集合的所有元素,而不用單獨處理每一個單獨的項。.net的集合諸如(System.Array類以及 System.Collections命名空間)數組、列表、隊列、堆棧、哈希表、字典甚至(System.Data下)DataSet、DataTable,還有2.0中加入的集合的泛型版本(System.Collections.Generic和 System.Collections.ObjectModel),4.0中引入的有效線程安全操作的集合(System.Collections.Concurrent)。
面對這麼多的集合,你了解各個集合有哪些優勢,在一個特定的場景中使用哪個集合嗎?本文試圖探討一下這個問題,泛泛而談,不涉及深入的內存數據結構的追究,希望能給大家帶來一些益處。
集合接口
在分別討論各種集合之前,我們先討論一下集合的共性,整個集合體系的繼承層次。
ICollection 接口是 System.Collections 命名空間中類的基接口,而相應的ICollection<T>是所有泛型版本集合的基接口。所有的的集合類都直接或間接的繼承他們。
ICollection又繼承IEnumerable,來提供方便的枚舉功能,不過更值得注意ICollection提供同步訪問的線程安全性控制:
IsSynchronized:獲取一個值,該值指示是否同步對 ICollection 的訪問(線程安全)。
SyncRoot:獲取可用於同步對 ICollection 的訪問的對象。
例如,我們可以通過以下來對集合進行線程安全訪問,不過有些集合提供Synchronized方法來提供線程安全集合的封裝。
復制代碼 代碼如下:
ICollection myCollection = someCollection;
lock(myCollection.SyncRoot)
{
// Insert your code here.
}
不過默認情況下集合不是線程安全的。如果需要對集合進行可伸縮的且高效的多線程訪問,請使用System.Collections.Concurrent命名空間中的某個類。
而與非泛型版本不同的是,泛型版本的集合除了實現了泛型的接口外,也實現了非泛型的相應的接口。如ICollection<T>實現了IEnumerable和IEnumerable<T>,但是泛型集合卻沒有提供同步訪問的線程安全控制,也就是說泛型集合的同步訪問,我們必須自己去處理同步或使用System.Collections.Concurrent命名空間中的某個類。
另外,IList和IDictionary分別繼承自ICollection,IList的實現者(如Array、ArrayList 或 List<T>等)和ICollection的實現者(例如 Queue、ConcurrentQueue<T>、Stack、 ConcurrentStack<T>或 LinkedList<T>)的每個元素都是一個值,而IDictionary的實現者(例如 Hashtable 和 SortedList 類、Dictionary<TKey, TValue> 和 SortedList<TKey, TValue> 泛型類)每個元素都是一個鍵值對。
接下來,我們將分別討論和比較下一些常用的集合。
數組Array
Array不是System.Collections的一部分,但是它繼承自IList接口。.net的Array可以有多維數組、交錯數組,甚至創建下限不是0是數組,默認情況下推薦使用下限是0的一維數組,這常用的數組是經過優化的,性能最高。
與System.Collections集合不同的是,Array具有固定的容量,若要增加容量,您必須創建具有所需容量的新 Array 對象,將舊 Array 對象中的元素復制到新對象中,然後刪除該舊 Array。而System.Collections下的集合在達到當前容量時可自動擴充容量:內存被重新分配,元素從舊集合復制到新集合中。 這減少了使用集合所需的代碼,但是,集合的性能可能仍受到消極影響。 因此我們應將初始容量設置為集合的估計的大小以避免因多次重新分配導致的不佳性能。
System.Collections下的集合類
該類型的集合都具有排序功能且大多數經過了索引。能自動處理內存管理,容量按需擴大。
ArrayList和List<T>:List<T>是ArrayList的泛型版本,它們和Array一樣都是基於索引訪問,每個數據項只保存一個數據值,但是它們提供比Array更強大的功能和操作,使得它們也更容易使用。性能方面,泛型版本總是比非泛型更優先采用,除非成員類型是object類型,因為泛型版本免除了裝箱和拆箱的操作;在不需要重新分配集合容量的情況下,List<T>的性能與同類型的數組十分相近。另外,ArrayList可以很方便的創建同步版本,但Array和List<T>的同步工作必須有自己完成。
Hashtable 和 Dictionary 集合類型:這些集合每個項是一個鍵值對。Dictionary<Tkey,Tvalue>是Hashtable的泛型版本。Hashtable對象是由包含集合元素的存儲桶組成的,每個存儲桶與使用元素鍵基於哈希函數生成的一個哈希碼關聯,包含多個元素。因此這類集合比其它的大多數集合在搜索和檢索數據上更快捷。而同樣的Dictionary<Tkey,Tvalue>總是比Hashtable性能更好,因此推薦使用,多線程同步使用ConcurrentDictionary<TKey, TValue>類。
已排序的集合類型:System.Collections.SortedList 類、System.Collections.Generic.SortedList<TKey, TValue> 泛型類和System.Collections.Generic.SortedDictionary<TKey, TValue> 泛型類,它們都實現 IDictionary 接口,兩個泛型類還實現了System.Collections.Generic.IDictionary<TKey, TValue>,與Hashtable類似每個元素都是一個鍵值對,但是它們以基於鍵的排序順序維護元素,並沒有哈希表的 O(1) 插入和檢索特性。非泛型的枚舉項是DictionaryEntry 對象,而兩個泛型類型返回 KeyValuePair<TKey, TValue> 對象。它們最重要的重點是它們是按照System.Collections.IComparer實現或System.Collections.Generic.IComparer<T>的實現排好序的。SortedList允許我們通過索引和鍵訪問,而SortedDictionary只能通過鍵訪問,SortedList還更省內存。
隊列和堆棧:就不多做介紹了,如果要臨時存儲數據,數據只在訪問一次後就放棄,就可以使用這類集合。隊列和堆棧的差別就在於訪問的先後不一樣,相信大家都很清楚了。他們也分別有各自的泛型版本和線程安全版本:System.Collections.Queue 類、System.Collections.Generic.Queue<T> 類和System.Collections.Concurrent.ConcurrentQueue<T>,System.Collections.Stack類以及 System.Collections.Generic.Stack<T> 和System.Collections.Concurrent.ConcurrentStack<T>。
Set集合:該類型集合的兩個類型HashSet<T> 和 SortedSet<T>,都實現了ISet<T>接口。Set集合最接近於數學中的集合,專門用於實現了數學的Set操作,如並集、交集等運算。其中Hashset<T>沒有排序,不能有重復元素,可以視為Dictionary<TKey,TValue>的不包含值的版本,基於哈希鍵提供高性能的Set運算。而SortedSet<T>提供排好序的Set操作的集合。這裡要提的是有些集合也提供了Set運算的擴展方法和LINQ也提供的Set運算,不過它們都返回新 的IEnumerable<T>集合,而Set集合的Set操作都是修改當前集合,並且提供一個更大、更可靠的運算集合。
這並不是.net集合的全部,它還有位集合和專用集合。
位集合
它的每個元素是一個標識位,而不是對象。其中有BitVector32和BitArray。
BitVector32是一個結構,只能存儲32位數據,可用來存儲位標識或小整數,它是值類型,因此性能更好。
而BitArray是引用類型,它的容量始終與計數相同,可以通過Length屬性來分配或刪除元素。
專用集合
NameValueCollection 基於 NameObjectCollectionBase;但NameValueCollection 接受一鍵多值,而 NameObjectCollectionBase 只接受一鍵一值。
System.Collections.Specialized 命名空間中的一些強類型集合包括 StringCollection 和 StringDictionary,它們都包含完全是字符串的值集合和字典。
CollectionsUtil 類提供一系列靜態方法可以用來創建不區分大小寫的Hashtable或SortedList集合的實例。
有些集合可以轉換。例如,HybridDictionary 類起初是 ListDictionary,增大後就變為 Hashtable。
另外,KeyedCollection<TKey, TItem> 是介於列表和字典之間的混合類型,它提供了一種存儲包含自己鍵的對象的方法,當元素數目達到指定阈值時,它也可以創建查找字典。
ListDictionary:使用單向鏈接列表實現 IDictionary。建議為通常包括少於 10 個項目的集合,當數據項較少時,提供比Hashtable更好的性能。
LINQ to Objects
我們可以使用 LINQ 查詢來訪問內存中的實現了System.Collections.IEnumerable 或 System.Collections.Generic.IEnumerable<T> 接口對象。
它提供了一種通用的數據訪問模式;與標准 foreach 循環相比,它通常更加簡潔,可讀性更高;提供了強大的篩選、排序和分組功能。
如何抉擇
我們首先要明確,如果存在泛型版本,優先使用。
選擇之前請先確定幾個問題:
是否需要按序列訪問,元素在訪問後放棄?
訪問的順序是先進先出或後進先出、隨機訪問?
是基於索引的訪問,還是基於鍵的訪問?
是只有值,還是鍵值對形式?
是一對一,還是一對多?
是否允許重復?
是按進入的順序保存,還是需要按一定的規則排好序的,還是無所謂?
是否需要更快速度的檢索和訪問?