在31年前(1979年),一名剛獲得博士學位的研究員,為了開發一個軟件項目發明了一門新編程語言,該研究員名為Bjarne Stroustrup,該門語言則命名為——C with classes,四年後改稱為C++。C++是一門通用編程語言,支持多種編程范式,包括過程式、面向對象(object-oriented programming, OP)、泛型(generic programming, GP),後來為泛型而設計的模版,被發現及證明是圖靈完備的,因此使C++亦可支持模版元編程范式(template metaprogramming, TMP)。C++繼承了C的特色,既為高級語言,又含低級語言功能,可同時作為系統和應用編程語言。
C++廣泛應用在不同領域,使用者以數百萬計。根據近十年的調查,C++的流行程度約穩定排行第3位(於C/Java之後)。 C++經歷長期的實踐和演化,才成為今日的樣貌。1998年,C++標准委員會排除萬難,使C++成為ISO標准(俗稱C++98),當中含非常強大的標准模版庫(standard template library, STL)。之後委員會在2005年提交了有關標准庫的第一個技術報告(簡稱TR1),並為下一個標准C++0x而努力。可惜C++0x並不能在200x年完成,各界希望新標准能於2011年內出台。
流行的C++編譯器中,微軟Visual C++ 2010已實現部分C++0x語法並加入TR1擴充庫,而gcc對C++0x語法和庫的支持比VC2010更多。
C++並非萬能丹,我按經驗舉出一些C++的適用時機。
按應用領域來說,C++適用於開發服務器軟件、桌面應用、游戲、實時系統、高性能計算、嵌入式系統等。
C++和C的設計哲學並不一樣,兩者取捨不同,所以不同的程序員和軟件項目會有不同選擇,難以一概而論。與C++相比,C具備編譯速度快、容易學習、顯式描述程序細節、較少更新標准(後兩者也可同時視為缺點)等優點。在語言層面上,C++包含絕大部分C語言的功能(例外之一,C++沒有C99的變長數組VLA),且提供OOP和GP的特性。但其實用C也可實現OOP思想,亦可利用宏去實現某程度的GP,只不過C++的語法能較簡潔、自動地實現OOP/GP。C++的RAII(resource acquisition is initialization,資源獲取就是初始化)特性比較獨特,C/C#/Java沒有相應功能。回顧歷史,Stroustrup開發的早期C++編譯器Cpre/Cfront是把C++源代碼翻譯為C,再用C編譯器編譯的。由此可知,C++編寫的程序,都能用等效的C程序代替,但C++在語言層面上提供了OOP/GP語法、更嚴格的類型檢查系統、大量額外的語言特性(如異常、RTTI等),並且C++標准庫也較豐富。有時候C++的語法可使程序更簡潔,如運算符重載、隱式轉換。但另一方面,C語言的API通常比C++簡潔,能較容易供其他語言程序調用。因此,一些C++庫會提供C的API封裝,同時也可供C程序調用。相反,有時候也會把C的API封裝成C++形式,以支持RAII和其他C++庫整合等。
相對運行於虛擬機語言(如C#/Java),C/C++直接以靜態形式把源程序編譯為目標平台的機器碼。一般而言,C/C++程序在編譯及鏈接時可進行的優化最豐富,啟動時的速度最快,運行時的額外內存開銷最少。而C/C++相對動態語言(如Python/Lua)也減少了運行時的動態類型檢測。此外,C/C++的運行行為是確定的,且不會有額外行為(例如C#/Java必然會初始化變量),也不會有如垃圾收集(GC)而造成的不確定性延遲,而且C/C++的數據結構在內存中的布局也是確定的。有時C++的一些功能會使程序性能優於C,當中以內聯和模版最為突出,這兩項功能使C++標准庫的sort()通常比C標准庫的qsort()快多倍(C可用宏或人手編碼去解決此問題)。另一方面,C/C++能直接映射機器碼,之間沒有另一層中間語言,因此可以做底層優化,例如使用內部(intrinsic)函數和嵌入匯編語言。然而,許多C++的性能優點並非免費午餐,代價包括較長的編譯鏈接時間和較易出錯,因而增加開發時間和成本,這點稍後補充。
我進行了一個簡單全局渲染性能測試(512×512像素,每像素10000個采樣),C++ 1小時36分、Java 3小時18分、Python約18天、Ruby約351天。評測方式和其他語言的結果詳見博文。
C++有不錯的跨平台能力,但由於直接映射硬件,因性能優化的關系,跨平台能力不及Java及多數腳本語言。然而,實踐跨平台的C++軟件還是可行的,但須注意以下問題:
總括而言,跨平台C++軟件可在頭文件中用宏檢測編譯器和平台,再用宏、typedef、自定平台相關實現等方法去實踐跨平台,C++標准不會提供這類幫助。
和許多語言相比,C/C++提供不安全的功能以最優化性能,有可能造成崩潰。但要注意,很多運行時錯誤,如向空指針/引用解引用、數組越界、堆棧溢出等,其他語言也會報錯或拋出異常,這些都是程序問題,而不是語言本身的問題。有些意見認為,出現這類運行時錯誤,應該盡量寫入日志並立即崩潰,不該讓程序繼續運行,以免造成更大的影響(例如程序繼續把內存中錯誤的數據覆寫文件)。若要容錯,可按業務把程序分割為多進程,像Chrome或使用fork()的形式。然而,C++有許多機制可以減少錯誤,例如以string代替C字符串;以vector或array(TR1)代替原始數組(有些實現可在調試模式檢測越界);使用智能指針也能減少一些原始指針的問題。另外,我最常遇到的Bug,就是沒有初始化成員變量,有時會導致崩潰,而且調試版和發行版的行為可能不同。
C++同時提供在堆棧上的自動局部變量,以及從自由存儲(free store)分配的對象。對於後者,程序員需手動釋放,或使用不同的容器和智能指針。 C++程序員經常進一步優化內存,自定義內存分配策略以提升效能,例如使用對象池、自定義的單向/雙向堆棧區等。雖然C++0x還沒加入GC功能,但也可以自行編寫或使用現成庫。此外,C/C++也可以直接使用操作系統提供的內存相關功能,例如內存映射文件、共享內存等。
我曾參與的C++項目,都會重造不少標准庫已提供的功能,此情況在其他語言中較少出現。我試圖分析個中原因。首先,C++標准庫相對很多語言來說是貧乏的,各開發者便會重復地制造自訂庫。從另一個角度看,C++標准庫是用C++編寫的(很多其他語言不用自身而是用C/C++去編寫庫),在能力和性能上,自訂庫和標准庫並無本質差別;另外,標准庫為通用而設,對不同平台及多種使用需求作取捨,性能上有所影響,例如EA公司就曾發表自制的EASTL規格,描述游戲開發方面對STL的性能及功能需求的特點;此外,多個C++庫一起使用,經常會因規范不同而引起沖突,又或功能重疊,所以項目可能須自行開發,或引入其他庫的概念或實現(如Boost/TR1/Loki),改寫以符合項目規范。
錯,是非常慢。我認為C++可能是實用程序語言中編譯速度最慢的。此問題涉及C++沿用C的編譯鏈接方式,又加入了復雜的類/泛型聲明和內聯機制,使編譯時間倍增。在C++對編譯方法改革之前(如module提案),可使用以下技巧改善:第一,使用pimpl手法,因性能損耗應用於調用次數不多的類;第二,僅包含必要頭文件,並盡量使用及提供前置聲明版本的頭文件(如iosfwd);第三采用基於接口的設計,但須注意虛函數調用成本;第四,采用unity build,即把多個cpp文件結合在一個編譯單元進行編譯;第五,采用分布式生成系統如IncrediBuild。
雖然C++已經非常復雜,但仍缺少很多常見功能。 C++0x作出了不少改善,例如語言方面加入Lambda函數、閉包、類型推導聲明等,而庫方面則加入正則表達式、采用哈希表的unordered_set/unordered_map、引用計數智能指針shared_ptr/weak_ptr等。但最值得留意的是C++0x引入多線程的語法和庫功能,這是C++演進的一大步。然而,模組、GC、反射機制等功能雖有提案,卻未加進C++0x。
我同意Stroustrup關於使用C++各種技術的回應:“你可以做,不意味著你必須這麼做。(Just because you can do it, doesn’t mean that you have to.)” C++充滿豐富的特性,但同時帶來不同問題,例如過分復雜、編譯及運行性能的損耗。一般可考慮是否使用多重繼承、異常、RTTI,並調節使用模版及模版元編程的程度。使用過分復雜的設計和功能,可能會令部分團隊成員更難理解和維護。
C++的編碼自由度很高,容易編寫風格迥異的代碼,C++本身也沒有定義一些標准規范。而且,C++的源文件物理構成,較許多語言復雜。因此,除了決定特性集,每個團隊應建立一套編程規范,包括源文件格式(可使用文件模版)、花括號風格。
由於C++有對C兼容的包袱,一些功能可以使用C風格實現,但最好使用C++提供的新功能。最基本的是盡量以具名常量、內聯函數和泛型取代宏,只把宏用在條件式編譯及特殊情況。舊式的C要求局部變量聲明在作用域開端,C++則無此限制,應把變量聲明盡量置於鄰近其使用的地方,for()的循環變量聲明可置於for的括號內。 C++中能加強類型安全的功能應盡量使用,例如避免“萬能”指針void *,而使用個別或泛型類型;用bool而非int表示布爾值;選用4種C++ cast關鍵字代替簡單的強制轉換。
如前文所述,C++並非適合所有應用情境,有時可以混合其他語言使用,包括用C++擴展其他語言,或在C++程序中嵌入腳本語言引擎。對於後者,除了使用各種腳本語言的專門API,還可使用Boost或SWIG作整合。
C++缺點之一,是相對許多語言復雜,而且難學難精。許多人說學習C語言只需一本K&R《C程序設計語言》即可,但C++書籍卻是多不勝數。我是從C進入C++,皆是靠閱讀自學。在此分享一點學習心得。個人認為,學習C++可分為4個層次:
由於我主要是應用C++,大約只停留於第二、三個層次。然而,C++只是軟件開發的一環而已,單憑語言並不能應付業務和工程上的問題。建議讀者不要強求幾年內“徹底學會C++的知識”,到達第二層左右便從工作實戰中汲取經驗,有興趣才慢慢繼續學習更高層次的知識。雖然學習C++有難度,但也是相當有趣且有滿足感的。
數十年來,C++雖有起伏,但她依靠其使用者而不斷得到頑強的生命力,相信在我退休之前都不會與她分離,也希望更進一步了解她,與她走進未來。
本文原於《程序員》2010年8月刊揭載。