程式師世界 >> 編程語言 >> C語言 >> C++ >> C++入門知識 >> 最常用的兩種C++序列化方案的使用心得（protobuf和boost serialization）

最常用的兩種C++序列化方案的使用心得（protobuf和boost serialization）

編輯：C++入門知識

1. 什麼是序列化？ 2. 為什麼要序列化？好處在哪裡？ 3. C++對象序列化的四種方法 4. 最常用的兩種序列化方案使用心得正文 1. 什麼是序列化？程序員在編寫應用程序的時候往往需要將程序的某些數據存儲在內存中，然後將其寫入某個文件或是將它傳輸到網絡中的另一台計算機上以實現通訊。這個將程序數據轉化成能被存儲並傳輸的格式的過程被稱為“序列化”（Serialization），而它的逆過程則可被稱為“反序列化” （Deserialization）。簡單來說，序列化就是將對象實例的狀態轉換為可保持或傳輸的格式的過程。與序列化相對的是反序列化，它根據流重構對象。這兩個過程結合起來，可以輕松地存儲和傳輸數據。例如，可以序列化一個對象，然後使用 HTTP 通過 Internet 在客戶端和服務器之間傳輸該對象。總結序列化：將對象變成字節流的形式傳出去。反序列化：從字節流恢復成原來的對象。 2. 為什麼要序列化？好處在哪裡？簡單來說，對象序列化通常用於兩個目的：（1）將對象存儲於硬盤上，便於以後反序列化使用（2）在網絡上傳送對象的字節序列對象序列化的好處在哪裡？網絡傳輸方面的便捷性、靈活性就不說了，這裡舉個我們經常可能發生的需求：你有一個數據結構，裡面存儲的數據是經過很多其它數據通過非常復雜的算法生成的，由於數據量很大，算法又復雜，因此生成該數據結構所用數據的時間可能要很久（也許幾個小時，甚至幾天），生成該數據結構後又要用作其它的計算，那麼你在調試階段，每次運行個程序，就光生成數據結構就要花上這麼長的時間，無疑代價是非常大的。如果你確定生成數據結構的算法不會變或不常變，那麼就可以通過序列化技術生成數據結構數據存儲到磁盤上，下次重新運行程序時只需要從磁盤上讀取該對象數據即可，所花費時間也就讀一個文件的時間，可想而知是多麼的快，節省了我們的開發時間。 3. C++對象序列化的四種方法將C++對象進行序列化的方法一般有四種，下面分別介紹： 3.1 Google Protocol Buffers（protobuf） Google Protocol Buffers (GPB)是Google內部使用的數據編碼方式，旨在用來代替XML進行數據交換。可用於數據序列化與反序列化。主要特性有：高效語言中立(Cpp, Java, Python) 可擴展官方文檔 3.2 Boost.Serialization Boost.Serialization可以創建或重建程序中的等效結構，並保存為二進制數據、文本數據、XML或者有用戶自定義的其他文件。該庫具有以下吸引人的特性：代碼可移植（實現僅依賴於ANSI C++）。深度指針保存與恢復。可以序列化STL容器和其他常用模版庫。數據可移植。非入侵性。 3.3 MFC Serialization Windows平台下可使用MFC中的序列化方法。MFC 對 CObject 類中的序列化提供內置支持。因此，所有從 CObject 派生的類都可利用 CObject 的序列化協議。 MSDN中的介紹 3.4 .Net Framework .NET的運行時環境用來支持用戶定義類型的流化的機制。它在此過程中，先將對象的公共字段和私有字段以及類的名稱（包括類所在的程序集）轉換為字節流，然後再把字節流寫入數據流。在隨後對對象進行反序列化時，將創建出與原對象完全相同的副本。 3.5 簡單總結這幾種序列化方案各有優缺點，各有自己的適用場景。其中MFC和.Net框架的方法適用范圍很窄，只適用於Windows下，且.Net框架方法還需要.Net的運行環境。參考文獻1從序列化時間、反序列化時間和產生數據文件大小這幾個方面比較了前三種序列化方案，得出結論如下（僅供參考）： Google Protocol Buffers效率較高，但是數據對象必須預先定義，並使用protoc編譯，適合要求效率，允許自定義類型的內部場合使用。 Boost.Serialization 使用靈活簡單，而且支持標准C++容器。相比而言，MFC的效率較低，但是結合MSVS平台使用最為方便。為了考慮平台的移植性、適用性和高效性，推薦大家使用Google的protobuf和Boost的序列化方案，下面介紹我使用這兩種方案的心得及注意事項。 4. 最常用的兩種序列化方案使用心得關於這兩種方案的具體使用和示例沒什麼好寫的，因為優秀的參考資料很多，請看後面給出的相關參考資料，這裡只給出我使用時的一些心得，方便大家在選擇序列化方案時有個正確的參考，避免選擇錯誤，浪費時間。 4.1 Google Protocol Buffers protobuf相對而言效率應該是最高的，不管是安裝效率還是使用效率，protobuf都很高效，而且protobuf不僅用於C++序列化，還可用於Java和Python的序列化，使用范圍很廣。但在使用過程中要注意兩個問題：（1）protobuf支持的數據類型不是很豐富 protobuf屬於輕量級的，因此不能支持太多的數據類型，下面是protobuf支持的基本類型列表，一般都能滿足需求，不過在選擇方案之前，還是先看看是否都能支持，以免前功盡棄。同樣該表也值得收藏，作為我們在定義類型時做參考。 .proto type c++ notes double double float float int32 int32 使用可變長編碼方式，負數時不夠高效，應該使用sint32 int64 int64 同上 uint32 uint32 使用可變長編碼方式 uint64 uint64 同上 sint32 int32 使用可變長編碼方式，有符號的整型值，編碼時比通常的int32高效 sint64 sint64 同上 fixed32 uint32 總是4個字節，如果數值總是比2^28大的話，這個類型會比uint32高效 fixed64 uint64 總是8個字節，如果數值總是比2^56大的話，這個類型會比uint64高效 sfixed32 int32 總是4個字節 sfixed64 int64 總是8個字節 bool bool string string 一個字符串必須是utf-8編碼或者7-bit的ascii編碼的文本 bytes string 可能包含任意順序的字節數據（2）protobuf不支持二維數組（指針），不支持STL容器序列化這個缺陷挺大，因為稍復雜點的數據結構或類結構裡出現二維數組、二維指針和STL容器（set、list、map等）很頻繁，但因為 protobuf簡單的實現機制，只支持一維數組和指針（用repeated修飾符修飾），不能使用repeated repeated來支持二維數組，也不支持STL，因此在選擇該方案之前，一定要確保你的數據結構裡沒有這些不支持的類型。（3）protobuf嵌套後會改變類名稱 protobuf支持類的嵌套，即在一個自定義類型中可以定義另一個自定義類型，但注意嵌套的自定義類型在經過protobuf處理後生成的類名稱並不是你定義的類名稱，而是加上了外層的類名稱作為前綴，下面舉一個簡單的例子：復制代碼 message DFA { required int32 _size = 1; message accept_pair { required bool is_accept_state = 1; required bool is_strict_end = 2; optional string app_name = 3; } repeated accept_pair accept_states = 2; } 復制代碼那麼嵌套中的accept_pair 生成後的類不是accept_pair 而是DFA_accept_pair 。如果不想改類名稱，將accept_pair 拿到外面與DFA平行定義即可。 4.2 Boost.Serialization Boost庫是個很龐大的庫，功能非常豐富，序列化只是其中的一個小分支，但為了使用Boost的序列化方案，你需要安裝整個Boost庫，所花費的磁盤空間和時間都很多，同樣支持的序列化功能也很強大，既支持二維數組（指針），也支持STL容器，更不需要我們用某種特殊的格式重新定義我們的類結構，其非侵入的性質使得我們無須改動已有的類結構即可序列化，這時非常贊的一個性質。但是由於體積龐大，安裝復雜，如果只是簡單的序列化，沒必要使用該方案，只有protobuf不能滿足你的需求時，才應該考慮該方案。（1）安裝boost庫遇到的一系列問題安裝boost庫本事就是一項很費時的工程，如果期間出現了各種錯誤，更加耗時耗耐心。我們可以從官網下載Boost庫的二進制源碼進行安裝，安裝方法請參考網絡或後面我給出的參考資料，下面給出安裝時的注意事項：注意1：要用root權限進行安裝，否則會在安裝過程中報錯，提示權限不足。注意2：boost庫的安裝依賴一些環境，通常有Python、bzip2和zlib，它們所在的軟件包分別為： Ubuntu下： zlib1g-dev libbz2-dev libpython2.7-dev (and libpython3.3-dev) Fedora/Redhat下： zlib-devel libbz2-devel python-devel (and python3-devel) 這也是安裝過程中報錯的主要來源。報錯1：如果Python庫不完整，可能會報“ fatal error: pyconfig.h: No such file or directory compilation terminated.”錯誤。解決方法如下： Fedora系統：sudo yum install python-devel Ubuntu系統：sudo apt-get install python-dev 報錯2：報錯 “ libs/iostreams/src/bzip2.cpp:20:56: fatal error: bzlib.h: No such file or directory”，解決方案： Fedora系統：sudo yum install bzip2-devel Ubuntu系統或Debian系統：sudo apt-get install libbz2-dev 通常對於這些錯誤，在Ubuntu系統下一般可以通過sudo apt-get install libboost-all-dev全部解決，但不一定行得通。（2）安裝成功後，如果未指定安裝位置，那麼默認將會安裝到/usr/local/lib和/usr/local/include下，那麼我們在使用Boost庫進行編譯時就需要使用-L和-I參數加上具體的lib和include路徑，像下面這樣： g++ -o test boost_test.cpp -I$BOOST_INCLUDE -L$BOOST_LIB -lboost_serialization 如果覺得每次都這樣很麻煩，那麼可以將我們所要用到的lib和include文件加入到環境變量中，像下面這樣： sudo cp /usr/local/lib/libboost_serialization.* /usr/lib sudo cp -r /usr/local/include/boost /usr/include 然後在編譯時直接g++ -o test boost_test.cpp -lboost_serialization即可。注意：boost下面有兩個序列化lib文件：ibboost_serialization.lib 和 libboost_wserialization.lib，那麼這兩者有什麼區別呢？其實'w' 表示使用的是寬字符，例如 wchar_t。（3）boost不盡人意的地方基本類型指針很難序列化，例如int *array，官網上是這麼說的： By default, data types designated primitive by Implementation Levelclass serialization trait are never tracked. If it is desired totrack a shared primitive object through a pointer (e.g. along used as a reference count), It should be wrappedin a class/struct so that it is an identifiable type.The alternative of changing the implementation level of alongwould affect alllongs serialized in the wholeprogram - probably not what one would intend. 也就是說如果你想序列化原生類型的指針，需要給其加上struct或class使其變為類類型再序列化，可見有些麻煩，這樣的需求往往也很頻繁，鑒於序列化機制的實現原理，boost庫暫時還不能很好的支持基本類型的指針序列化。不能序列化變長數組（variable-sized array），會報錯說變長數組不是模板類類型。（4）如果需要定義一個對象數組，如定義含有2個元素的class A對象數組，那麼必須用A a[2]定義而不能用對象的指針A *a = new A[2]定義，這樣序列化a後默認當作一個A對象處理，因此只能存儲一個對象的值，後面的不會存儲。（5）所謂boost很人性的非侵入性質也有一定的條件：如果不想改動原來的類，那麼原來的類屬性必須是public的，這很容易解釋，因為你必須要能在別處訪問到這些屬性並定義其序列化方式，當然這也在其它地方暴露了類的結構，具有一定的劣勢。這樣的條件往往很難滿足，因為我們定義的類屬性一般都是private的，如果是這樣，且仍想要使用非侵入性質，那麼需要在類中添加以下聲明來開放訪問給 serialization 庫： friend class boost::serialization::access; 這樣的方式比讓成員public更好。