程式師世界 >> 數據庫知識 >> MYSQL數據庫 >> MYSQL入門知識 >> 自己實現一個最簡單的數據庫

自己實現一個最簡單的數據庫

編輯：MYSQL入門知識

所有應用軟件之中，數據庫可能是最復雜的。

MySQL的手冊有3000多頁，PostgreSQL的手冊有2000多頁，Oracle的手冊更是比它們相加還要厚。

但是，自己寫一個最簡單的數據庫，做起來並不難。Reddit上面有一個帖子，只用了幾百個字，就把原理講清楚了。下面是我根據這個帖子整理的內容。

一、數據以文本形式保存

第一步，就是將所要保存的數據，寫入文本文件。這個文本文件就是你的數據庫。

為了方便讀取，數據必須分成記錄，每一條記錄的長度規定為等長。比如，假定每條記錄的長度是800字節，那麼第5條記錄的開始位置就在3200字節。

大多數時候，我們不知道某一條記錄在第幾個位置，只知道主鍵（primary key）的值。這時為了讀取數據，可以一條條比對記錄。但是這樣做效率太低，實際應用中，數據庫往往采用B樹（B-tree）格式儲存數據。

二、什麼是B樹？

要理解B樹，必須從二叉查找樹（Binary search tree）講起。

二叉查找樹

二叉查找樹是一種查找效率非常高的數據結構，它有三個特點。

（1）每個節點最多只有兩個子樹。

（2）左子樹都為小於父節點的值，右子樹都為大於父節點的值。

（3）在n個節點中找到目標值，一般只需要log(n)次比較。

二叉查找樹的結構不適合數據庫，因為它的查找效率與層數相關。越處在下層的數據，就需要越多次比較。極端情況下，n個數據需要n次比較才能找到目標值。對於數據庫來說，每進入一層，就要從硬盤讀取一次數據，這非常致命，因為硬盤的讀取時間遠遠大於數據處理時間，數據庫讀取硬盤的次數越少越好。

B樹是對二叉查找樹的改進。它的設計思想是，將相關數據盡量集中在一起，以便一次讀取多個數據，減少硬盤操作次數。

B-tree

B樹的特點也有三個。

（1）一個節點可以容納多個值。比如上圖中，最多的一個節點容納了4個值。

（2）除非數據已經填滿，否則不會增加新的層。也就是說，B樹追求”層”越少越好。

（3）子節點中的值，與父節點中的值，有嚴格的大小對應關系。一般來說，如果父節點有a個值，那麼就有a+1個子節點。比如上圖中，父節點有兩個值（7和16），就對應三個子節點，第一個子節點都是小於7的值，最後一個子節點都是大於16的值，中間的子節點就是7和16之間的值。

這種數據結構，非常有利於減少讀取硬盤的次數。假定一個節點可以容納100個值，那麼3層的B樹可以容納100萬個數據，如果換成二叉查找樹，則需要20層！假定操作系統一次讀取一個節點，並且根節點保留在內存中，那麼B樹在100萬個數據中查找目標值，只需要讀取兩次硬盤。