程式師世界 >> 編程語言 >> JAVA編程 >> 關於JAVA >> Java多線程初學者指南（9）：為什麼要進行數據同步

Java多線程初學者指南（9）：為什麼要進行數據同步

編輯：關於JAVA

Java中的變量分為兩類：局部變量和類變量。局部變量是指在方法內定義的變量，如在run方法中定義的變量。對於這些變量來說，並不存在線程之間共享的問題。因此，它們不需要進行數據同步。類變量是在類中定義的變量，作用域是整個類。這類變量可以被多個線程共享。因此，我們需要對這類變量進行數據同步。

數據同步就是指在同一時間，只能由一個線程來訪問被同步的類變量，當前線程訪問完這些變量後，其他線程才能繼續訪問。這裡說的訪問是指有寫操作的訪問，如果所有訪問類變量的線程都是讀操作，一般是不需要數據同步的。

那麼如果不對共享的類變量進行數據同步，會發生什麼情況呢？讓我們先看看下面的代碼會發生什麼樣的事情：

package　test; public　class　MyThread　extends　Thread { public　static　int　n　=　0; public　void　run() { int　m　=　n; yield(); m++; n　=　m; } public　static　void　main(String[]　args)　throws　Exception { MyThread　myThread　=　new　MyThread　(); Thread　threads[]　=　new　Thread[100]; for　(int　i　=　0;　i　<　threads.length;　i++) threads[i]　=　new　Thread(myThread); for　(int　i　=　0;　i　<　threads.length;　i++) threads[i].start(); for　(int　i　=　0;　i　<　threads.length;　i++) threads[i].join(); System.out.println("n　=　"　+　MyThread.n); } }

在執行上面代碼的可能結果如下：

n　=　59

看到這個結果，可能很多讀者會感到奇怪。這個程序明明是啟動了100個線程，然後每個線程將靜態變量n加1。最後使用join方法使這100個線程都運行完後，再輸出這個n值。按正常來講，結果應該是n = 100。可偏偏結果小於100。

其實產生這種結果的罪魁禍首就是我們經常提到的“髒數據”。而run方法中的yield()語句就是產生“髒數據”的始作俑者（不加yield語句也可能會產生“髒數據”，但不會這麼明顯，只有將100改成更大的數，才會經常產生“髒數據”，在本例中調用yield就是為了放大“髒數據”的效果）。yield方法的作用是使線程暫停，也就是使調用yield方法的線程暫時放棄CPU資源，使CPU有機會來執行其他的線程。為了說明這個程序如何產生“髒數據”，我們假設只創建了兩個線程：thread1和thread2。由於先調用了thread1的start方法，因此，thread1的run方法一般會先運行。當thread1的run方法運行到第一行（int m = n;）時，將n的值賦給m。當執行到第二行的yield方法後，thread1就會暫時停止執行，而當thread1暫停時，thread2獲得了CPU資源後開始運行（之前thread2一直處於就緒狀態），當thread2執行到第一行(int m = n;)時，由於thread1在執行到yield時n仍然是0，因此，thread2中的m獲得的值也是0。這樣就造成了thread1和thread2的m獲得的都是0。在它們執行完yield方法後，都是從0開始加1，因此，無論誰先執行完，最後n的值都是1，只是這個n被thread1和thread2各賦了一遍值。這個過程如下圖如示：

也許有人會問，如果只有n++，會產生“髒數據”嗎？答案是肯定的。那麼n++只是一條語句，又如何在執行過程中將CPU交給其他的線程呢？其實這只是表面現象，n++在被Java編譯器編譯成中間語言（也叫做字節碼）後，並不是一條語言。讓我們看看下面的Java代碼將會被編譯成什麼樣的Java中間語言。

Java源代碼

public　void　run() { n++; }

被編譯後的中間語言代碼

001　　public　void　run() 002　　{ 003　　　　　　aload_0 004　　　　　　dup 005　　　　　　getfield 006　　　　　　iconst_1 007　　　　　　iadd 008　　　　　　putfield 009　　　　　　return 010　　}

大家可以看到在run方法中只有n++一條語句，而在編譯後，卻有7條中間語言語句。我們並不需要知道這些語句的功能是什麼，只看一下第005、007和008行語句。在005行是getfield，根據它的英文含義可知是要得到某個值，因為這裡只有一個n，所以毫無疑問，是要得到n的值。而在007行的iadd也不難猜測是將這個得到的n值加1。在008行的putfield的含義我想大家可能已經猜出來了，它負責將這個加1後的n再更新回類變量n。說到這，可能大家還有一個疑惑，執行n++時直接將n加1不就行了，為什麼要如此費周折。其實這裡涉及到一個Java內存模型的問題。

Java的內存模型分為主存儲區和工作存儲區。主存儲區保存了Java中所有的實例。也就是說，在我們使用new來建立一個對象後，這個對象及它內部的方法、變量等都保存在這一區域，在MyThread類中的n就保存在這個區域。主存儲區可以被所有線程共享。而工作存儲區就是我們前面所講的線程棧，在這個區域裡保存了在run方法以及run方法所調用的方法中定義的變量，也就是方法變量。在線程要修改主存儲區中的變量時，並不是直接修改這些變量，而是將它們先復制到當前線程的工作存儲區，在修改完後，再將這個變量值覆蓋主存儲區的相應的變量值。

在了解了Java的內存模型後，就不難理解為什麼n++也不是原子操作了。它必須經過一個拷貝、加1和覆蓋的過程。這個過程和在MyThread類中模擬的過程類似。大家可以想象，如果在執行到getfield時，thread1由於某種原因被中斷，那麼就會發生和MyThread類的執行結果類似的情況。要想徹底解決這個問題，就必須使用某種方法對n進行同步，也就是在同一時間只能有一個線程操作n，這也稱為對n的原子操作。