程式師世界 >> 編程語言 >> 更多編程語言 >> 匯編語言 >> 匯編語言學習指南(三)

匯編語言學習指南(三)

編輯：匯編語言

“匯編語言”作為一門語言，對應於高級語言的編譯器，我們需要一個“匯編器”來把匯編語言原文件匯編成機器可執行的代碼。高級的匯編器如MASM, TASM等等為我們寫匯編程序提供了很多類似於高級語言的特征，比如結構化、抽象等。在這樣的環境中編寫的匯編程序，有很大一部分是面向匯編器的偽指令，已經類同於高級語言。現在的匯編環境已經如此高級，即使全部用匯編語言來編寫windows的應用程序也是可行的，但這不是匯編語言的長處。匯編語言的長處在於編寫高效且需要對機器硬件精確控制的程序。而且我想這裡的人學習匯編的目的多半是為了在破解時看懂反匯編代碼，很少有人真的要拿匯編語言編程序吧？（汗......）

好了，言歸正傳。大多數匯編語言書都是面向匯編語言編程的，我的帖是面向機器和反匯編的，希望能起到相輔相成的作用。有了前面兩篇的基礎，匯編語言書上對大多數指令的介紹應該能夠看懂、理解了。這裡再講一講一些常見而操作比較復雜的指令。我這裡講的都是機器的硬指令，不針對任何匯編器。

無條件轉移指令jmp:

這種跳轉指令有三種方式：短(short)，近(near)和遠(far)。短是指要跳至的目標地址與當前地址前後相差不超過128字節。近是指跳轉的目標地址與當前地址在用一個段內，即CS的值不變，只改變EIP的值。遠指跳到另一個代碼段去執行，CS/EIP都要改變。短和近在編碼上有所不同，在匯編指令中一般很少顯式指定，只要寫 jmp 目標地址，幾乎任何匯編器都會根據目標地址的距離采用適當的編碼。遠轉移在32位系統中很少見到，原因前面已經講過，由於有足夠的線性空間，一個程序很少需要兩個代碼段，就連用到的系統模塊也被映射到同一個地址空間。

jmp的操作數自然是目標地址，這個指令支持直接尋址和間接尋址。間接尋址又可分為寄存器間接尋址和內存間接尋址。舉例如下(32位系統):

jmp 8E347D60 ;直接尋址段內跳轉
jmp EBX ;寄存器間接尋址：只能段內跳轉
jmp dword ptr [EBX] ;內存間接尋址，段內跳轉
jmp dword ptr [00903DEC] ;同上
jmp fward ptr [00903DF0] ;內存間接尋址，段間跳轉

解釋：
在32位系統中，完整目標地址由16位段選擇子和32位偏移量組成。因為寄存器的寬度是32位，因此寄存器間接尋址只能給出32位偏移量，所以只能是段內近轉移。在內存間接尋址時，指令後面是方括號內的有效地址，在這個地址上存放跳轉的目標地址。比如，在[00903DEC]處有如下數據：7C 82 59 00 A7 01 85 65 9F 01

內存字節是連續存放的，如何確定取多少作為目標地址呢？dword ptr 指明該有效地址指明的是雙字，所以取
0059827C作段內跳轉。反之，fward ptr 指明後面的有效地址是指向48位完全地址，所以取19F:658501A7 做遠跳轉。

注意：在保護模式下，如果段間轉移涉及優先級的變化，則有一系列復雜的保護檢查，現在可不加理會。將來等各位功力提升以後可以自己去學習。

條件轉移指令jxx:只能作段內轉移，且只支持直接尋址。

=========================================
調用指令CALL:

Call的尋址方式與jmp基本相同，但為了從子程序返回，該指令在跳轉以前會把緊接著它的下一條指令的地址壓進堆棧。如果是段內調用（目標地址是32位偏移量），則壓入的也只是一個偏移量。如果是段間調用（目標地址是48位全地址），則也壓入下一條指令的完全地址。同樣，如果段間轉移涉及優先級的變化，則有一系列復雜的保護檢查。

與之對應retn/retf指令則從子程序返回。它從堆棧上取得返回地址（是call指令壓進去的）並跳到該地址執行。retn取32位偏移量作段內返回，retf取48位全地址作段間返回。retn/f 還可以跟一個立即數作為操作數，該數實際上是從堆棧上傳給子程序的參數的個數（以字計）返回後自動把堆棧指針esp加上指定的數*2，從而丟棄堆棧中的參數。這裡具體的細節留待下一篇講述。

雖然call和ret設計為一起工作，但它們之間沒有必然的聯系。就是說，如果你直接用push指令向堆棧中壓入一個數，然後執行ret，他同樣會把你壓入的數作為返回地址，而跳到那裡去執行。這種非正常的流程轉移可以被用作反跟蹤手段。

==========================================

中斷指令INT n

在保護模式下，這個指令必定會被操作系統截獲。在一般的PE程序中，這個指令已經不太見到了，而在DOS時代，中斷是調用操作系統和BIOS的重要途徑。現在的程序可以文質彬彬地用名字來調用windows功能，如 call user32!getwindowtexta。從程序角度看，INT指令把當前的標志寄存器先壓入堆棧，然後把下一條指令的完全地址也壓入堆棧，最後根據操作數n來檢索“中斷描述符表”，試圖轉移到相應的中斷服務程序去執行。通常，中斷服務程序都是操作系統的核心代碼，必然會涉及到優先級轉換和保護性檢查、堆棧切換等等，細節可以看一些高級的教程。

與之相應的中斷返回指令IRET做相反的操作。它從堆棧上取得返回地址，並用來設置CS:EIP,然後從堆棧中彈出標志寄存器。注意，堆棧上的標志寄存器值可能已經被中斷服務程序所改變，通常是進位標志C, 用來表示功能是否正常完成。同樣的，IRET也不一定非要和INT指令對應，你可以自己在堆棧上壓入標志和地址，然後執行IRET來實現流程轉移。實際上，多任務操作系統常用此伎倆來實現任務轉換。

廣義的中斷是一個很大的話題，有興趣可以去查閱系統設計的書籍。

============================================
裝入全指針指令LDS,LES,LFS,LGS,LSS

這些指令有兩個操作數。第一個是一個通用寄存器，第二個操作數是一個有效地址。指令從該地址取得48位全指針，將選擇符裝入相應的段寄存器，而將32位偏移量裝入指定的通用寄存器。注意在內存中，指針的存放形式總是32位偏移量在前面，16位選擇符在後面。裝入指針以後，就可以用DS:[ESI]這樣的形式來訪問指針指向的數據了。

============================================
字符串操作指令

這裡包括CMPS,SCAS,LODS,STOS,MOVS,INS和OUTS等。這些指令有一個共同的特點，就是沒有顯式的操作數，而由硬件規定使用DS:[ESI]指向源字符串，用ES:[EDI]指向目的字符串，用AL/AX/EAX做暫存。這是硬件規定的，所以在使用這些指令之前一定要設好相應的指針。

這裡每一個指令都有3種寬度形式，如CMPSB(字節比較)、CMPSW(字比較)、CMPSD(雙字比較)等。
CMPSB:比較源字符串和目標字符串的第一個字符。若相等則Z標志置1。若不等則Z標志置0。指令執行完後，ESI 和EDI都自動加1，指向源/目標串的下一個字符。如果用CMPSW,則比較一個字，ESI/EDI自動加2以指向下一個字。
如果用CMPSD,則比較一個雙字，ESI/EDI自動加4以指向下一個雙字。（在這一點上這些指令都一樣，不再贅述）
SCAB/W/D 把AL/AX/EAX中的數值與目標串中的一個字符/字/雙字比較。
LODSB/W/D 把源字符串中的一個字符/字/雙字送入AL/AX/EAX
STOSB/W/D 把AL/AX/EAX中的直送入目標字符串中
MOVSB/W/D 把源字符串中的字符/字/雙字復制到目標字符串
INSB/W/D 從指定的端口讀入字符/字/雙字到目標字符串中，端口號碼由DX寄存器指定。
OUTSB/W/D 把源字符串中的字符/字/雙字送到指定的端口，端口號碼由DX寄存器指定。

串操作指令經常和重復前綴REP和循環指令LOOP結合使用以完成對整個字符串的操作。而REP前綴和LOOP指令都有硬件規定用ECX做循環計數器。舉例：

LDS ESI,SRC_STR_PTR
LES EDI,DST_STR_PTR
MOV ECX,200
REP MOVSD

上面的代碼從SRC_STR拷貝200個雙字到DST_STR. 細節是：REP前綴先檢查ECX是否為0，若否則執行一次MOVSD,ECX自動減1，然後執行第二輪檢查、執行......直到發現ECX=0便不再執行MOVSD,結束重復而執行下面的指令。

LDS ESI,SRC_STR_PTR
MOV ECX,100
LOOP1:
LODSW
.... (deal with value in AX)

LOOP LOOP1
.....

從SRC_STR處理100個字。同樣，LOOP指令先判斷ECX是否為零，來決定是否循環。每循環一輪ECX自動減1。

REP和LOOP 都可以加上條件，變成REPZ/REPNZ 和 LOOPZ/LOOPNZ. 這是除了ECX外，還用檢查零標志Z. REPZ 和LOOPZ在Z為1時繼續循環，否則退出循環，即使ECX不為0。REPNZ/LOOPNZ則相反。

====================================================