許多計算密集型的應用都需要處理大量內存,這種應用中的內存初始化是一個常規操作,而內存和CPU內部的數據交換之間的速度瓶頸決定了內存初始化將會占用可觀的時間。但因為應用程序初始化內存往往調用CRT的memset或者Windows
API的ZeroMemory,很少有人在初始化方面進行優化。
另一方面,現在的應用硬件一般配置都比較好,大部分應用都運行在PII之上,但我們在使用諸如VC之類的編譯環境時往往選擇速度優化,並選擇合適的處理器,然後寄希望於編譯器給我們生成優化的結果,結果往往發現並不如意。
在我們的一個圖像處理項目中,需要大量內存操作,而且多個線程同時運行,內存存取成為了各個模塊的競爭資源,所以對內存存取優化成為項目的關鍵。在努力減少內存操作遍數的基礎上,加快內存初始化成為我們的改進重點。
在用VC各種手段都沒有太多改進後,我們把目光轉向處理器特征。從Pentium系列開始,一方面Intel在不斷提高CPU主頻,同時也在針對多媒體等應用相繼推出MMX/SSE/SSE2,增加了許多多位快速處理指令。在高層語言方面,Intel的C++
Compiler提供了針對不同處理器的最優化結果。但在一個成熟項目中貿然使用另外一種編譯環境的風險較大,所以我們從Intel環境中抽取了memset的實現,重新組織了一個Lib,並在我們的項目中針對內存初始化進行了改動,並鏈接到抽取的lib庫中。在內存初始化方面有了一個較大的提高。
下面我們用測試例子說明該過程。
一個例子
在測試程序中,分別調用微軟C庫的memset和intel版本的memset分別對100M內存進行60遍初始化,,為了模擬多線程環境,啟動了兩個線程同時進行內存初始化。測試時使用了Release版,為了方面查看包含了調試信息(調試信息無影響)。測試結果:
MSC 版本:12.453~12.547秒
Intel C版本:4.375~4.531秒
可見在大量內存操作時差別比較大。對內存存取密集型項目,因為內存存取往往是瓶頸,應該還可以提高整體處理性能。
下面是例子的代碼:
// 本程序示例了使用微軟CRT的memset和Intel優化的memset初始化內存的速度差異
// Lihw.
#include
#include
#include
extern "C"
void * __cdecl __intel_new_memset(void *, int, size_t);
#pragma comment(lib,"intelmem.lib")
#define SIZE 1024*1024*100
void threadfunc(void *dummy)
{
LPBYTE lpByte = (LPBYTE)dummy;//new BYTE[SIZE];
int j;
#define LoopTimes 60
DWORD dwStart, dwTime1,dwTime2;
//
//intel version
dwStart = GetTickCount();
for (j=0; j< LoopTimes; j++)
{
__intel_new_memset(lpByte,1,SIZE);
}
dwTime1 = GetTickCount() - dwStart;
//MS crt version
dwStart = GetTickCount();
for (j=0; j< LoopTimes; j++)
{
memset(lpByte,1,SIZE);
//ZeroMemory(lpByte,SIZE);
}
dwTime2 = GetTickCount() - dwStart;
//delete []lpByte;
printf("Intel=%dms MSC=%dms\n",dwTime1,dwTime2);
}
int main(int argc, char* argv[])
{
#define THREADS 2
HANDLE hThread[THREADS]; //array to hold thread handle
LPBYTE lpByte[THREADS]; //Array to hold thread-specific memory
int i;
//Count mem alloc time. Debug version is very long
DWORD dwStart = GetTickCount();
for (i=0; i
{
lpByte[i] = new BYTE[SIZE];
}
printf("Alloc spend=%d\n",GetTickCount() - dwStart);
//Start thread
for (i=0; i
hThread[i] = (HANDLE)_beginthread( threadfunc, 0, lpByte[i] );
//threadfunc(lpByte[i]);
WaitForMultipleObjects(THREADS,hThread,TRUE,INFINITE);
for (i=0; i
delete []lpByte[i];
printf("Process Exec time=%dms\n",GetTickCount() - dwStart);
return 0;
}
讓我們來看看究竟上什麼造成這麼大的差別。在Release版本的__intel_new_memset處和memset處設置斷點,打開反匯編窗口:
Intel版本:
31: for (j=0; j< LoopTimes; j++)
32: {
33: __intel_new_memset(lpByte,1,SIZE);
00401017 push 6400000h
0040101C push 1
0040101E push ebx
0040101F call ___intel_new_memset (00401110)
00401024 add esp,0Ch
00401027 dec esi
00401028 jne threadfunc+17h (00401017)
34: }