程式師世界 >> 編程語言 >> 更多編程語言 >> Delphi >> 現有Delphi項目遷移到Tiburon中的注意事項

現有Delphi項目遷移到Tiburon中的注意事項

編輯：Delphi

隨著 Embarcadero 8 月 25 號發布 RAD Studio 2009 （Tiburon) 以來（Tiburon 的 RTM 日期可能要延後到 9 - 10 月），隨著 Tiburon 全面支持 Unicode，現有的 Delphi / C++ Builder 項目要遷移到 Unicode 下應該注意些什麼也成為大家最為關心的問題。Tiburon 對 Unicode 的支持不僅僅是將原來類型映射為 AnsiString 的 String 類型直接改成 WideString，而是對 AnsiString 結構作出修改，同時增加了 UnicodeString 類型來完美支持 Unicode。這意味著，要想平穩遷移到 Unicode 下，程序員不得不對現有代碼作出一定的修改。

在 Tiburon 以前的版本中，AnsiString 和 WideString 除了 data size 不同外，在功能上是相同的。早先版本的 AnsiString 的結構如下：

Format of AnsiString Data Type

Reference Count Length String Data (Byte sized) Null Term -8 -4 0 Length

而這個結構在 Tiburon 中已經發生變化，AnsiString 增加了兩個新的 fields, 一個是 CodePage，一個是 ElemSize，這樣做可以讓新版的 AnsiString 和 UnicodeString 在結構上保持一致。

而 WideString 類型在早先的版本中用來保存雙字節數據。其本質和 Windows BSTR 是一樣的。在 Tiburon 中 WideString 仍然是為 COM 保持兼容的，也就是說它依然沒有引用計數，相比較而言，UnicodeString　在性能和效率上將會是 COM 以外的程序首選的字符類型。

閃亮登場的 UnicodeString 類型

Tiburon 中，新的、默認的 string 就是 UnicodeString。這個類型既可以包含 ANSI 字符，也可以包含 Unicode 字符。下面是 UnicodeString 類型的結構：

Format of UnicodeString Data Type

CodePage Element Size Reference Count Length String Data (element sized) Null Term -12 -10 -8 -4 0 Length * elementsize

UnicodeString 和 AnsiString 都是如上的結構，盡管 UnicodeString 包含是雙字節數據，AnsiString 包含的是單字節的。

用 Object Pascal 語言來描述 UnicodeString 的結構，應該是這樣：

type StrRec = record 　 CodePage: Word; 　 ElemSize: Word; 　 refCount: Integer; 　 Len: Integer; 　 case Integer of 　　 1: array[0..0] of AnsiChar; 　　 2: array[0..0] of WideChar; end;

UnicodeString 增加了 code page 字段和 element size 來描述字符串內容，這使得 UnicodeString 和其它類型的字符串可以很好的相兼容，所以 AnsiString 和 UnicodeString 可以很方便的互相轉換，唯一要注意的是，當把 UnicodeString 向下轉型到 AnsiString 的時候，可能會丟失數據，因此強烈建議你不要這麼做。UnicodeString 保存的是 UTF-16 字符。

在舊的環境下，可以使用編譯標志 Unicode 來判斷編譯環境是否支持 UnicodeString，以便您可以在同一套代碼中維護不同版本的字符支持環境。編譯指令如下：

Delphi 使用：

{$IFDEF Unicode}

C++ Builder 使用：

#ifdef _DELPHI_STRING_UNICODE

變化概要：

String 類型映射為 UnicodeString 而不是 AnsiString

Char 類型映射為 WideChar(2 bytes not 1 byte), 並且是 UTF-16 字符

PChar 類型映射為 PWideChar

C++ 中，System::String 映射到 UnicodeString 類

Delphi 中，AnsiString 映射為早先版本中默認的 string

未變化概要：

AnsiString

WideString

AnsiChar

PAnsiChar

隱式轉換仍然可用

用戶的活動頁代碼(The user's active code page)控制著模式（ANSI vs. Unicode)，所以 AnsiString 仍然可以支持

由於這些變化，代碼編寫上也出現了一些值得注意的情況，特別是在你打算將舊有的項目遷移到 Tiburon 下時更是如此。下面就列出一些發生的變化情況以及編寫代碼時應該注意的注意事項。

下面的操作將不再依賴字符 Size：

合並字符串

Concat( , )

Length()返回字符元素的長度，此值可能和字符在字節長度上並不匹配。SizeOf 函數則返回數據的字節長度，這意味著 SizeOf 和 Length 的返回值可能是不同的

Copy(, , )返回的 SubString 基於字符元素

Pos(,)返回第一個字符元素的序號

操作

CompareStr()

CompareText()

...

FillChar()

FillChar(Rect, SizeOf(Rect), #0)

FillChar(WndClassEx, SizeOf(TWndClassEx), #0). 使用的時候注意 WndClassEx.cbSize := SizeOf(TWndClassEx)

Windows API

API 默認使用 WideString (*W)形態的版本

PChar()具有相同的語義

范例：

GetModuleFileName： function ModuleFileName(Handle: HMODULE): string; var 　Buffer: array[0..MAX_PATH] of Char; begin 　SetString(Result, Buffer, GetModuleFileName(Handle, Buffer, Length(Buffer))); end; GetWindowText： function WindowCaption(Handle: HWND): string; begin 　SetLength(Result, 1024); 　SetLength(Result, GetWindowText(Handle, PChar(Result), Length(Result))); end;

字符串索引：

function StripHotKeys(const S: string): string; var 　I, J: Integer; 　LastChar: Char; begin 　SetLength(Result, Length(S)); 　J := 0; 　LastChar := #0; 　for I := 1 to Length(S) do 　begin 　　if (S[I] <> '&') or (LastChar = '&') then 　　begin 　　　Inc(J); 　　　Result[J] := S[I]; 　　end; 　　LastChar := S[I]; 　end; 　SetLength(Result, J); end;

接上文

依賴字符 Size 的代碼結構：

在 Tiburon 中，下列列表中列出的這些函數和特性依賴字符 Size，並且已經包含了一個“輕便”的版本，遷移代碼的時候只需要將列出的代碼遷移到後面提供的輕便版本即可。

SizeOf() 替換為 Length()

范例：

var

Count: Integer;

Buffer: array[0..MAX_PATH - 1] of Char;

begin

// 現有代碼 - 當 string = UnicodeString 的時候這段代碼是錯的

Count := SizeOf(Buffer);

GetWindowText(Handle, Buffer, Count);

// 正確的應該是下面這樣

Count := Length(Buffer); // <<-- Count 應該是 Chars 而不是 Bytes

GetWindowText(Handle, Buffer, Count);

end;

SizeOf 返回的是數組的字節數，而 GetWindowText 的 Counts 參數需要的是字符數，所以這裡需要把 SizeOf 換成 Length。

Move(... CharCount) 替換為 Move( ,,, CharCount * SizeOf(Char))

var

Count: Integer;

Buf1, Buf2: array[0..255] of Char;

begin

// 現有代碼 - 當 string = UnicodeString (char = 2 bytes) 時，下面的代碼是錯誤的

Count := Length(Buf1);

Move(Buf1, Buf2, Count);

// 正確的寫法應該是

Count := SizeOf(Buf1);　　　　　　　　// <<-- Specify buffer size in bytes

Count := Length(Buf1) * SizeOf(Char); // <<-- Specify buffer size in bytes

Move(Buf1, Buf2, Count);

end;

由於 Length 返回的是字符數，而 Move 的 Count 參數需要的是字節數，所以應該用 SizeOf 或者 Length(Buf1) * SizeOf(Char) 替換 Length(Buf1)。

Stream 的 Read/Write 替換為 AnsiString, SizeOf(Char)，或者使用 TEncoding 類

調用 Read/ReadBuffer 方法的范例：

var

S: string;

L: Integer;

Stream: TStream;

Temp: AnsiString;

begin

// 現有代碼- 當 string = UnicodeString 時它是不正確的

Stream.Read(L, SizeOf(Integer));

SetLength(S, L);

Stream.Read(Pointer(S)^, L);

// 正確的 Unicode 寫法如下

Stream.Read(L, SizeOf(Integer));

SetLength(S, L);

Stream.Read(Pointer(S)^, L * SizeOf(Char));　// <<-- Specify buffer size in bytes

//正確的 Ansi 寫法如下

Stream.Read(L, SizeOf(Integer));

SetLength(Temp, L);　　　　　　　// <<-- 使用臨時的變量 AnsiString

Stream.Read(Pointer(Temp)^, L * SizeOf(AnsiChar));　// <<-- Specify buffer size in bytes

S := Temp;　　　　　　　　　　　 // <<-- 放寬 string 到 Unicode

end;

上面的解決方案依賴於您存儲在 Stream 中的字符串的編碼格式，更好的讀取和轉換他們建議使用 TEncoding 類。

調用 Write/WriteBuffer 的范例：

var

S: string;

Stream: TStream;

Temp: AnsiString;

begin

// 現有代碼 - 當 string = UnicodeString 時它是錯的

Stream.Write(Pointer(S)^, Length(S));

// 正確的讀取 Unicode 的代碼

Stream.Write(Pointer(S)^, Length(S) * SizeOf(Char)); // <<-- Specify buffer size in bytes

// 正確的讀取 Ansi 的代碼

Temp := S;　　　　　// <<-- Use temporary AnsiString

Stream.Write(Pointer(Temp)^, Length(Temp) * SizeOf(AnsiChar));// <<-- Specify buffer size in bytes

end;

上面的解決方案依賴於您要存儲進 Stream 中的字符串的編碼格式，建議使用 TEncoding 類來更好的對格式進行處理。

FillChar(, , ) 如果采用 #0 填充，替換為　* SizeOf(Char)；如果填充其它字符，替換為 StringOfChar 函數

范例：

var

Count: Integer;

Buffer: array[0..255] of Char;

// 本文轉自 C++Builder研究 - http://www.ccrun.com/article.asp?i=1052&d=155e7c

begin

// 現有代碼 - 當 string = UnicodeString ( char = 2 字節) 時，這段代碼是錯的

Count := Length(Buffer);

FillChar(Buffer, Count, 0);

// 正確的代碼應該寫作下面這樣

Count := SizeOf(Buffer);　　　　　　　　// <<-- Specify buffer size in bytes

Count := Length(Buffer) * SizeOf(Char); // <<-- Specify buffer size in bytes

FillChar(Buffer, Count, 0);

end;

Length 返回的是字符數，而 FillChar 的 Count 參數需要的是字節數，所以必須用 SizeOf 替換 Length，或者使用 Length * SizeOf(Char)。

另外，需要注意的是，Tiburon 中 Char 等於 2 個字節，FillChar 填充的時候確是按照 Bytes 來計算的，所以，下面的代碼

var

Buf: array[0..32] of Char;

begin

FillChar(Buf, Length(Buf), #9);

end;

並不是向目標中填充 $09，而是 $0909，要得到正確的數值，應該改寫成下面這樣：

var

Buf: array[0..32] of Char;

begin

StrPCopy(Buf, StringOfChar(#9, Length(Buf)));

...

end;

GetProcAddress(, )　

由於 GetProcAddres 沒有對應的 *W (Unicode) 版本的 API，所以只能使用下面的代碼來正確調用它：

procedure CallLibraryProc(const LibraryName, ProcName: string);

var

Handle: THandle;

RegisterProc: function: HResult stdcall;

begin

Handle := LoadOleControlLibrary(LibraryName, True);

@RegisterProc := GetProcAddress(Handle, PAnsiChar(AnsiString(ProcName)));

end;

RegQueryValueEx 函數

由於 RegQueryValueEx 函數的 Len 指定的是字節數，而不是字符數，所以 Unicode 版本中它的大小是實際需要大小的 2 倍，所以這樣的代碼：

Len := MAX_PATH;

if RegQueryValueEx(reg, PChar(Name), nil, nil, PByte(@Data[0]), @Len) = ERROR_SUCCESS

then

SetString(Result, Data, Len - 1) // Len includes #0

else

RaiseLastOSError;

應該換成下面這樣：

Len := MAX_PATH * SizeOf(Char);

if RegQueryValueEx(reg, PChar(Name), nil, nil, PByte(@Data[0]), @Len) = ERROR_SUCCES

then

SetString(Result, Data, Len div SizeOf(Char) - 1) // Len includes #0, Len contains the number of bytes

else

RaiseLastOSError;

CreateProcessW 函數

在 Unicode 版本的 CreateProcess 函數中，其行為和 ANSI 的版本略有不同。Unicode 的 CreateProcessW 會改變參數 lpCommandLine 傳入的數據，因此調用 CreateProcess / CreateProcessW 的時候，不可以給 lpCommandLine 賦值常量，或者是一個變量指向的常量，否則函數會拋出 access violations 的異常。下面是錯誤的代碼：

// 傳入了一個 string 常量

CreateProcess(nil, 'foo.exe', nil, nil, False, 0,

nil, nil, StartupInfo, ProcessInfo);

// 傳入了一個常量表達式

const

cMyExe = 'foo.exe'

CreateProcess(nil, cMyExe, nil, nil, False, 0,

nil, nil, StartupInfo, ProcessInfo);

// 傳入了一個引用計數為 -1 的字符串:

const

cMyExe = 'foo.exe'

var

sMyExe: string;

sMyExe := cMyExe;

CreateProcess(nil, PChar(sMyExe), nil, nil, False, 0, nil, nil, StartupInfo, ProcessInfo);

LeadBytes 常量

早先的版本中 LeadBytes 常量包含了本地系統中所有可以作為雙字節字符 LeadByte 的列表，常常有這樣的代碼：

if Str[I] in LeadBytes then

現在你需要將它改成調用 IsLeaderChar 函數

if IsLeadChar(Str[I]) then

使用 TMemoryStream 類

當您需要用 TMemoryStream 寫入一個文本文件的時候，最好在寫入任何字符數據進去之前先寫入一個 Byte Order Mark (BOM)：

var

Bom: TBytes;

begin

...

Bom := TEncoding.UTF8.GetPreamble;

Write(Bom[0], Length(Bom));

而任何寫入的字符需要被轉換成 UTF-8 編碼：

var

Temp: Utf8String;

begin

...

Temp := Utf8Encode(Str); // Str 是要寫入文件的字符

Write(Pointer(Temp)^, Length(Temp));

//Write(Pointer(Str)^, Length(Str)); 原來寫入字符串的代碼

接上文

MultiByteToWideChar 函數

調用 Windows API MultiByteToWideChar 函數可以簡單的用一個任務替代，下面是一個是用 MultiByteToWideChar 的例子：

procedure TWideCharStrList.AddString(const S: string); var 　Size, D: Integer; begin 　Size := SizeOf(S); 　D := (Size + 1) * SizeOf(WideChar); 　FList[FUsed] := AllocMem(D); 　MultiByteToWideChar(0, 0, PChar(S), Size, FList[FUsed], D); 　Inc(FUsed); end;

轉換到 Unicode 下可以寫作這樣（同時支持 Unicode 和 ANSI 字符）：

procedure TWideCharStrList.AddString(const S: string); {$IFNDEF UNICODE} var 　L, D: Integer; {$ENDIF} begin {$IFDEF UNICODE} 　FList[FUsed] := StrNew(PWideChar(S)); {$ELSE} 　L := Length(S); 　D := (L + 1) * SizeOf(WideChar); 　FList[FUsed] := AllocMem(D); 　MultiByteToWideChar(0, 0, PAnsiChar(S), L, FList[FUsed], D); {$ENDIF} 　Inc(FUsed); end;

SysUtils.AppendStr 函數

AppendStr 函數已經廢棄了，因為它與 AnsiString 硬編碼在一起，而且沒有 Unicode 的版本可以替換，所以下面的代碼

AppendStr(String1, String2);

應該換成：

String1 := String1 + String2;

您也可以使用新的 TStringBuilder 類來替換。

使用 Named Threads

現有 Delphi 代碼中使用了 Named Threads 的代碼必須修改了。在早先的版本中，當你需要在分類（gallery）中用一個新的 Thread Object 去創建一個 Thread 的時候，需要在新的 Thread 單元中建立下面的類型：

type TThreadNameInfo = record 　FType: LongWord; // must be 0x1000 　FName: PChar; // pointer to name (in user address space) 　FThreadID: LongWord; // thread ID (-1 indicates caller thread) 　FFlags: LongWord; // reserved for future use, must be zero end;

在調試器中，Named Thread 的處理器期待 FName 成員是 ANSI 字符，不是 Unicode，所以上面的聲明必須改成下面這樣：

type TThreadNameInfo = record 　FType: LongWord; // must be 0x1000 　FName: PAnsiChar; // pointer to name (in user address space) 　FThreadID: LongWord; // thread ID (-1 indicates caller thread) 　FFlags: LongWord; // reserved for future use, must be zero end;

在新版本中上述聲明已經修改，提示這段代碼是需要您注意早先版本中您手工創建並聲明的代碼需要您自己修改。

如果您需要在 Named Thread 中使用 Unicode 字符，您必須將字符串格式化成 UTF-8 編碼，調試器可以完全支持改編碼。例如：

ThreadNameInfo.FName := UTF8String('UnicodeThread_фис');

注意：C++ Builder 裡面一直使用的是正確的代碼，所以上述問題在 C++ Builder 中並不存在。

使用 PChar 轉換的指針運算

在 Tiburon 更早的版本中，並不是所有的指針類型都支持指針運算。因為這樣，為了讓無類型指針也支持指針運算，許多代碼都將其轉化成 PChar 操作。現在，可以使用 Tiburon 中的新編譯條件 {$POINTERMATH} 來指示編譯器允許指針運算，特別是允許 PByte 的指針運算。{$POINTERMATH ON/OFF} 可以打開/禁止對任意指針變量的運算，增減指針實際操作的是指針元素的大小。

下面的例子是一個將某類型指針轉換成 PChar 後的指針運算：

function TCustomVirtualStringTree.InternalData(Node: PVirtualNode): Pointer; begin 　if (Node = FRoot) or (Node = nil) then 　　Result := nil 　else 　　Result := PChar(Node) + FInternalDataOffset; end;

您應該將其修改成 PByte 而不是 PChar：

function TCustomVirtualStringTree.InternalData(Node: PVirtualNode): Pointer; begin 　if (Node = FRoot) or (Node = nil) then 　　Result := nil 　else 　　Result := PByte(Node) + FInternalDataOffset; end;

在上面的例子中，Node 真實的數據不是 PChar 的數據。將其強制轉換成 PChar 的操作在早先的版本中是正常的，因為早先版本中 SizeOf(Char) == Sizeof(Byte)。但是現在不同了，所以這樣的代碼必須從 PChar 改換成 PByte。如果不做這樣的更改，返回的 Pointer 將指向錯誤的數據。

變體開放數組(Variant Open Array)參數

如果你的代碼中有使用 TVarRec 類型去處理開放數組的話，你可能需要為其添加對 vtUnicodeString 的支持。參看下列示例：

procedure RegisterPropertiesInCategory(const CategoryName: string; 　const Filters: array of const); overload; var I: Integer; begin 　if Assigned(RegisterPropertyInCategoryProc) then 　　for I := Low(Filters) to High(Filters) do 　　　with Filters[I] do 　　　　case vType of 　　　　　vtPointer: 　　　　　　RegisterPropertyInCategoryProc(CategoryName, nil, 　　　　　　　PTypeInfo(vPointer), ); 　　　　　vtClass: 　　　　　　RegisterPropertyInCategoryProc(CategoryName, vClass, nil, ); 　　　　　vtAnsiString: 　　　　　　RegisterPropertyInCategoryProc(CategoryName, nil, nil, 　　　　　　　string(vAnsiString)); 　　　　　vtUnicodeString: 　　　　　　RegisterPropertyInCategoryProc(CategoryName, nil, nil, 　　　　　　　string(vUnicodeString)); 　　　　else 　　　　　raise Exception.CreateResFmt(@sInvalidFilter, [I, vType]); 　　　　end; end;

其他需要注意的代碼：

AllocMem( AnsiChar of AnsiChar AnsiString of Char Copy( GetMem( Length( PAnsiChar( Pointer( Seek( ShortString string[

代碼中包含上述寫法的地方可能需要修改以適應 UnicodeString 的變化。

帶字符的集合類型

您可能需要修改下列類型：

in AnsiChar> 這樣的代碼生成的程序是正確的(>#255 的字符不會包含在集合內)。編譯器會提出 "WideChar reduced in set operations" 的警告，基於您代碼的需要，您可以關閉這個警告，或者使用 CharInSet 函數替代。

in LeadBytes 全局的 LeadBytes 變量包含的是本地 MBCS Ansi 字符的集合。UTF-16 格式也有 LeadChar 的概念((#$D800 - #$DBFF 是高 surrogate, #$DC00 - #$DFFF 是低 surrogate)。因此建議使用 overload 函數 IsLeadChar 來判斷，該函數的 ANSI 版本檢測 LeadBytes，WideChar 版本檢測 high/low surrogate。

字符分類使用靜態類 TCharacter。Character 單元中提供了一些函數對字符分類：IsDigit, IsLetter, IsLetterOrDigit, IsSymbol, IsWhiteSpace, IsSurrogatePair，等等。

應當心這些結構

您需要檢查下列可能引起錯誤的結構：

模糊的類型轉換

AnsiString(Pointer(foo))

檢查正確性：代碼是什麼意圖？

可疑的類型轉換引發的警告

PChar()

PAnsiChar()

直接建立、操作、訪問 string 的內部結構。例如 AnsiString 的內部結構已經發生變化，所以這樣的操作是危險的。您應該使用 StringRefCount, StringCodePage, StringElementSize 等方法來獲得額外信息。

控件和類

TStrings: 內部存儲的是 UnicodeStrings。