在我們保存UTF8文本文件的時候,可以選擇帶簽名,或者不帶簽名。也就是 有BOM 格式編碼,或者 無BOM格式編碼。如果看文件的內容,是看不出任何差別的,以下列文件(schema.sqlite.sql)內容為例:
CREATE TABLE guestbook (
id INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
email VARCHAR(32) NOT NULL DEFAULT '[email protected]',
comment TEXT NULL,
created DATETIME NOT NULL
);
CREATE INDEX "id" ON "guestbook" ("id");
如果不帶簽名,則文件的大小為232字節,如果帶簽名,則文件大小為235字節。
UTF8簽名有3個字節(內容為:EFBBBF),是專門用來告訴軟件:該文件是UTF8編碼的。
在一般情況下,有無簽名不會帶來問題,因為編輯器或者其他軟件可以按照文本的內容來推斷出是否是UTF8。
但有些時候還是會導致問題,比如上訴文件。該文件是sql語句文件,程序恰好要通過以下語句(php)來執行該sql:
$schemaSql = file_get_contents(dirname(__FILE__) . '/schema.sqlite.sql');
$dbAdapter->getConnection()->exec($schemaSql);
在這種情況下,帶有簽名的文件就會導致問題了,因為“UTF8簽名用的三個字節”其實是位於文件的最前面。所以導致了上面的語句無法成功運行。
解決的辦法也很簡單,去掉該文件UTF8簽名即可。
當然,上面文件的內容其實都是單字節的,是沒有必要保存為UTF8編碼的。
補充:全部是單字節內容的文件除非加了UTF8簽名,不然再次打開文件時,還是系統的默認編碼而已。