程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> 關於PHP編程 >> 用PHP編程讀取漢字點陣數據

用PHP編程讀取漢字點陣數據

編輯:關於PHP編程

  背景知識:

  簡體中文國標字庫(1981年訂,中國大陸)。7445個字符,其中漢字6773個,包括一級漢字3755個,二級漢字3008個。采用2字節(16位二進制)編碼。

  區位碼:國標GB2312規定,所有的國標漢字與符號組成一個94×94的矩陣。在此方陣中,每一行稱為一個”區”,每一列稱為一個”位”,因此,這個方陣實際上組成了一個有94個區(區號分別為0 1到94)、每個區內有94個位(位號分別為01到94)的漢字字符集。一個漢字所在的區號和位號簡單地組合在一起就構成了該漢字的”區位碼”。在漢字的區位碼中,高兩位為區號,低兩位為位號。由此可見,區位碼與漢字或符號之間是一一對應的。

  內碼:漢字的內碼是指在計算機中表示漢字的編碼。機內碼與區位碼稍有區別。為什麼不直接用區位碼作為計算機內的編碼呢? 這是因為漢字的區碼和位碼的范圍都在1到94內, 如果直接用區位碼作機內碼, 就會與基本ASCII碼沖突。 漢字的內碼通常與所使用的計算機系統有關。目前,對於國內大多數的計算機系統,一個漢字的內碼占兩個字節,分別稱為高位字節與低位字節,且這兩位字節與區位碼的關系如下: 內碼高位=區碼+A0H(H表示十六進制) 內碼低位=位碼+A0H 例如,漢字”啊”的區位碼為”1601″,區碼和位碼分別用十六進制表示即為”1001H”,則它的內碼為”B0A1H”。其中B0H為內碼的高位字節,A1H為內碼的低位字節。

  php(做為現在的主流開發語言)代碼:返回由0和1組成的字符串。

<?php(做為現在的主流開發語言)
/**
* 讀取漢字點陣數據
*
* @author legend <[email protected]
* @link http://www.ugia.cn/?p=82
* @Copyright www.ugia.cn
*/

$str = "中華人民共和國" ;

$font_file_name = "simsun12.fon" ; // 點陣字庫文件名
$font_width = 12 ; // 單字寬度
$font_height = 12 ; // 單字高度
$start_offset = 0 ; // 偏移

$fp = fopen ( $font_file_name , "rb" );

$offset_size = $font_width * $font_height / 8 ;
$string_size = $font_width * $font_height ;
$dot_string = "" ;

for ( $i = 0 ; $i < strlen ( $str ); $i ++)
{
 if ( ord ( $str { $i }) > 160 )
 {
  // 先求區位碼,然後再計算其在區位碼二維表中的位置,進而得出此字符在文件中的偏移
  $offset = (( ord ( $str { $i }) - 0xa1 ) * 94 + ord ( $str { $i + 1 }) - 0xa1 ) * $offset_size ;
  $i ++;
 }
 else
 {
  $offset = ( ord ( $str { $i }) + 156 - 1 ) * $offset_size ;
 }

 // 讀取其點陣數據
 fseek ( $fp , $start_offset + $offset , SEEK_SET );

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved