Wikia

香港民風大典

香港增補字符集

3,204個條目
在本站
增加新頁面
討論頁0 Share

您使用了廣告過濾軟體!


Wikia通過廣告運營為使用者提供免費的服務。我們對通過嵌入廣告過濾軟體訪問網站的使用者進行調整。

如果您使用了廣告過濾軟體,將無法使用我們的服務。請您移除廣告過濾軟體,以確保頁面正常載入。

模板:Wikify 香港增補字符集Hong Kong Supplementary Character Set,簡稱 HKSCS)是香港政府基於繁體中文電腦操作環境中最流行的大五碼(Big-5)之上擴展的字符集標準,是現時香港的中文資訊交換內碼標準。香港增補字符集以前稱為《政府通用字庫》(Government Common Character Set, 簡稱 GCCS),本來只是香港政府內部統一使用的造字檔,有三千多字。但由於香港電腦業界不斷要求政府迎合本地需要,提出官方的字符集方案,以便與政府進行文件來往,於是香港政府便在1995年把這個內部使用的標準公開。到了1999年,此字集增加到四千多字,並改為現名。

字符集所收羅的字,主要包括香港的地名、人名用漢字、粵語漢字異體字,也有小部份簡體字。除此之外,此字符集亦把倚天中文系統收錄的日語平假名片假名俄語字母包括在內。此字符集由中文界面諮詢委員會管理,仍在不斷擴編之中。最新版本為2005年5月推出的 HKSCS-2004,收錄 4,941 個字符。

版本編輯

版本字數發表時間
HKSCS-20044,9412005年5月
HKSCS-20014,8182001年12月
HKSCS-19994,7021999年9月
GCCS3,0491995年

源起編輯

1980年代中期, 台灣的中文電腦的通行內碼為 Big-5 編碼。1990年代初期,香港電腦應用逐漸普及,而政府各部門也電腦化。和台灣一樣,香港也是使用繁體中文的地方,是故也採用了 Big-5 編碼。可是 Big-5 碼本身沒有收錄香港常用的廣東字、一些人名地名用字、一些學科用字,於是香港政府各部門使用 Big-5 的外字區,自行補上這些字,並在政府內部使用。香港業界也不斷要求政府,本地需要一套標準字符集來作電子文件來往。到1995年互聯網在香港起步,而政府也推出了自己的網站。各人電腦的中文系統雖然都用 Big-5 編碼, 但都沒有政府用的外字,更可能用了自己的外字,使在瀏覽網頁時不能顯示正確的字符。香港政府於是把內部使用的 Big-5 外字集公開,讓各界可以下載安裝這批字,使電腦能顯示正確的字符,並把這套字命名為「政府通用字庫」。

負責機構編輯

負責整套字符集管理的為中文界面諮詢委員會, 簡稱「中諮會」, 英文名 Chinese Language Interface Advisory Committee (CLIAC)。1999年5月由前資訊科技署成立, 現隸屬「政府資訊科技總監辦公室」。中諮會轄下有兩個工作小組: 中文電腦用字工作小組、中文資訊科技工作小組。中文電腦用字工作小組審核待增收字符, 納入和編配碼位等工作;中文資訊科技工作小組解決技術問題及與國際標準 ISO/IEC 10646(簡稱 ISO 10646)接軌等工作。各組成員來自學術界、語言學界、出版界和資訊科技界等。

字符分類編輯

在 HKSCS-2004 版本,漢字字符共 4500 個,其中 3353 字可在大型的字典(如《漢語大字典》)中查到,包括簡化字、異體字、日語漢字等。其餘在各大中文字典中查不到的字中,有粵語方言字(有些可在方言字典及學術著作中查到)、人名、公司名、地方名、變形部首、附形、訛字。有些字來自入境事務處、公司註冊處、稅務局、地政總署。

各類符號共 441 個,有漢字筆形、漢語拼音字母、國際音標符號、漢字元件、畫表符號、日本平假名、片假名等。

香港增補字符集在2005年才有畫數、部首、粵音等資料給用戶參考,還說明方便檢索,而非作為規範標準。(漢字的部首在不同的字典中,歸部也不盡相同)

和 GCCS 的關係編輯

(註:因為各操作系統使用的字體不盡相同,因此下表列出的字符未必符合期望的結果。以下表格將來需要改用圖片顯示字符)

模板:Hideh

Unicode (PUA) 字符 Unicode (PUA) 字符 Unicode (PUA) 字符
E01F E026 E05B
E063 E073 E0A5
E0F3 E12E E134
E149 E166 E191
E1BA E1C9 E22C
E22D E230 E266
E286 E2A3 E2BC
E2EF E33A E340
E34F E35A E363
E37C E37F E3C5
E3D7 E3DC E417
E418 E44A E478
E485 E4C5 E4DA
E545 E589 E5D2
E5D3 E5D4 E5D5
E5EB E5F4 E6C6
E727 E7D3 E7FD
E884 E893 EB40
EB42 EB45 EB6E
EB86 EB94 EB9E
EBA9 EBBA EBC9
EBCF EBD2 EBDE
EC01 EC02 EC15
EC5B EC5E ECA6
ED28 ED6E ED7C
ED9E EDA4 EDE7
EDF4 EE3E EE52
EE8E EE98 EE9D

模板:Hidef

模板:Hideh

Unicode (PUA) 字符 Unicode (PUA) 字符 Unicode (PUA) 字符
ED2B ED43 ED73
ED8C EDC9 EDCD
EDDC EDE4 EDF6
EE02 EE06 EE0B
EE2F EE32 EE35
EE3D EE4D EE5E
EE66 EE68 EE8C
EE9A

模板:Hidef

如上表,第一部分有部分字符是重量單位,例如兙、兛、兝、兞等, 在 BIG-5 中是以廠商擴充字元形式出現,意即在不同廠商的中文系統裡(例如倚天、國喬、IBM 大型系統)未必會包含該等字符, 所以香港政府另行在 BIG-5 造字區安放這些字,造成重覆;另外,有些字符在收錄時只與 BIG-5 正確字存在細微字形差異,例如「輋」上方一字從「山」而另一字從「屮」,「靜」左下方一字從「月」而另一字從「円」。研究這些字符可以從舊造字檔着手,因為現時在 Windows 通行的「細明體_HKSCS」字體已經被標準化了。

編碼編輯

和 Big-5 的關係編輯

香港增補字符集當初因為是補充 Big-5 的收字不足,使用其外字區而發展的,所以受制於 Big-5 的編碼架構,外字的總數最多-{只}-能到 6217 個(每區塊 157 字,有 39 區塊半)。除去已用碼位,剩下千餘個碼位,其中有部分會保留給用戶造字。

早期的倚天中文系統國喬中文系統等對造字缺乏管理,而又沒有文字專家的審定,因此當時造字很是混亂,有些甚至可能只是臨時使用的「錯字」(尋遍各大字典、專書也查不到的字,也作幽靈漢字);製作這些中文系統的廠商又對字形、字體缺乏認識,有些字會因為字體不同而字形稍有差別,分別編進了兩個碼位中。又有同一字有系統區及造字區兩個碼位,有些聯綿詞只收其一不收其二;這個問題帶到了政府通用字庫和香港增補字符集中,字集因要反向兼容而跳過了一些碼位。

Big-5 原來的編碼,只有漢字、標點、注音符號等字符及少數圖形,後來經過台灣廠商的增收,多了 7 個「倚天字」(即-{碁}-、-{銹}-、-{裏}-、-{墻}-、-{恒}-、-{粧}-、-{嫺}-)及日文的假名,最後這批字符又被香港增補字符集收入。

香港增補字符集所使用的 Big-5 的外字區分幾個區段:

  • 「造字區一」(FA40 — FEFE):早期的 GCCS 字符集已經填滿這一段。
  • 「造字區二」(C6A1 — C8FE):倚天用了這段來放日文假名等符號。這些符號在 HKSCS 1999年的版本被收納。
  • 「造字區三」(8140 — A0FE):香港增補字符集把這段開頭的 (8140 — 84FE) 保留給用戶,新增的字符只用其餘的碼位。
  • 「廠商造字區」(F9D6 — F9FE):這段開始的七個碼位用來存放-{裏}-、-{恒}-等「倚天字」,之後的碼位被微軟的繁體中文 Windows 用來存放製表符號。後來 HKSCS 1999年版本將之全部收納。

可是一般提及 HKSCS 的文件,包括來自香港政府的,都沒有註明 HKSCS 以外的一般繁體字編碼(即是 Big-5 本身)使用哪個版本。Big-5 在2003年前就只有一個版本,不會造成混淆,但 HKSCS-2004 的文件仍沒有指定 Big-5 部份是2003年之後還是之前的版本,雖然到目前為止並沒有任何系統使用 Big5-2003。

和 ISO 10646/Unicode 的關係編輯

1995年的政府通用字庫本來是內部使用的,到 1999年才成立中諮會專門去負責增收及審核字符的工作,並與 ISO 10646 接軌。中諮會的成員會把香港增補字符集交到 ISO 的表意文字小組中,盡量讓其所有字符納入國際標準。表意文字小組會定期開會審議漢字的收納等工作, 成員是來自世界各地的專家。

香港字在 Big5-HKSCS 內的碼位,都能對應到 ISO 10646 中日韓漢字區段中的碼位,或 Private Use Area(用戶造字區,簡稱 PUA)內。隨著版本的更新,造字區的字會逐漸搬到中日韓漢字擴展區內。將所有已納入的 HKSCS 字符搬到正式中日韓漢字擴展區段(非 PUA 區段)的工作在2005年完成,對應於 ISO 10646:2003 的第一修訂版,相應的 Unicode 版本為 Unicode 4.1。

不過,因為目前流傳極多使用舊版 HKSCS 的系統產生出來的文件,為了方便過渡,在 HKSCS 的定義中,在 Unicode PUA 所分配的字符位置會予以保留,不會給新加入而且未分配正式 Unicode 位置的字符使用。

字體的提供編輯

最初的香港字,是由早期的台灣廠商 (像倚天等) 和用戶自行造字所得。因為大部份都不合標準和沒有流通,所以沒有沿用至今。後來,Truetype 字體盛行,中文字的廠商都開始加入香港字,但因為是商業性質,沒有足夠的流通量。另外,在支援超大字庫的字體方面,因為 HKSCS 某些字和大陸 GBK 碼有衝突,廠商經常會因市場關係捨棄一些香港字。

香港政府的「數碼 21」網頁 (詳見下面的外部連結) 有提供由華康授權的香港字參考宋體,但一來是使用條款苛刻而不可能廣泛使用,二來是沒有推廣,致使政府內部人員也不知道這套字體的存在。

目前由商業主導的情況漸有改變,近況如下:

開放源碼字體編輯

文鼎在1999年釋出了四套字體 (繁簡明體和楷書) 給自由軟件界,但當中沒有香港字。後來高盛華 (Arne Götje) 發起計劃將繁簡體合併,稱之為 CJKUnifonts。當中,Akar、Zunix 等人在2004年末另外發起香港 freefonts 計劃,將香港字加入 CJKUnifonts 之內,到了2005年9月1日完成將 HKSCS 2004 加入 CJKUnifonts 的工作。目前 CJKUnifonts 已被收錄在各大 Linux distribution 之內。

商業字體編輯

最早一套宣稱支援 HKSCS 2004 的字體,是華康「金蝶 2006 H.K. Edition」,在2005年11月14日推出。

增收字符編輯

「中諮會」會讓各界申請新字符,不過要經過審核批准,才會給字符編配碼位。而用戶自造的字,可視乎需要加入,特別是一些人名地名等會經過互聯網傳送的字。另外,這些增收的字符不一定能夠收錄在 Unicode 之內,例如一些能夠表示成 Unicode 複合字符的字或符號,便不會收錄。

另外因為現在餘下的 Big-5 兼容碼位不多(2005年 9 月為止只剩 487 個未用),中文界面諮詢委員會暫定打算在 2007-08年停止為字符提供 Big-5 碼位,並在之前盡量協助業界和一般用戶過渡至 Unicode。

操作系統的支援編輯

香港增補字符集開始時只有 Windows 版本的 Big-5 編碼, 後來與 ISO 10646 接軌後, 才開始在 Linux、MacOS 等系統中使用。理論上因為 ISO 10646 已收納香港增補字符集, 任何支援 ISO 10646 的系統都可使用香港字。但實際上,許多舊的程式內部是使用 UCS-2(每個字佔 2 位元組)儲存字串,無法表示許多放在基本多文種平面 (簡稱 BMP) 以外的所有香港字。只有使用 UCS-4(每個字佔 4 位元組)作為內部儲存字串編碼的程式,才能夠完整地顯示所有香港字。

Windows編輯

顯示和處理字符編輯

根據 Microsoft 的網頁,在 Windows Vista 或以後的版本將不再支援 HKSCS-2004 的 Big-5 擴展編碼(通常稱為 Big-5HKSCS),而只使用 Unicode 中的香港字支援。

至於 HKSCS-2001,可以在微軟的網頁(請看下面的外部連結)中下載香港增補字符集;它支援 Windows 98、NT、2000 和 XP。可是安裝該套件和其他軟件(例如 Office)需要有一定的次序,而且它和別的 Big-5 外字集並不兼容,必須先瀏覽有關文件方可安裝。

輸入字符編輯

Windows XP 中,內置的倉頡輸入法可輸入已包括在 Unicode 1.1 版本內的香港字;新倉頡輸入法則不能。

Linux編輯

顯示和處理字符編輯

自從 glibc 在2000年加入香港字 (同時包括 Big-5hkscs 和 unicode 碼兩者的轉換表) 的支援後,就幾乎沒有再更新過,其中的 Big-5 部份更是來自年代久遠的 Big-5 / Unicode 轉換碼表,當中有不少錯誤之處,令一些文件和網頁無論使用 Big-5 還是 Big-5HKSCS 轉換至 Unicode 都會出現錯誤。暫時未有任何更新。相反地,如果單是使用 unicode 作為系統編碼,處理香港字則沒有問題。

桌面環境方面,KDE 3.x 桌面因為使用 QT 3.x,而 QT 3.x 內部使用 UCS-2 儲存字符,因此 KDE 3.x 只能有限度地顯示少部份香港字。這情況期望在 KDE 4.0 解決。

GNOME 沒有這方面的問題,只要是使用 Unicode,在2004至2005年間就已經能夠顯示所有 BMP 以外的字符。

輸入字符編輯

截至2007年3月,支援香港字集的開源輸入法有:SCIMOXIM;不支援的有:IIIMFgcin。 但有些輸入法並非輸出 unicode 中真正編配給香港字的碼位,而是一些造字區的碼位,例如 SCIM 中的倉頡五代輸入法便是這樣。

Mac OS編輯

顯示和處理字符編輯

Mac OS X 10.0 至 10.2 版本支援的版本為 HKSCS-1999,最新版的 Mac OS X 10.4 支援 HKSCS-2001。

輸入字符編輯

使用 Mac OS X 內置的中文輸入法即可,但不屬 Big-5 字集的字在選字區旁會有一綠色感嘆號 [!] 。

使用地區編輯

除了香港使用香港字以外,現在台灣的中文電腦也有少部分使用它的 (台灣也有自己的一兩套外字集)。而同樣使用粵語和繁體字的澳門當然也使用這套字集,也許還有其他華語地區會使用。

澳門政府網站已改用 UTF-8 編碼,因現在大部份系統已支援 Unicode 和內置相應字型,毋需額外安裝套件即可顯示澳門特有地名用字,如氹仔

評價編輯

香港增補字符集因為一直需要和 Big-5 碼兼容,所以可以說是一套先天不足的字集。它要處理前期許多遺留下來的問題,也有外字字數上限,致使香港特区政府打算在2007年至2008年放棄它的 Big-5 編碼。如果系統使用 Unicode 編碼,用它反而較好。當今的趨勢是使用 Unicode,它有足夠的字符,幾乎可以滿足文字學家、字典專家的用字要求。但因為兼容性的關係,要將整個系統由使用 Big-5 碼轉換至 Unicode 頗費時,因此還會有人暫時不願意轉換。

參看編輯

外部連結編輯

字符和編碼編輯

字體編輯

參考書籍、文章編輯

  • 《香港圍村調查報告》
  • 《香港圍村調查報告》

ja:香港増補字符集

Smallwikipedialogo.png 這頁使用維基百科的內容。原文章在香港增補字符集。作者列表可見它的變更歷史。維基百科的內容和香港民風大典一樣以GNU 自由文檔許可證發佈。歡迎把這文章修改成和在維基百科原內容完全不同的內容。當修改達一定大幅程度後可以移走這模板。

更多Wikia社區

隨機wiki