組込みフォントの基礎知識

トピック3:組込みに必要な文字セット

符号化文字集合のことを日常では文字セットと呼びます。日本語の文字セットの中に収録されている個々の字形は、JISで規格化されているものが多数ですが、実際のフォントとして提供される際に、ベンダーによって拡張されてきた経緯があります。ここではそれぞれの文字セットについて解説します。

1. 日本語の文字セット

デジュールスタンダード(日本工業規格など)

ASCII:96文字

基本的な英数字です。アルファベット大文字/小文字、数字、約物などを収録しています。

JIS X 0201:158文字

ラテン文字用図形文字集合(ほぼASCII)と、片仮名用図形文字集合(半角カタカナ)を収録しています。

JIS X 0208 非漢字:524文字

特殊文字、数字、ラテン文字、ひらがな、全角カタカナ、ギリシア文字、キリル文字、罫線素片を収録しています。

JIS X 0208 第1水準漢字:2,965文字

当用漢字、人名用漢字、都道府県名、市区町村名に含まれる漢字から選ばれ調整を行ったものを収録しています。

JIS X 0208 第2水準漢字:3,390文字

出自は第1水準と同じで、比較的使用頻度が低いものとして選ばれたものを収録しています。

JIS X 0212:6,067文字

JIS X 0208に含まれない文字を収録したものです。補助漢字と呼ばれています。

JIS X 0213 : 2004:11,233文字

第3水準の漢字1,259文字、第4水準の漢字2,436文字、非漢字659文字を収録しています。また、第1、第2水準に含まれる例示字形が変更されました。変更後の字形(通称「JIS2004字形」)を収録しているものを、OpenTypeではフォント名に“N”を記載して峻別しています。

JIS X 0221(Unicode)

Unicodeと互換であるISO/IEC 10646の日本の対応規格です。
基本多言語面(BMP)に63,488文字の収録可能で、漢字への割り当ては27,484文字です。BMP以外の面を使用すれば全部で1,112,064のコード領域があり、漢字への割り当ては70,195文字です。(JIS X 0221:2007)

デファクトスタンダード

CP932:7,882文字(※Unicodeで扱えるのは7,484文字)

Windowsの日本語標準コードです。Shift_JISと同義で語られることも多いのですが、拡張されています。また、ここでは符号化方式ではなく文字セットとしての名称として使用します。
JISの字形以外には、NEC特殊文字:83文字、IBM拡張文字:388文字、NEC選定IBM拡張文字:374が収録されています。

Adobe-Japan1-3(Std/StdN):9,354文字

マイクロソフト標準キャラクタセットをサポートしています。

Adobe-Japan1-4(Pro/ProN):15,444文字

JIS X 0212を一部収録しています。

Adobe-Japan1-5(Pr5/Pr5N):20,317文字

JIS X 0213:2000を収録しています。

Adobe-Japan1-6(Pr6/Pr6N):23,058文字

JIS X 0212、JIS X 0213:2004を収録しています。

文字セット

2. 外国語の文字セット

ISO/IEC 8859

欧州系言語等をカバーする文字セットです。第1部から16部(ただし12部は欠番)のパートがあり、8ビット1バイトのコードです。「ISO/IEC 8859-1」のように枝番で表します。 ここでは、代表的な言語を表記するのにどのパートが必要なのかがわかる一覧表を掲載します。

言語 ISO/IEC 8859
英語西ヨーロッパ言語(Latin1) 8859_1
フランス語西ヨーロッパ言語(Latin1) 8859_1
ドイツ語西ヨーロッパ言語(Latin1) 8859_1
スペイン語西ヨーロッパ言語(Latin1) 8859_1
ポルトガル語西ヨーロッパ言語(Latin1) 8859_1
ブラジル語西ヨーロッパ言語(Latin1) 8859_1
イタリア語西ヨーロッパ言語(Latin1) 8859_1
オランダ語西ヨーロッパ言語(Latin1) 8859_1
デンマーク語西ヨーロッパ言語(Latin1) 8859_1
ノルウェー語西ヨーロッパ言語(Latin1) 8859_1
スウェーデン語西ヨーロッパ言語(Latin1) 8859_1
マレーシア語西ヨーロッパ言語(Latin1) 8859_1
インドネシア語西ヨーロッパ言語(Latin1) 8859_1
チェコ語中央ヨーロッパ言語(Latin2) 8859_2
クロアチア語中央ヨーロッパ言語(Latin2) 8859_2
スロベニア語中央ヨーロッパ言語(Latin2) 8859_2
ハンガリー語中央ヨーロッパ言語(Latin2) 8859_2
ポーランド語中央ヨーロッパ言語(Latin2) 8859_2
スロバキア語中央ヨーロッパ言語(Latin2) 8859_2
ロシア語キリル言語(Cyrillic) 8859_5
ウクライナ語キリル言語(Cyrillic) 8859_5
セルビア語キリル言語(Cyrillic) 8859_5
ブルガリア語キリル言語(Cyrillic) 8859_5
アラビア語Arabic 8859_6
ギリシャ語Greek 8859_7
ヘブライ語Hebrew 8859_8
トルコ語Latin5 8859_9
タイ語Thai 8859_11
ラトビア語Latin7 8859_13
エストニア語Latin7 8859_13
リトアニア語Latin7 8859_13
フィンランド語Latin9 8859_15
ルーマニア語中央ヨーロッパ言語(Latin10) 8859_16

中華人民共和国:GB 18030

中国大陸で使用されている主たる文字コードで、国家規格です。収録されている字形としては、簡体字の他に少数民族の言語の文字も含んでいます。

台湾:Big5

台湾5大PCメーカーが集まって策定した文字コードです。最新版では21,585字が収録されています。台湾には他にCNS 11643という規格もありますが、PCではBig5が多数派のようです。

香港:HKSCS

香港でも繁体字が用いられているため、また台湾製のPCを使っていた経緯から、Big5が普及していました。しかし、広東語の表記には不十分だったため、香港特別行政区政府が1995年に制定し、最新版の5,009文字が収録されています。

韓国:KS X 1001

JIS X 0208に似た94×94文字集合です。(KSは日本のJISに相当します。)ハングルは子音と母音を表す字母の組み合わせで1文字を構成しますが、理論的には1万文字を超えます。しかし、94×94の空間には収まりきれませんので、よく使用される2,350文字が収録されています。他にも漢字、ひらがな、カタカナ、ラテン文字など、全部で8,227文字が収録されています。1001に含まれない文字を補った1002という規格も存在します。

ご注意
※Adobe 、Adobe PDF、PostScriptは、Adobe Systems, Inc. の米国およびその他の国における登録商標または商標です。
※Windows、OpenTypeは、米国 Microsoft Corporation の米国およびその他の国における登録商標です。
※その他、当サイトに掲載されている会社名、商品名、ロゴは、各社の商標または登録商標です。

資料請求・お問い合わせ