CharEncoding

文字のエンコーディング/デコーディングアルゴリズムを示します。

オーバーライド

このクラスの実装の中で、トランスコードクラスを実装するメソッドとゲッターをすべて指定する必要があります。

注意事項

一部のエンコーディングでは、エンコード可能な文字セットが暗黙のうちに決まっています。たとえば、CharEncoding.ascii は \u0000 ～ \u007F の範囲の文字だけをエンコードできます。

説明

多数の CharEncoding がシステムによって提供されます。プロシージャ get-character-encoding-by-name を使用すれば、その名前が付いている CharEncoding を取得できます。また、String から CharEncoding への暗黙のコンストラクタがあります。これにより、CharEncoding が予想される場合はいつで String を使用できます。ただし、その名前の CharEncoding が存在することが分かっている必要があります。一部の CharEncoding はクラス定数としても使用できます。

ucs2-big-endian—これは、2 バイトからなる完全な Unicode エンコードです。上位バイトが第 1 バイトになります。実際には、UTF16 で実装されており、これはひとつの 16 ビットの値として Unicode 文字 <= 0xFFFF と、16 ビットのサロゲートペアとして上位の Unicode 文字で表現されます。CharEncoding.ucs2-big-endian で利用できるか、get-character-encoding-by-name を使用して検索できます。

ucs2-little-endian—これは、2 バイトからなる完全な Unicode エンコードです。下位バイトが第 1 バイトになります。CharEncoding.ucs2-little-endian で利用できるか、get-character-encoding-by-name を使用して検索できます。

ucs2-unknown-endian—これは、データがどちらのバイトオーダーマークで始まっているかによって、ucs2-big-endian または ucs2-little-endian のいずれかと同じになります。バイトオーダーマークがない場合は、ucs2-big-endian が既定値になります。このエンコードをサポートするのはバイトオーダーマークを処理できるもの (TranscodingTextInputStream など) だけであることに、注意してください。decode-characters と encode-characters はこの種のエンコードをサポートしません。CharEncoding.ucs2-unknown-endian で利用できるか、get-character-encoding-by-name を使用して検索できます。

utf8—これは、各文字のバイト数が可変である完全な Unicode エンコードです。ucs2-big-endian バイトと utf8 バイト間のマッピングは次のとおりです。

utf32              -> utf8
00000000 0xxxxxxx -> 0xxxxxxx
00000yyy yyxxxxxx -> 110yyyyy 10xxxxxx
zzzzyyyy yyxxxxxx -> 1110zzzz 10yyyyyy 10xxxxxx
000uuuuu zzzzyyyy yyxxxxxx -> 11110uuu 10uuzzzz 10yyyyyy 10xxxxxx

CharEncoding.utf8 で利用できるか、get-character-encoding-by-name を使用して検索できます。

ascii—このエンコードは、Unicode 値 \u0000～\u007F のみを表すことができます。上位バイトと下位バイトの先頭ビットを除去することによってそうします。CharEncoding.ascii で利用できるか、get-character-encoding-by-name を使用して検索できます。

iso-latin-1—このエンコードは、Unicode 値 \u0000～\u00FF のみを表すことができます。上位バイトを除去することによってそうします。このエンコードは ISO-8859-1 としても知られています。これは多くのヨーロッパ言語に適しています。CharEncoding.iso-latin-1 で利用できるか、get-character-encoding-by-name を使用して検索できます。

windows-latin-1—このエンコードは多くのヨーロッパ言語に適しています。このエンコードは Windows-1252 としても知られています。このエンコードは、コード 0x80 (128) ～ 0x9F (159) が unicode.org にある CP1252 - Unicode テーブルにリストされているように定義されている点を除けば、CharEncoding.iso-latin-1 と同じです。

CharEncoding.windows-latin-1 で利用できるか、get-character-encoding-by-name を使用して検索できます。

iso-latin-2—このエンコードは、クロアチア語、チェコ語、ハンガリー語、ポーランド語、ルーマニア語、スロバキア語、スロベニア語、セルビア語など、さまざまな中央ヨーロッパおよび東ヨーロッパ言語に対して使用されます。このエンコードは ISO-8859-2 としても知られています。このエンコードは、コード 0xA1 (161) ～ 0xFF (255) が unicode.org にある ISO 8859-2 - Unicode テーブルにリストされているように定義されている点を除けば、CharEncoding.iso-latin-1 と同じです。

iso-latin-3—このエンコードはエスペラントおよびマルタ語に対して使用されます。このエンコードは ISO-8859-3 としても知られています。このエンコードは、コード 0xA1 (161) ～ 0xFF (255) が unicode.org にある ISO 8859-3 - Unicode テーブルにリストされているように定義されている点を除けば、CharEncoding.iso-latin-1 と同じです。

iso-latin-4—このエンコードは、デンマーク語、エストニア語、フィンランド語、ラトビア語、リトアニア語、ラップ語、およびスロベニア語に対して使用されます。このエンコードは ISO-8859-4 としても知られています。このエンコードは、コード 0xA1 (161) ～ 0xFF (255) が unicode.org にある ISO 8859-4 - Unicode テーブルにリストされているように定義されている点を除けば、CharEncoding.iso-latin-1 と同じです。

iso-cyrillic—このエンコードは、ブルガリア語、ベラルーシ語、マケドニア語、ロシア語、セルビア語、および 1990 年以前のウクライナ語に対して使用されます。このエンコードは ISO-8859-5 としても知られています。このエンコードは、コード 0xA1 (161) ～ 0xFF (255) が unicode.org にある ISO 8859-5 - Unicode テーブルにリストされているように定義されている点を除けば、CharEncoding.iso-latin-1 と同じです。

iso-greek—このエンコードは現代ギリシャ語に対して使用できます。このエンコードは ISO-8859-7、ELOT-928、または ECMA-118:1986 としても知られています。このエンコードは、コード 0xA1 (161) ～ 0xFF (255) が unicode.org にある ISO 8859-7 - Unicode テーブルにリストされているように定義されている点を除けば、CharEncoding.iso-latin-1 と同じです。

iso-latin-5—このエンコードは CharEncoding.iso-latin-1 を若干変更したもので、これと同じ言語に対して使用できます。ただし、まれに必要になる一部のアイスランド語の文字がトルコ語の文字に置換されます。このエンコードは ISO-8859-9 としても知られています。このエンコードは、0x80 (128) より上位の少数のコードが ISO 8859-9 - Unicode テーブルにリストされているように定義されている点を除けば、 CharEncoding.iso-latin-1 と同じです。

iso-latin-6—このエンコードは CharEncoding.iso-latin-4 を若干変更したもので、これと同じ言語に対して使用できます。ただし、一部の文字の配置が異なり、また部分的に追加と削除が行われています。このエンコードは ISO-8859-10 としても知られています。このエンコードは、コード 0xA1 (161) ～ 0xFF (255) が unicode.org にある ISO 8859-10 - Unicode テーブルにリストされているように定義されている点を除けば、CharEncoding.iso-latin-1 と同じです。

iso-latin-7—このエンコードは、CharEncoding.iso-latin-4 とほぼ同じ言語をサポートします。このエンコードは ISO-8859-13 としても知られています。このエンコードは、コード 0xA1 (161) ～ 0xFF (255) が unicode.org にある ISO 8859-13 - Unicode テーブルにリストされているように定義されている点を除けば、CharEncoding.iso-latin-1 と同じです。

iso-latin-8—このエンコードは CharEncoding.iso-latin-1 を若干変更したものであり、ゲール語およびウェールズ語に対して使用できます。このエンコードは ISO-8859-14 としても知られています。このエンコードは、コード 0xA1 (161) ～ 0xFF (255) が unicode.org にある ISO 8859-14 - Unicode テーブルにリストされているように定義されている点を除けば、CharEncoding.iso-latin-1 と同じです。

iso-latin-9—このエンコードは CharEncoding.iso-latin-1 を若干変更したものであり、これと同じ言語に対して使用できます。ただし、国際通貨記号をユーロ記号に、また一部の記号をフランス語およびフィンランド語の文字にそれぞれ置き換えています。このエンコードは ISO-8859-15 としても知られています。このエンコードは、0x80 (128) より上位の少数のコードが unicode.org にある ISO 8859-15 - Unicode テーブルにリストされているように定義されている点を除けば、CharEncoding.iso-latin-1 と同じです。

windows-latin-2—このエンコードは、クロアチア語、チェコ語、ハンガリー語、ポーランド語、ルーマニア語、スロバキア語、スロベニア語、セルビア語など、さまざまな中央ヨーロッパ言語、東ヨーロッパ言語、およびバルト諸国語に対して使用できます。このエンコードは CP1250 および Windows-1250 としても知られています。このエンコードは、コード 0x80 (128) ～ 0xFF (255) が unicode.org にある CP1250 - Unicode テーブルにリストされているように定義されている点を除けば、CharEncoding.iso-latin-1 と同じです。

windows-cyrillic—このエンコードは、ブルガリア語、ベロルシア語、マケドニア語、ロシア語、セルビア語、およびウクライナ語に対して使用できます。このエンコードは CP1251 および Windows-1251 としても知られています。このエンコードは、コード 0x80 (128) ～ 0xFF (255) が unicode.org にある CP1251 - Unicode テーブルにリストされているように定義されている点を除けば、CharEncoding.iso-latin-1 と同じです。

windows-greek—このエンコードは現代ギリシャ語に対して使用できます。このエンコードは CP1253 および Windows-1253 としても知られています。このエンコードは、コード 0x80 (128) ～ 0xFF (255) が unicode.org にある CP1253 - Unicode テーブルにリストされているように定義されている点を除けば、CharEncoding.iso-latin-1 と同じです。

windows-turkish—このエンコードはトルコ語に対して使用できます。このエンコードは CP1254 および Windows-1254 としても知られています。このエンコードは、コード 0x80 (128) ～ 0xFF (255) が unicode.org にある CP1254 - Unicode テーブルにリストされているように定義されている点を除けば、CharEncoding.iso-latin-1 と同じです。

windows-baltic—このエンコードは、クロアチア語、チェコ語、ハンガリー語、ポーランド語、ルーマニア語、スロバキア語、スロベニア語、セルビア語など、さまざまな中央ヨーロッパ言語、東ヨーロッパ言語、およびバルト諸国語に対して使用されます。このエンコードは CP1257 および Windows-1257 としても知られています。このエンコードは、コード 0x80 (128) ～ 0xFF (255) が unicode.org にある CP1257 - Unicode テーブルにリストされているように定義されている点を除けば、CharEncoding.iso-latin-1 と同じです。

koi8-r—このエンコードは、ブルガリア語、ベラルーシ語、マケドニア語、ロシア語、セルビア語、およびウクライナ語に対して使用できます。このエンコードは CP878 としても知られています。このエンコードは、コード 0x80 (128) ～ 0xFF (255) が unicode.org にある KOI8-R - Unicode テーブルにリストされているように定義されている点を除けば、CharEncoding.iso-latin-1 と同じです。

koi8-u—このエンコードは、ブルガリア語、ベラルーシ語、マケドニア語、ロシア語、セルビア語、およびウクライナ語に対して使用できます。このエンコードは、コード 0x80 (128) ～ 0xFF (255) が ietf.org にある RFC 2319 にリストされているように定義されている点を除けば、CharEncoding.iso-latin-1 と同じです。

dos-cyrillic—このエンコードは、ブルガリア語、ベラルーシ語、マケドニア語、ロシア語、セルビア語、およびウクライナ語に対して使用できます。このエンコードは CP866 としても知られています。このエンコードは、コード 0x80 (128) ～ 0xFF (255) が unicode.org にある CP866 - Unicode テーブルにリストされているように定義されている点を除けば、CharEncoding.iso-latin-1 と同じです。

shift-jis—このエンコードは、英語および日本語に対して使用できます。ただし、その他の一部の言語も部分的にサポートしています。このエンコードは Shift_JIS としても知られています。このエンコードは、コード 0 ～ 0x7E の部分は CharEncoding.ascii と同様です。コード 0xA1 ～ 0xDF の部分は JIS X 0201 の半角カタカナです。このエンコードには、文字セット JIS X 0208:1997 に対して使われる 2 バイトエンコードも含まれています。この 2 バイトエンコードは、Microsoft Code Page 932 によって補完されています。コードページ 932 では、NEC (行 13)、IBM 選択文字 (行 115 ～ 119)、NEC によって移動された IBM 選択文字 (行 89 ～ 92) をそれぞれ追加しています。

euc-jp—このエンコードは、英語および日本語に対して使用できます。ただし、その他の一部の言語も部分的にサポートしています。このエンコードは EUC-JP としても知られています。このエンコードは、0x8E バイトに続くとき、コード 0 ～ 0x7E の部分は CharEncoding.ascii と同様です。コード 0xA1 ～ 0xDF の部分は JIS X 0201 の半角カタカナです。このエンコードには、文字セット JIS X 0208:1997 に対して使われる 2 バイトエンコード、および文字セット JIS X 0212-1990 に対して使われる 3 バイトエンコードも含まれています。このエンコードは、JIS X 0208:1997 に追加された Microsoft のコードページ 932 によって補完されません。

euc-kr—このエンコードは英語および韓国語に対して使用できます。これは KSC5601 に指定されたエンコードを表します。より具体的には、このエンコードは、unicode.org にある統一ハングル文字 (KSC5601-1992) - Unicode テーブルを実装します。

none-specified—これはエンコードではありません。これは、未指定のエンコードを表します。一部の関数では、この値が使われた場合、エンコードを自動的に特定しようとします。CharEncoding.none-specified で利用できるか、get-character-encoding-by-name を使用して検索できます。このエンコードの CharEncoding.transcode-min-expansion-factor はすべての登録済みエンコードの最小 transcode-min-expansion-factor を返し、CharEncoding.transcode-max-expansion-factor はすべての登録済みエンコードの最大 transcode-min-expansion-factor を返します。