JIS X 0201 片仮名

1997年6月3日:新規作成
1997年10月27日:更新
1997年12月25日:更新
1998年2月25日:許可の無いリンクを削除しました。
1998年2月26日:『インターネットメールの注意点』の Webページへのリンクを復活させました。
2002年4月2日:
「『JUNET利用の手引き 第1版』では当時 sendmail で、SO/SI を通さない物があったため、インターネットメールでは使用できないとされていた。」との記述が誤りだったことがわかりましたので該当部分に取消し線を引きました。

ここでは、JIS X 0201 片仮名(いわゆる半角カナ) に関する情報を提供いたします。

このページでは今まで分散していて全体像が見えてこなかった JIS X 0201 片仮名 に関する情報を集約する事を意図しており正確さに欠ける部分があるかもしれません。
正確な情報が必要な方は、参考文献を調べる事をお勧めします。

ちなみに JIS X 0208:1997 には、シフトJISコードでの JIS X 0201 片仮名の領域の扱いに関して『付属書1(規定) シフト符号化表現』で「JIS X 0201 の片仮名用図形文字集合の割り当ては, この規格の将来の改正では, 削除することを予定している。」とあります。

1.素朴な疑問

なぜ、インターネットでは JIS X 0201 片仮名が使えないのでしょう?

この問いに対する答えを求めて文字コードの深みにはまってしまいましたが、 文字コードについて調べた結果は、インターネットで JIS X 0201 片仮名を扱う事は不可能ではないという事でした。

技術的な問題で利用できないのではなく RFC 1468 Japanese Character Encoding for Internet Messages (ISO-2022-JP) が使ってはいけない根拠となっています。

2.各種文字コード

2-1.JISコード(として一般に知られているコード)

JISコードと言われている文字コードでの JIS X 0201 片仮名 のエンコーディング方式は主に次の3種類の方法が存在します。
  1. 8ビットコードを使用する方法
    ^[ $ B 4 A ; z ^[ ( J a l p h
    escape sequence ESC $ B ESC ( J
    a l p h
    16 進数 1b 24 42 34 41 3b 7a 1b 28 4a b6 c0 b6 c5 61 6c 70 68

  2. SO/SIを使って7ビットコードを使用する方法
    ^[ $ B 4 A ; z ^[ ( J ^N 6 @ 6 E ^O a l p h
    escape sequence ESC $ B ESC ( J SO SI
    a l p h
    16 進数 1b 24 42 34 41 3b 7a 1b 28 4a 0e 36 40 36 45 0f 61 6c 70 68

  3. ESC ( I を使って7ビットコードを使用する方法
    ^[ $ B 4 A ; z ^[ ( I 6 @ 6 E ^[ ( J a l p h
    escape sequence ESC $ B ESC ( I ESC ( J
    a l p h
    16 進数 1b 24 42 34 41 3b 7a 1b 28 49 36 40 36 45 1b 28 49 61 6c 70 68

2-2.日本語EUCコード

EUC (Extended UNIX Code) は、ISO 2022 の8単位符号の拡張にのっとって作られたコード。
最大4つの文字セットを扱える。


日本語EUCコードのビット表現
コードセットビット表現文字セット
00xxxxxxxASCII 文字 (JIS X 0201 ローマ文字)
11xxxxxxx 1xxxxxxxJIS X 0208 漢字
2SS2 1xxxxxxxJIS X 0201 片仮名
3SS3 1xxxxxxx 1xxxxxxxJIS X 0212 補助漢字
xxxxxxx の部分に7ビットコードが入る
SS2(Single Shift 2) = 8Eh(10001110), SS3(Single Shift 3) = 8Fh(10001111)


a l p h
16 進数 b4 c1 bb ea 8e b6 8e c0 8e b6 8e c5 61 6c 70 68

1バイト目
EUCの1バイト目

2バイト目, 3バイト目
EUCの2,3バイト目

2-3.シフトJISコード

JIS X 0201 の8単位符号を拡張し、JIS X 0208 の文字セット(漢字)を 同時に扱えるようにした文字コード。MS漢字コードとも呼ばれている。

国際的な規格に適合しない、拡張性に乏しい、などの問題点がありながらも 日本のパーソナルコンピュータ用の OS での標準的な文字コードとなっている。

JIS X 0208:1997 では、シフトJISが追認され、 『JIS漢字の拡張計画』では、 シフトJISでも利用できる拡張文字集合(第3水準、第4水準)が計画されている。

a l p h
16 進数 8a bf 8e 9a b6 c0 b6 c5 61 6c 70 68

1バイト目
シフトJISの1バイト目
青色の領域:JIS X 0208 の領域 (1〜94区)
黄色の領域:シフトJISの拡張領域 (95〜120区相当)
JISコードやEUCコードには変換できない領域
『JIS漢字の拡張計画』により第4水準が入れられる予定

2バイト目
シフトJISの2バイト目
緑色の領域 : 奇数区 (1,3,5,…,119区)
赤色の領域 : 偶数区 (2,4,6,…,120区)

4.参考文献

書籍
マルチリンガル環境の実現
〜X Window/Wnn/Mule/WWWブラウザでの多国語環境〜
著者: 錦見美貴子、高橋直人、戸村哲、半田剣一、桑理聖二、向川信一、吉田智子
発行所: 株式会社プレンティスホール出版
ISBN4-88735-020-1
UNIX-PC 通信術 tty 回線からの UNIX
著者: 有村光晴・石井英男・中村浩士・西川 潤
発行所: ソフトバンク株式会社 出版事業部
ISBN4-89052-283-2 C0055
UNIX System V リリース 4 日本語環境共通規約 第 1 版
発行所: 株式会社トッパン
ISBN4-8101-8539-7
“シフトJIS”ではなく“MS漢字コード”と呼ぶ事を推奨?している。
JIS X 0201 片仮名の JIS エンコーディング 3 種類 8ビットコード、SO/SI、ESC(I についても書か れている。
日本語EUCのコードセット2 (JIS X 0201 片仮名), コードセット3 (JIS X 0212 補助漢字) は必須ではない事が明記されている。
UNIX System V リリース 4 国際化機能 (MNLS) 機能説明書
発行所: UNIX システム ラボラトリーズ パシフィック 株式会社
ISBN4-320-09716-5
Understanding Japanese Information Processing
日本語情報処理
著者: Ken Lunde
O'Reilly & Associates, Inc.
ISBN 1-56592-043-0
ISBN4-89052-708-7 (ソフトバンク, 邦訳版)
JUNET利用の手引き 第1版
JIS規格
JIS X 0201
7ビット及び8ビットの情報交換用符号化文字集合 (ISO/IEC 646)
JIS X 0208:1997
7ビット及び8ビットの2バイト情報交換用符号化漢字集合
JIS X 0211-1994
符号化文字集合用制御機能 (ISO/IEC 6429:1992)
JIS X 0212
情報交換用漢字符号 ――補助漢字
JIS X 0202
情報交換用符号の拡張法 (ISO 2022)
JIS X 0221-1995
国際符号化文字集合 (UCS) ――第1部 体系および基本多言語面(ISO/IEC 10646-1 :1993)
RFC(Request for Comments)
RFC 1468
Japanese Character Encoding for Internet Messages (ISO-2022-JP)
RFC 1557
Korean Character Encoding for Internet Messages (ISO-2022-KR)
RFC 1922
Chinese Character Encoding for Internet Messages (ISO-2022-CN)
ネットニュース
fj.kanji
その他
Canna for Windows95
「半角カタカナの禁止」の設定ができる IME
インターネットメールの注意点
HATさん

このページの問い合わせは以下のメールアドレスにお願いいたします。
森山 将之 <msyk@mtg.biglobe.ne.jp>