No.188 | 投稿日時: | 2004/07/26(月) 22:44 <↑親記事:No.187> |
投稿者: | 森山 将之 <E-Mail> |
> 実はメールデータを UTF-8 に変換したいのですが、
日本語の UTF-8 のコードポイントは、Windows と同じにするのでしょうか?
Unicode コンソーシアム準拠にするのでしょうか?
それとも JIS準拠にするのでしょうか?
という問題があります。
パッチを見た限りでは、JIS準拠の UTF-8 に変換しているようですね。
ただ、そうしてしまうと、cp932 や eucJP-ms に変換出来なくなってしまう危険があるので要注意です。
cp50220 を追加するパッチは libiconv 1.8 用のものがあります。
http://www2d.biglobe.ne.jp/~msyk/software/libiconv-1.8-cp932-family.html
※半角カナ→全角カタカナの変換にバグがあり、以前修正した記憶があるのですが、調べてみたら、修正版をアップロードしてありませんでしたので、近々修正版をアップ予定です。
libiconv 1.9.[12] 用にも、cp932-family パッチを作成しようかと考えています。
ちなみに、cp50220 というのは、Windows コードページ 50220 の事で、JIS X 0208 のエスケープシーケンス ESC $ B で、NEC特殊文字(13区)、NEC選定IBM拡張文字(89〜92区) を扱え、JISコードへのエンコード時には、半角カタカナを全角のカタカナに変換するという機能を持ったコンバータになります。