文字コード掲示板


一括購読


No.163投稿日時:2004/04/14(水) 13:45    <親記事>
投稿者:野々村

iso-2022-jpでの丸数字について

はじめまして。

Outlook Express等のMUAで13区(丸に数字の1など)がContent-Typeの
encodingがiso-2022-jpの時にESC$B-!とエンコードされている
件について質問があります。

こちらの掲示板や他のWeb Siteを拝見したところ、これは厳密には
ISO-2022-JPではなく、CP50220と呼ぶべきものと判断いたしました
が、その認識であっておりますでしょうか。

森山様のlibiconv-1.8へのパッチを適用したlibiconvではCP50220を
指定すると上記の文字を正常に他のエンコード(UTF-8)へ変換できますが、
ISO-2022-JPではエラーが発生したので、そのように判断しております。

また、libiconv-1.9.1へのパッチにはCP50220が含まれていないとの
ことですが、libiconv-1.9.1で同様にESC$B-!を他のエンコードに変換
する方法はあるのでしょうか?

--
野々村


No.164投稿日時:2004/04/16(金) 00:07    <↑親記事:No.163>
投稿者:森山 将之  <E-Mail>

cp932 の JISコード版

libiconv 1.9.1 のパッチは、当初 Upstream へのマージも考慮に入れていたので、仕様が公開されていない Windows Code Page 50220 の実装は入れませんでした。
英語の出来る人に働きかけてもらったのですが、結局、マージしてもらえませんでした。

あと、libiconv-1.8-cp932-family.diff.gz の cp50220 は、直したいところがあるとか、仕様を明確化してから、その仕様に基づいて実装を行う方が良いだろうと考えていて、libiconv 1.9.1 へは取り込んでありません。

森山仕様の ISO-2022-JP の拡張を公表して、それに基づいた実装をするという手もあるとは思っていますが。


No.165投稿日時:2004/04/16(金) 23:10    <↑親記事:No.164>
投稿者:野々村

野々村です。 なるほど。それ...

野々村です。

なるほど。それではOutlook ExpressなどでNEC拡張漢字等を使われている
emailをlibiconvでUTF-8に変換するには今のところlibiconv-1.8に森山さんの
パッチを使用するのが一番簡単なんですね。

ありがとうございます。


No.166投稿日時:2004/04/19(月) 11:49    <↑親記事:No.164>
投稿者:野々村

libiconv 1.9.1 パッチ

> libiconv 1.9.1 のパッチは、当初 Upstream へのマージも考慮に
> 入れていたので、仕様が公開されていない Windows Code Page 50220 の
> 実装は入れませんでした。
> 英語の出来る人に働きかけてもらったのですが、結局、マージして
> もらえませんでした。

このパッチはなぜマージしてもらえなかったんですか?
webdav-jpのアーカイブなどみてみたのですが、glibcに
ついてのスレッドは見つかったのですが、libiconv 1.9.1に対する
パッチのスレッドは見つかりませんで、
差し障りなければ教えてください。


No.167投稿日時:2004/04/19(月) 23:40    <↑親記事:No.166>
投稿者:森山 将之  <E-Mail>

libiconv パッチの本家への取り込み

1.9.1 は、返事がないとの事なので不明ですが、libiconv 1.8 への修正については、次のメーリストのログを見てください。
http://www.samba.gr.jp/ml/article/sugj-tech/msg05093.html

まぁ、Brunoさんの勉強不足であることは確かですが(情報不足とい面もあるでしょう)、日本人であっても、きちんと問題を理解してなおかつ理想論ではなく現実問題として、どのような実装をすれば良いのかという事を考えている人は、少ないと感じています。ですので外国の人に日本語の文字コードに関して多くの事を期待するのは、酷だとも感じています。


No.176投稿日時:2004/07/08(木) 22:39    <↑親記事:No.163>
投稿者:tamo  <URL>

cp50220 って必要ですよね

はじめまして、高橋全と申します。
Mutt で森山さんのパッチを使えば
ISO-2022-JP と偽って来る CP50220 のメールを
読めるようになるかと思ったのですが、
glibc には CP50220 がないし、
libiconv-1.9 にも CP50220 がないので
うちでは使えないことに気付きました……。

メールで使うぶんには CP50220 は必要だと思うので
ぜひとも引き続きプッシュしていただきたいと思います。
応援しています!

私としては、glibc に CP50220 が入ったら最高です。


No.180投稿日時:2004/07/15(木) 12:28    <↑親記事:No.176>
投稿者:森山 将之  <E-Mail>

libiconv-1.9.1-cp932-family.patch ?

もし libiconv-1.9.1 用にも cp932-family パッチが欲しいという事であれば、作成いたします。

ただ、個人的には、cp50220 は半角カナを勝手に全角のカタカナに変換してしまうだとか、ユーザー定義文字を変換できないだとか純粋にエンコーディング変換としてみた場合、ちょっと使いづらいなと感じています。
TR X 0015:1999 XML日本語プロファイル x-iso2022jp-cp932 にしても、Unicode経由での「〜」等の変換の問題を解決するためだけのもので、文字集合の制限がきつくて、忠実に実装すると、機種依存文字を使えないものとなってしまいます。
で、新しい charset 名を考えて、勝手に実装をしてしまうかとも考えていたりします。

たとえば、x-iso-2022-windows-932 で

G0 集合のみを使い

機種依存文字に関しては、IBM拡張文字→NEC選定IBM拡張文字の変換をしてから ESC $ B
JIS X 0201 片仮名は ESC ( I
ユーザー定義文字は ESC $ ( ? ← JIS X 0202 の 「13.3.3 私用」の定義による

などのエスケープシーケンスを使うとか。

※JIS X 0202 は、http://www.jisc.go.jp/ の JIS検索でPDFにより『閲覧』が可能です。


No.197投稿日時:2004/08/04(水) 20:24    <↑親記事:No.180>
投稿者:tamo  <URL>

libiconv-1.9.1 cp50220

ありがとうございます。私の使い方では、mutt で iconv-hook を設定する必要があるので、どんな名前であろうとかまいません。ただ、やはり上流に取り入れてもらいたいですよね。もう無理なのかな……。monyo せんせいもバテてるみたいだし。とにかく、Windows の似非 ISO-2022-JP を読めるパッチがあればとても助かります。FreeBSD の libiconv port に入れてもらうようお願いしてみようかな。まず、glibc か libiconv でテストできるようになったら、mutt の開発者に iconv-hook のパッチを取り入れてくれるよう陳情してみます。では


Script : Sylpheed 1.24
Modified by MORIYAMA Masayuki