| No.163 | 投稿日時: | 2004/04/14(水) 13:45 <親記事> |
| 投稿者: | 野々村 |
はじめまして。
Outlook Express等のMUAで13区(丸に数字の1など)がContent-Typeの
encodingがiso-2022-jpの時にESC$B-!とエンコードされている
件について質問があります。
こちらの掲示板や他のWeb Siteを拝見したところ、これは厳密には
ISO-2022-JPではなく、CP50220と呼ぶべきものと判断いたしました
が、その認識であっておりますでしょうか。
森山様のlibiconv-1.8へのパッチを適用したlibiconvではCP50220を
指定すると上記の文字を正常に他のエンコード(UTF-8)へ変換できますが、
ISO-2022-JPではエラーが発生したので、そのように判断しております。
また、libiconv-1.9.1へのパッチにはCP50220が含まれていないとの
ことですが、libiconv-1.9.1で同様にESC$B-!を他のエンコードに変換
する方法はあるのでしょうか?
--
野々村
| No.164 | 投稿日時: | 2004/04/16(金) 00:07 <↑親記事:No.163> |
| 投稿者: | 森山 将之 <E-Mail> |
libiconv 1.9.1 のパッチは、当初 Upstream へのマージも考慮に入れていたので、仕様が公開されていない Windows Code Page 50220 の実装は入れませんでした。
英語の出来る人に働きかけてもらったのですが、結局、マージしてもらえませんでした。
あと、libiconv-1.8-cp932-family.diff.gz の cp50220 は、直したいところがあるとか、仕様を明確化してから、その仕様に基づいて実装を行う方が良いだろうと考えていて、libiconv 1.9.1 へは取り込んでありません。
森山仕様の ISO-2022-JP の拡張を公表して、それに基づいた実装をするという手もあるとは思っていますが。
| No.165 | 投稿日時: | 2004/04/16(金) 23:10 <↑親記事:No.164> |
| 投稿者: | 野々村 |
野々村です。
なるほど。それではOutlook ExpressなどでNEC拡張漢字等を使われている
emailをlibiconvでUTF-8に変換するには今のところlibiconv-1.8に森山さんの
パッチを使用するのが一番簡単なんですね。
ありがとうございます。
| No.166 | 投稿日時: | 2004/04/19(月) 11:49 <↑親記事:No.164> |
| 投稿者: | 野々村 |
> libiconv 1.9.1 のパッチは、当初 Upstream へのマージも考慮に
> 入れていたので、仕様が公開されていない Windows Code Page 50220 の
> 実装は入れませんでした。
> 英語の出来る人に働きかけてもらったのですが、結局、マージして
> もらえませんでした。
このパッチはなぜマージしてもらえなかったんですか?
webdav-jpのアーカイブなどみてみたのですが、glibcに
ついてのスレッドは見つかったのですが、libiconv 1.9.1に対する
パッチのスレッドは見つかりませんで、
差し障りなければ教えてください。
| No.167 | 投稿日時: | 2004/04/19(月) 23:40 <↑親記事:No.166> |
| 投稿者: | 森山 将之 <E-Mail> |
1.9.1 は、返事がないとの事なので不明ですが、libiconv 1.8 への修正については、次のメーリストのログを見てください。
http://www.samba.gr.jp/ml/article/sugj-tech/msg05093.html
まぁ、Brunoさんの勉強不足であることは確かですが(情報不足とい面もあるでしょう)、日本人であっても、きちんと問題を理解してなおかつ理想論ではなく現実問題として、どのような実装をすれば良いのかという事を考えている人は、少ないと感じています。ですので外国の人に日本語の文字コードに関して多くの事を期待するのは、酷だとも感じています。
| No.176 | 投稿日時: | 2004/07/08(木) 22:39 <↑親記事:No.163> |
| 投稿者: | tamo <URL> |
はじめまして、高橋全と申します。
Mutt で森山さんのパッチを使えば
ISO-2022-JP と偽って来る CP50220 のメールを
読めるようになるかと思ったのですが、
glibc には CP50220 がないし、
libiconv-1.9 にも CP50220 がないので
うちでは使えないことに気付きました……。
メールで使うぶんには CP50220 は必要だと思うので
ぜひとも引き続きプッシュしていただきたいと思います。
応援しています!
私としては、glibc に CP50220 が入ったら最高です。
| No.180 | 投稿日時: | 2004/07/15(木) 12:28 <↑親記事:No.176> |
| 投稿者: | 森山 将之 <E-Mail> |
もし libiconv-1.9.1 用にも cp932-family パッチが欲しいという事であれば、作成いたします。
ただ、個人的には、cp50220 は半角カナを勝手に全角のカタカナに変換してしまうだとか、ユーザー定義文字を変換できないだとか純粋にエンコーディング変換としてみた場合、ちょっと使いづらいなと感じています。
TR X 0015:1999 XML日本語プロファイル x-iso2022jp-cp932 にしても、Unicode経由での「〜」等の変換の問題を解決するためだけのもので、文字集合の制限がきつくて、忠実に実装すると、機種依存文字を使えないものとなってしまいます。
で、新しい charset 名を考えて、勝手に実装をしてしまうかとも考えていたりします。
たとえば、x-iso-2022-windows-932 で
G0 集合のみを使い
機種依存文字に関しては、IBM拡張文字→NEC選定IBM拡張文字の変換をしてから ESC $ B
JIS X 0201 片仮名は ESC ( I
ユーザー定義文字は ESC $ ( ? ← JIS X 0202 の 「13.3.3 私用」の定義による
などのエスケープシーケンスを使うとか。
※JIS X 0202 は、http://www.jisc.go.jp/ の JIS検索でPDFにより『閲覧』が可能です。
| No.197 | 投稿日時: | 2004/08/04(水) 20:24 <↑親記事:No.180> |
| 投稿者: | tamo <URL> |
ありがとうございます。私の使い方では、mutt で iconv-hook を設定する必要があるので、どんな名前であろうとかまいません。ただ、やはり上流に取り入れてもらいたいですよね。もう無理なのかな……。monyo せんせいもバテてるみたいだし。とにかく、Windows の似非 ISO-2022-JP を読めるパッチがあればとても助かります。FreeBSD の libiconv port に入れてもらうようお願いしてみようかな。まず、glibc か libiconv でテストできるようになったら、mutt の開発者に iconv-hook のパッチを取り入れてくれるよう陳情してみます。では