文字コード掲示板


記事表示


No.366投稿日時:2005/12/20(火) 14:46    <親記事>
投稿者:ペロリ

UTF-8で出力の日本語抽出

文字コードをUTF-8で出力するように定義されたFOPのスタイルシートを変換して作成されたPDFファイル(日本語)が多数あります。
しかしこのPDFの日本語は正確に表示はされていますが、文字抽出すると化けてしまいます。テキストをコピーして秀丸などに貼り付けても文字化けしてしまいます。もちろん単純にUTF-8をShift-JISに変換しても読み取れません。正確にテキスト(日本語)を認識できるようにする方法はありませんでしょうか? 宜しくお願いいたします。

[ 記事一覧 | 返信(R) | 引用して返信(Q) ]


Script : Sylpheed 1.24
Modified by MORIYAMA Masayuki