UTF-8で出力の日本語抽出
文字コードをUTF-8で出力するように定義されたFOPのスタイルシートを変換して作成されたPDFファイル(日本語)が多数あります。
しかしこのPDFの日本語は正確に表示はされていますが、文字抽出すると化けてしまいます。テキストをコピーして秀丸などに貼り付けても文字化けしてしまいます。もちろん単純にUTF-8をShift-JISに変換しても読み取れません。正確にテキスト(日本語)を認識できるようにする方法はありませんでしょうか? 宜しくお願いいたします。
[ 記事一覧 | 返信(R) | 引用して返信(Q) ]