文字コード掲示板

No.370	投稿日時:	2005/12/21(水) 21:59 <↑親記事:No.368>
	投稿者:	森山将之

FOP出力のPDFからツールによってテキスト抽出すると文字化けする件

複数のPDFテキスト抽出ツールで文字化けが発生しているのであれば、FOPの出力したPDFファイルに問題があると考えるのが一般的なのではないでしょうか?

文字コードの問題というよりも、FOP の出力する PDF ファイルのフォーマットの問題という気がします。

http://softfarm.net/info/pdf/pdf_convert.html
には、PDFをテキストファイルに変換するツール PDFDocText について次のような説明がありました。
----------------------------------------
ＰＤＦ　ＤｏｃＴｅｘｔ
ＭＡＤＩＡさん【ＰＤＦ→Ｔｅｘｔ変換】Ｆｒｅｅ
PDFファイルからテキストを抽出するツールです。テキスト抽出はページ・ファイル単位で行うことができます。
--------------------------------------------------------------------------------
＜対応しているフォントのエンコーディング＞
欧米
WinAnsiEncoding
MacRomanEncoding
MacExpertEncoding
StandardEncoding
日本語
Identity-H Ext-RKSJ-H
Identity-V Ext-RKSJ-V
83pv-RKSJ-H EUC-H
90pv-RKSJ-H EUC-V
90ms-RKSJ-H H
90ms-RKSJ-V V
90msp-RKSJ-H UniJIS-UCS2-H
90msp-RKSJ-V UniJIS-UCS2-V
Add-RKSJ-H UniJIS-UCS2-HW-H
Add-RKSJ-V UniJIS-UCS2-HW-V
※フォントのエンコーディングが「ビルドイン」となっているものについては、文書内にCMapリソースがある場合のみ対応可能です。(ビルドインの場合は通常、文書内にあります)
※フォントのエンコーディングが「カスタム」となっているものについては、正常にテキストを取得できない場合があります。(アクロバットでも正常にテキスト抽出を行えません。PDFファイルの仕様です)
----------------------------------------

[ 記事一覧 | 返信(R) | 引用して返信(Q) ]

文字コード掲示板

記事表示

FOP出力のPDFからツールによってテキスト抽出すると文字化けする件