| No.368 | 投稿日時: | 2005/12/21(水) 13:23 <↑親記事:No.367> |
| 投稿者: | ペロリ |
> FOP の事は門外漢で、「文字抽出すると化けてしまいます。」という事が何を意味するのかわからないので、具体的にどのような事なのか解説をしていただけないでしょうか。
ご回答ありがとうございます。フリーやシェアのソフトでPDFファイルの中身のテキストを抽出するソフトがたくさん出回っていますが、どれを試してもすべての文字が "□" に化けてしまいます。それで明らかに文字コードの問題だと思ったわけです。PDFの中身をデータベース化したいのですが現時点では全くできないわけです。
PDF上では全く問題なくテキスト(日本語が)表示だけはされていて、画像でもないのですが、表示されている文字の二次利用は一切できないわけです。最悪スキャンしてOCRですが、量的にとても不可能です。何か方法があればご教示ください。宜しくお願いいたします。