software

tesseractとかが中で動いているっぽい、PDFのOCR化に特化したツール。

書類回転方向の自動識別とかもある。

ChatGPTに聞いて使ったところ、ヘルプとしてもオプション出るけどなんか使えなかったオプションがたくさんあって謎。

  • --remove-background
  • --deskew
  • --oversample

など。あとOCRに時間かかりすぎると普通にタイムアウトするっぽい。設定あるのかな

あった。 --tesseract-timeout SECONDS