tesseractとかが中で動いているっぽい、PDFのOCR化に特化したツール。
書類回転方向の自動識別とかもある。
ChatGPTに聞いて使ったところ、ヘルプとしてもオプション出るけどなんか使えなかったオプションがたくさんあって謎。
--remove-background--deskew--oversample
など。あとOCRに時間かかりすぎると普通にタイムアウトするっぽい。設定あるのかな
あった。 --tesseract-timeout SECONDS
tesseractとかが中で動いているっぽい、PDFのOCR化に特化したツール。
書類回転方向の自動識別とかもある。
ChatGPTに聞いて使ったところ、ヘルプとしてもオプション出るけどなんか使えなかったオプションがたくさんあって謎。
--remove-background--deskew--oversampleなど。あとOCRに時間かかりすぎると普通にタイムアウトするっぽい。設定あるのかな
あった。 --tesseract-timeout SECONDS