キンコミ kintone user community

みんなの投稿

OCRのPDFのテキスト抽出について。

kintoneで、OCRのPDFのテキスト抽出を
javascriptを組んで実行しているのですが、どうしても
文字化けが発生し、完全には表示できない状態です。

AIのプラグインがあるのは存じ上げているのですが、会社的に導入する予定はなく…なんとかjavascriptでできないかと。
皆様はテキスト抽出される際、どのような方法をとられていますでしょうか。

4件のコメント (新着順)
EKO
サービス業
2025/05/29 08:53

皆様、ご回答いただきましてありがとうございます。
OCR以外の方法を考えてみます。
お手数おかけいたしました。

井上望
2025/05/27 12:38

お疲れ様です。

①「PDFに埋め込まれたテキスト文を抽出」or「イメージを文字認識」
②「活字」or「手書き文字」
③「OCR帳票のようなかっちりした帳票」or「かなりフリーダムな手書き」

 この辺の状況でかなり変わってきそうですね。
 もし、①の埋め込みテキストなら、そもそも再利用できるデータでもらえないかを調整できれば、一番いいんですが……

 以前、「帳票に手書き」の情報を読み取って管理するのをkintoneでやったことがありますが、「手書き」の場合、ごく一部のAIによるOCRエンジン以外使い物になりませんでした。
(「AI対応」って言葉が企業によってあまりに異なるので、実際に試さないとどうにもならない)

 例えば読み取る帳票に「ほぼ確実に読み取れるキー情報(kintoneの情報に紐づく連番等)」があれば、OCRソフトでCSVとして抽出してkintoneにインポートって方法も可能です(自分の場合、実際にこの方法を使いました)。

 一方、読み取る帳票にキーが無い場合は、kintoneに添付ファイルとして添付して、プラグインやカスタマイズで読み取る(添付ファイルなので、作業過程でkintoneと帳票のデータが紐づくことになる)形になります。
 このような場合に有効なプラグインもいくつかありますが、OCRのエンジンは何なのか、AI等で自由に選択できるのか、実際に試して確認する必要があります。

 現在ご希望のカスタマイズの場合は、キンコミではなく、cybozu developer networkのコミュニティが質問に適切かと思いますが、内容的にJavaScriptで機能を実装するというより、用途に合ったOCRエンジンを探している感じですので、質問してもあまり答えは出てこないかもしれません。
https://cybozu.dev/ja/

 「文字化け」がどのようなものを指しているのかが不明ではありますが、いずれの手法をとるにせよ、「人のチェック&修正」なしに使えるほどのOCRエンジンは、まだないかなと思います。
(正確性をどの程度追及するかによりますが……)

ふゆき
製造業
2025/05/27 11:18

なんとかjavascriptでできないかと。

キンコミは、JS,CSS (=コーディングの話)はご法度なので
「cybozu developer community」のほうでご質問されるのが良い🦆かも

OCR”エンジン”の取り込みって、相当ハードル高そうですね。

①弊社の場合は、OCRできる複合プリンタがありますので、「紙媒体のOCR」ならそれを使います。
セキュリティがかかっていないPDFのテキスト抽出なら、「Poppler」というフリーのコマンドラインツールを使います。(小生、Excel-VBAで活用してます。)
③生成AIさんに、「windowsでpdfの日本語ocr」とでも訊いて、オススメを検討するのもアリですね。
 ※PowershellやPythonなどでも比較的容易に書ける(書いてくれる)ようです。

ご存知だとは思いますが、OCRは(こと日本語に関して)一定程度の文字化けとその修正作業は避けられないと思います。
(②はテキスト”変換”なので、基本的に文字化けはありません。)

いずれもkintone取り込みを避けた話なので、捨て置いて結構です。