OCRのPDFのテキスト抽出について。 k...

OCRのPDFのテキスト抽出について。

kintoneで、OCRのPDFのテキスト抽出を
javascriptを組んで実行しているのですが、どうしても
文字化けが発生し、完全には表示できない状態です。

AIのプラグインがあるのは存じ上げているのですが、会社的に導入する予定はなく…なんとかjavascriptでできないかと。
皆様はテキスト抽出される際、どのような方法をとられていますでしょうか。

トークにコメントする

3件のコメント (新着順)

EKO

サービス業

2025/05/29 08:53

皆様、ご回答いただきましてありがとうございます。
OCR以外の方法を考えてみます。
お手数おかけいたしました。

もりおす

、他2人がリアクション

いいね返信する

井上望

スタンダードコース

2025/05/27 12:38

お疲れ様です。

①「PDFに埋め込まれたテキスト文を抽出」or「イメージを文字認識」
②「活字」or「手書き文字」
③「OCR帳票のようなかっちりした帳票」or「かなりフリーダムな手書き」

　この辺の状況でかなり変わってきそうですね。
　もし、①の埋め込みテキストなら、そもそも再利用できるデータでもらえないかを調整できれば、一番いいんですが……

　以前、「帳票に手書き」の情報を読み取って管理するのをkintoneでやったことがありますが、「手書き」の場合、ごく一部のAIによるOCRエンジン以外使い物になりませんでした。
(「AI対応」って言葉が企業によってあまりに異なるので、実際に試さないとどうにもならない)

　例えば読み取る帳票に「ほぼ確実に読み取れるキー情報（kintoneの情報に紐づく連番等）」があれば、OCRソフトでCSVとして抽出してkintoneにインポートって方法も可能です（自分の場合、実際にこの方法を使いました）。

　一方、読み取る帳票にキーが無い場合は、kintoneに添付ファイルとして添付して、プラグインやカスタマイズで読み取る（添付ファイルなので、作業過程でkintoneと帳票のデータが紐づくことになる）形になります。
　このような場合に有効なプラグインもいくつかありますが、OCRのエンジンは何なのか、AI等で自由に選択できるのか、実際に試して確認する必要があります。

　現在ご希望のカスタマイズの場合は、キンコミではなく、cybozu developer networkのコミュニティが質問に適切かと思いますが、内容的にJavaScriptで機能を実装するというより、用途に合ったOCRエンジンを探している感じですので、質問してもあまり答えは出てこないかもしれません。
https://cybozu.dev/ja/

　「文字化け」がどのようなものを指しているのかが不明ではありますが、いずれの手法をとるにせよ、「人のチェック&修正」なしに使えるほどのOCRエンジンは、まだないかなと思います。
（正確性をどの程度追及するかによりますが……）

事務所の紳士

、他7人がリアクション

いいね返信する

Seal777

サービス業

2025/05/27 10:30

OCR”エンジン”の取り込みって、相当ハードル高そうですね。

①弊社の場合は、OCRできる複合プリンタがありますので、「紙媒体のOCR」ならそれを使います。
②セキュリティがかかっていないPDFのテキスト抽出なら、「Poppler」というフリーのコマンドラインツールを使います。（小生、Excel-VBAで活用してます。）
③生成AIさんに、「windowsでpdfの日本語ocr」とでも訊いて、オススメを検討するのもアリですね。
　※PowershellやPythonなどでも比較的容易に書ける（書いてくれる）ようです。

ご存知だとは思いますが、OCRは（こと日本語に関して）一定程度の文字化けとその修正作業は避けられないと思います。
（②はテキスト”変換”なので、基本的に文字化けはありません。）

いずれもkintone取り込みを避けた話なので、捨て置いて結構です。

事務所の紳士

、他4人がリアクション

いいね返信する

みんなの投稿