トップ > みんなの投稿 > アイデア募集 > OCRのPDFのテキスト抽出について。 k... EKO サービス業 2025/05/27 10:04 OCRのPDFのテキスト抽出について。 kintoneで、OCRのPDFのテキスト抽出を javascriptを組んで実行しているのですが、どうしても 文字化けが発生し、完全には表示できない状態です。 AIのプラグインがあるのは存じ上げているのですが、会社的に導入する予定はなく…なんとかjavascriptでできないかと。 皆様はテキスト抽出される際、どのような方法をとられていますでしょうか。 OCRのPDFのテキスト抽出について。 kintoneで、OCRのPDFのテキスト抽出を javascriptを組んで実行しているのですが、どうしても 文字化けが発生し、完全には表示できない状態です。 AIのプラグインがあるのは存じ上げているのですが、会社的に導入する予定はなく…なんとかjavascriptでできないかと。 皆様はテキスト抽出される際、どのような方法をとられていますでしょうか。 いいね 共有する 共有する X facebook LINE リンクをコピー トークにコメントする 4件のコメント (新着順) ミュートしたユーザーの投稿です。 投稿を表示 EKO サービス業 2025/05/29 08:53 皆様、ご回答いただきましてありがとうございます。 OCR以外の方法を考えてみます。 お手数おかけいたしました。 いいね 返信する ミュートしたユーザーの投稿です。 投稿を表示 井上望 2025/05/27 12:38 EKO お疲れ様です。 ①「PDFに埋め込まれたテキスト文を抽出」or「イメージを文字認識」 ②「活字」or「手書き文字」 ③「OCR帳票のようなかっちりした帳票」or「かなりフリーダムな手書き」 この辺の状況でかなり変わってきそうですね。 もし、①の埋め込みテキストなら、そもそも再利用できるデータでもらえないかを調整できれば、一番いいんですが…… 以前、「帳票に手書き」の情報を読み取って管理するのをkintoneでやったことがありますが、「手書き」の場合、ごく一部のAIによるOCRエンジン以外使い物になりませんでした。 (「AI対応」って言葉が企業によってあまりに異なるので、実際に試さないとどうにもならない) 例えば読み取る帳票に「ほぼ確実に読み取れるキー情報(kintoneの情報に紐づく連番等)」があれば、OCRソフトでCSVとして抽出してkintoneにインポートって方法も可能です(自分の場合、実際にこの方法を使いました)。 一方、読み取る帳票にキーが無い場合は、kintoneに添付ファイルとして添付して、プラグインやカスタマイズで読み取る(添付ファイルなので、作業過程でkintoneと帳票のデータが紐づくことになる)形になります。 このような場合に有効なプラグインもいくつかありますが、OCRのエンジンは何なのか、AI等で自由に選択できるのか、実際に試して確認する必要があります。 現在ご希望のカスタマイズの場合は、キンコミではなく、cybozu developer networkのコミュニティが質問に適切かと思いますが、内容的にJavaScriptで機能を実装するというより、用途に合ったOCRエンジンを探している感じですので、質問してもあまり答えは出てこないかもしれません。 https://cybozu.dev/ja/ 「文字化け」がどのようなものを指しているのかが不明ではありますが、いずれの手法をとるにせよ、「人のチェック&修正」なしに使えるほどのOCRエンジンは、まだないかなと思います。 (正確性をどの程度追及するかによりますが……) いいね 返信する ミュートしたユーザーの投稿です。 投稿を表示 ふゆき 製造業 2025/05/27 11:18 EKO なんとかjavascriptでできないかと。 キンコミは、JS,CSS (=コーディングの話)はご法度なので 「cybozu developer community」のほうでご質問されるのが良い🦆かも いいね 返信する ミュートしたユーザーの投稿です。 投稿を表示 Seal777 サービス業 2025/05/27 10:30 EKO OCR”エンジン”の取り込みって、相当ハードル高そうですね。 ①弊社の場合は、OCRできる複合プリンタがありますので、「紙媒体のOCR」ならそれを使います。 ②セキュリティがかかっていないPDFのテキスト抽出なら、「Poppler」というフリーのコマンドラインツールを使います。(小生、Excel-VBAで活用してます。) ③生成AIさんに、「windowsでpdfの日本語ocr」とでも訊いて、オススメを検討するのもアリですね。 ※PowershellやPythonなどでも比較的容易に書ける(書いてくれる)ようです。 ご存知だとは思いますが、OCRは(こと日本語に関して)一定程度の文字化けとその修正作業は避けられないと思います。 (②はテキスト”変換”なので、基本的に文字化けはありません。) いずれもkintone取り込みを避けた話なので、捨て置いて結構です。 いいね 返信する
ミュートしたユーザーの投稿です。
投稿を表示皆様、ご回答いただきましてありがとうございます。
OCR以外の方法を考えてみます。
お手数おかけいたしました。
ミュートしたユーザーの投稿です。
投稿を表示お疲れ様です。
①「PDFに埋め込まれたテキスト文を抽出」or「イメージを文字認識」
②「活字」or「手書き文字」
③「OCR帳票のようなかっちりした帳票」or「かなりフリーダムな手書き」
この辺の状況でかなり変わってきそうですね。
もし、①の埋め込みテキストなら、そもそも再利用できるデータでもらえないかを調整できれば、一番いいんですが……
以前、「帳票に手書き」の情報を読み取って管理するのをkintoneでやったことがありますが、「手書き」の場合、ごく一部のAIによるOCRエンジン以外使い物になりませんでした。
(「AI対応」って言葉が企業によってあまりに異なるので、実際に試さないとどうにもならない)
例えば読み取る帳票に「ほぼ確実に読み取れるキー情報(kintoneの情報に紐づく連番等)」があれば、OCRソフトでCSVとして抽出してkintoneにインポートって方法も可能です(自分の場合、実際にこの方法を使いました)。
一方、読み取る帳票にキーが無い場合は、kintoneに添付ファイルとして添付して、プラグインやカスタマイズで読み取る(添付ファイルなので、作業過程でkintoneと帳票のデータが紐づくことになる)形になります。
このような場合に有効なプラグインもいくつかありますが、OCRのエンジンは何なのか、AI等で自由に選択できるのか、実際に試して確認する必要があります。
現在ご希望のカスタマイズの場合は、キンコミではなく、cybozu developer networkのコミュニティが質問に適切かと思いますが、内容的にJavaScriptで機能を実装するというより、用途に合ったOCRエンジンを探している感じですので、質問してもあまり答えは出てこないかもしれません。
https://cybozu.dev/ja/
「文字化け」がどのようなものを指しているのかが不明ではありますが、いずれの手法をとるにせよ、「人のチェック&修正」なしに使えるほどのOCRエンジンは、まだないかなと思います。
(正確性をどの程度追及するかによりますが……)
ミュートしたユーザーの投稿です。
投稿を表示キンコミは、JS,CSS (=コーディングの話)はご法度なので
「cybozu developer community」のほうでご質問されるのが良い🦆かも
ミュートしたユーザーの投稿です。
投稿を表示OCR”エンジン”の取り込みって、相当ハードル高そうですね。
①弊社の場合は、OCRできる複合プリンタがありますので、「紙媒体のOCR」ならそれを使います。
②セキュリティがかかっていないPDFのテキスト抽出なら、「Poppler」というフリーのコマンドラインツールを使います。(小生、Excel-VBAで活用してます。)
③生成AIさんに、「windowsでpdfの日本語ocr」とでも訊いて、オススメを検討するのもアリですね。
※PowershellやPythonなどでも比較的容易に書ける(書いてくれる)ようです。
ご存知だとは思いますが、OCRは(こと日本語に関して)一定程度の文字化けとその修正作業は避けられないと思います。
(②はテキスト”変換”なので、基本的に文字化けはありません。)
いずれもkintone取り込みを避けた話なので、捨て置いて結構です。