LMV-RPA: Large Model Voting-based Robotic Process Automation


光学式文字認識 (OCR) は重要ですが、複雑なレイアウトやあいまいなテキストでは精度と効率に苦労することがよくあります。
このペーパーでは、OCR ワークフローを強化する大規模モデル投票ベースのロボット プロセス オートメーション システムである LMV-RPA を紹介します。
LMV-RPA は、Paddle OCR、Tesseract OCR、Easy OCR、DocTR などの OCR エンジンからの出力を、LLaMA 3 や Gemini-1.5-pro などの大規模言語モデル (LLM) と統合します。
多数決メカニズムを使用して、OCR 出力を構造化された JSON 形式に処理し、特に複雑なレイアウトの精度を向上させます。
マルチフェーズ パイプラインは、OCR エンジンによって抽出されたテキストを LLM を通じて処理し、結果を組み合わせて最も正確な出力を保証します。
LMV-RPA は、OCR タスクで 99% の精度を達成し、ベースライン モデルの 94% を上回り、処理時間を 80% 削減します。
ベンチマーク評価により、その拡張性が確認され、LMV-RPA が大規模なドキュメント処理タスクを自動化するための、より高速で信頼性が高く、効率的なソリューションを提供することが実証されました。


Automating high-volume unstructured data processing is essential for operational efficiency. Optical Character Recognition (OCR) is critical but often struggles with accuracy and efficiency in complex layouts and ambiguous text. These challenges are especially pronounced in large-scale tasks requiring both speed and precision. This paper introduces LMV-RPA, a Large Model Voting-based Robotic Process Automation system to enhance OCR workflows. LMV-RPA integrates outputs from OCR engines such as Paddle OCR, Tesseract OCR, Easy OCR, and DocTR with Large Language Models (LLMs) like LLaMA 3 and Gemini-1.5-pro. Using a majority voting mechanism, it processes OCR outputs into structured JSON formats, improving accuracy, particularly in complex layouts. The multi-phase pipeline processes text extracted by OCR engines through LLMs, combining results to ensure the most accurate outputs. LMV-RPA achieves 99 percent accuracy in OCR tasks, surpassing baseline models with 94 percent, while reducing processing time by 80 percent. Benchmark evaluations confirm its scalability and demonstrate that LMV-RPA offers a faster, more reliable, and efficient solution for automating large-scale document processing tasks.


著者 Osama Abdellatif,Ahmed Ayman,Ali Hamdi
発行日 2024-12-23 20:28:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SE パーマリンク