SmartFlow: Robotic Process Automation using LLMs

要約

ロボティック プロセス オートメーション (RPA) システムは、人間のような高度な意思決定能力を必要とする複雑なプロセスと多様な画面レイアウトを処理する際に課題に直面しています。
これらのシステムは通常、画面要素を視覚的に理解するのではなく、ドラッグ アンド ドロップや Selenium などの自動化フレームワークを介したピクセル レベルのエンコーディングに依存して、ナビゲーション ワークフローを作成します。
これに関連して、深層学習ベースの画像理解と組み合わせた事前トレーニング済みの大規模言語モデル (LLM) を使用する AI ベースの RPA システムである SmartFlow を紹介します。
当社のシステムは、人間の介入を必要とせずに、ユーザー インターフェイスの変更や入力データの変化などの新しいシナリオに適応できます。
SmartFlow は、コンピュータ ビジョンと自然言語処理を使用して、グラフィカル ユーザー インターフェイス (GUI) 上の可視要素を認識し、それらをテキスト表現に変換します。
この情報は、LLM によって利用されて、割り当てられたタスクを完了するためにスクリプト エンジンによって実行される一連のアクションが生成されます。
SmartFlow の有効性を評価するために、私たちはさまざまなレイアウトを持つ一連の汎用エンタープライズ アプリケーションを含むデータセットを開発し、研究用にリリースしました。
このデータセットに対する私たちの評価は、SmartFlow がさまざまなレイアウトやアプリケーションにわたって堅牢性を示すことを示しています。
SmartFlow は、フォーム入力、顧客サービス、請求書処理、バックオフィス業務などの幅広いビジネス プロセスを自動化できます。
したがって、SmartFlow は、画面ベースのワークフローの大部分を自動化することで、組織の生産性の向上を支援できます。
デモビデオとデータセットは https://smartflow-4c5a0a.webflow.io/ で入手できます。

要約(オリジナル)

Robotic Process Automation (RPA) systems face challenges in handling complex processes and diverse screen layouts that require advanced human-like decision-making capabilities. These systems typically rely on pixel-level encoding through drag-and-drop or automation frameworks such as Selenium to create navigation workflows, rather than visual understanding of screen elements. In this context, we present SmartFlow, an AI-based RPA system that uses pre-trained large language models (LLMs) coupled with deep-learning based image understanding. Our system can adapt to new scenarios, including changes in the user interface and variations in input data, without the need for human intervention. SmartFlow uses computer vision and natural language processing to perceive visible elements on the graphical user interface (GUI) and convert them into a textual representation. This information is then utilized by LLMs to generate a sequence of actions that are executed by a scripting engine to complete an assigned task. To assess the effectiveness of SmartFlow, we have developed a dataset that includes a set of generic enterprise applications with diverse layouts, which we are releasing for research use. Our evaluations on this dataset demonstrate that SmartFlow exhibits robustness across different layouts and applications. SmartFlow can automate a wide range of business processes such as form filling, customer service, invoice processing, and back-office operations. SmartFlow can thus assist organizations in enhancing productivity by automating an even larger fraction of screen-based workflows. The demo-video and dataset are available at https://smartflow-4c5a0a.webflow.io/.

arxiv情報

著者 Arushi Jain,Shubham Paliwal,Monika Sharma,Lovekesh Vig,Gautam Shroff
発行日 2024-05-21 14:49:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク