OSCAR: Operating System Control via State-Aware Reasoning and Re-Planning

要約

大規模言語モデル (LLM) と大規模マルチモーダル モデル (LMM) は、Web ブラウジングやゲームなどの複雑なタスクの自動化において大きな可能性を示しています。
しかし、多様なアプリケーションにわたって汎用化する能力は依然として限られており、より広範な実用性を妨げています。
この課題に対処するために、OSCAR: 状態認識推論と再計画によるオペレーティング システム制御を紹介します。
OSCAR は、画面イメージを処理してユーザー コマンドを実行しながら、マウスやキーボード入力などの標準化されたコントロールを通じて、さまざまなデスクトップおよびモバイル アプリケーションを自律的にナビゲートして操作するように設計されたジェネラリスト エージェントです。
OSCAR は人間の指示を実行可能な Python コードに変換し、グラフィカル ユーザー インターフェイス (GUI) を正確に制御できるようにします。
安定性と適応性を強化するために、OSCAR はエラー処理メカニズムと動的タスクの再計画を備えたステート マシンとして動作し、リアルタイムのフィードバックと例外に効率的に適応できるようにします。
私たちは、デスクトップおよびモバイル プラットフォームにわたる多様なベンチマークに関する広範な実験を通じて、OSCAR の有効性を実証しています。OSCAR は、複雑なワークフローをシンプルな自然言語コマンドに変換し、ユーザーの生産性を大幅に向上させます。
私たちのコードは公開と同時にオープンソースになります。

要約(オリジナル)

Large language models (LLMs) and large multimodal models (LMMs) have shown great potential in automating complex tasks like web browsing and gaming. However, their ability to generalize across diverse applications remains limited, hindering broader utility. To address this challenge, we present OSCAR: Operating System Control via state-Aware reasoning and Re-planning. OSCAR is a generalist agent designed to autonomously navigate and interact with various desktop and mobile applications through standardized controls, such as mouse and keyboard inputs, while processing screen images to fulfill user commands. OSCAR translates human instructions into executable Python code, enabling precise control over graphical user interfaces (GUIs). To enhance stability and adaptability, OSCAR operates as a state machine, equipped with error-handling mechanisms and dynamic task re-planning, allowing it to efficiently adjust to real-time feedback and exceptions. We demonstrate OSCAR’s effectiveness through extensive experiments on diverse benchmarks across desktop and mobile platforms, where it transforms complex workflows into simple natural language commands, significantly boosting user productivity. Our code will be open-source upon publication.

arxiv情報

著者 Xiaoqiang Wang,Bang Liu
発行日 2024-10-24 17:58:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク