要約
現在のモバイル アシスタントは、システム API への依存によって制限されたり、理解力や意思決定能力が制限されているために複雑なユーザー指示や多様なインターフェイスに苦労したりしています。
これらの課題に対処するために、私たちは、洗練された 2 レベルのエージェント アーキテクチャを通じて理解力と計画能力を強化する、マルチモーダル大規模言語モデルを搭載した新しい携帯電話エージェント MobA を提案します。
高レベルのグローバル エージェント (GA) は、ユーザー コマンドの理解、履歴メモリの追跡、およびタスクの計画を担当します。
低レベルのローカル エージェント (LA) は、GA からのサブタスクとメモリに基づいて、関数呼び出しの形式で詳細なアクションを予測します。
リフレクション モジュールを統合すると、タスクを効率的に完了できるようになり、システムはこれまで見たことのない複雑なタスクを処理できるようになります。
MobA は、実際の評価でタスクの実行効率と完了率が大幅に向上していることを実証し、MLLM を活用したモバイル アシスタントの可能性を強調しています。
要約(オリジナル)
Current mobile assistants are limited by dependence on system APIs or struggle with complex user instructions and diverse interfaces due to restricted comprehension and decision-making abilities. To address these challenges, we propose MobA, a novel Mobile phone Agent powered by multimodal large language models that enhances comprehension and planning capabilities through a sophisticated two-level agent architecture. The high-level Global Agent (GA) is responsible for understanding user commands, tracking history memories, and planning tasks. The low-level Local Agent (LA) predicts detailed actions in the form of function calls, guided by sub-tasks and memory from the GA. Integrating a Reflection Module allows for efficient task completion and enables the system to handle previously unseen complex tasks. MobA demonstrates significant improvements in task execution efficiency and completion rate in real-life evaluations, underscoring the potential of MLLM-empowered mobile assistants.
arxiv情報
著者 | Zichen Zhu,Hao Tang,Yansi Li,Kunyao Lan,Yixuan Jiang,Hao Zhou,Yixiao Wang,Situo Zhang,Liangtai Sun,Lu Chen,Kai Yu |
発行日 | 2024-10-17 16:53:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google