要約
(マルチモーダル)大きな言語モデル((M)LLMS)を搭載したクラウドベースのモバイルエージェントは、強力な推論能力を提供しますが、高遅延とコストに悩まされています。
微調整された(M)SLMSがエッジの展開を有効にしますが、一般的な能力を失い、複雑なタスクと闘うことがよくあります。
これに対処するために、モバイルオートメーションのためのエッジクラウドコラボレーションマルチエージェントフレームワークであるEcoagentを提案します。
Ecoagentは、クラウドベースの計画エージェントと2つのエッジベースのエージェントの間の閉ループコラボレーションを特徴としています。アクション実行の実行エージェントと、結果を検証するための観測エージェントです。
観測剤は、事前に理解したモジュールを使用して画面画像を簡潔なテキストに圧縮し、トークンの使用を削減します。
障害が発生した場合、計画エージェントは画面履歴を取得し、反射モジュールを介して再生します。
AndroidWorldでの実験は、Ecoagentが高いタスクの成功率を維持しながら、MLLMトークンの消費を大幅に削減し、効率的かつ実用的なモバイル自動化を可能にすることを示しています。
要約(オリジナル)
Cloud-based mobile agents powered by (multimodal) large language models ((M)LLMs) offer strong reasoning abilities but suffer from high latency and cost. While fine-tuned (M)SLMs enable edge deployment, they often lose general capabilities and struggle with complex tasks. To address this, we propose EcoAgent, an Edge-Cloud cOllaborative multi-agent framework for mobile automation. EcoAgent features a closed-loop collaboration among a cloud-based Planning Agent and two edge-based agents: the Execution Agent for action execution and the Observation Agent for verifying outcomes. The Observation Agent uses a Pre-Understanding Module to compress screen images into concise text, reducing token usage. In case of failure, the Planning Agent retrieves screen history and replans via a Reflection Module. Experiments on AndroidWorld show that EcoAgent maintains high task success rates while significantly reducing MLLM token consumption, enabling efficient and practical mobile automation.
arxiv情報
著者 | Biao Yi,Xavier Hu,Yurun Chen,Shengyu Zhang,Hongxia Yang,Fan Wu,Fei Wu |
発行日 | 2025-05-08 17:31:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google