EcoAgent: An Efficient Edge-Cloud Collaborative Multi-Agent Framework for Mobile Automation

要約

(マルチモーダル)大きな言語モデル((M)LLMS)を搭載したクラウドベースのモバイルエージェントは、強力な推論能力を提供しますが、高遅延とコストに悩まされています。
微調整された(M)SLMSがエッジの展開を有効にしますが、一般的な能力を失い、複雑なタスクと闘うことがよくあります。
これに対処するために、\ textbf {ecoagent}、\ textbf {e} dge- \ textbf {c} loud c \ textbf {o} llaborativeマルチエージェントフレームワークをモバイル自動化用に提案します。
Ecoagentは、クラウドベースの計画エージェントと2つのエッジベースのエージェントの間の閉ループコラボレーションを特徴としています。アクション実行の実行エージェントと、結果を検証するための観測エージェントです。
観察剤は、事前に理解したモジュールを使用して画面画像を簡潔なテキストに圧縮し、トークンの使用と通信のオーバーヘッドを削減します。
障害の場合、計画エージェントはメモリモジュールを介して画面履歴を取得し、反射モジュールを介して再生します。
AndroidWorldでの実験は、Ecoagentがクラウドベースのモバイルエージェントに匹敵するタスクの成功率を達成し、MLLMトークンの消費を大幅に削減し、効率的で実用的なモバイルオートメーションを可能にすることを示しています。

要約(オリジナル)

Cloud-based mobile agents powered by (multimodal) large language models ((M)LLMs) offer strong reasoning abilities but suffer from high latency and cost. While fine-tuned (M)SLMs enable edge deployment, they often lose general capabilities and struggle with complex tasks. To address this, we propose \textbf{EcoAgent}, an \textbf{E}dge-\textbf{C}loud c\textbf{O}llaborative multi-agent framework for mobile automation. EcoAgent features a closed-loop collaboration among a cloud-based Planning Agent and two edge-based agents: the Execution Agent for action execution and the Observation Agent for verifying outcomes. The Observation Agent uses a Pre-Understanding Module to compress screen images into concise text, reducing token usage and communication overhead. In case of failure, the Planning Agent retrieves screen history through a Memory Module and replans via a Reflection Module. Experiments on AndroidWorld show that EcoAgent achieves task success rates comparable to cloud-based mobile agents while significantly reducing MLLM token consumption, enabling efficient and practical mobile automation.

arxiv情報

著者 Biao Yi,Xavier Hu,Yurun Chen,Shengyu Zhang,Hongxia Yang,Fan Wu,Fei Wu
発行日 2025-05-09 07:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク