Atomic-to-Compositional Generalization for Mobile Agents with A New Benchmark and Scheduling System

要約

モバイルデバイスでのタスクの実行を容易にするために、マルチモーダルの大手言語モデルを搭載した自律エージェントが開発されました。
ただし、以前の作業では、ショットチェーン実行タスクやシングルスクリーン接地タスクなどの原子タスクに焦点を当てていますが、実際のアプリケーションに不可欠な構成タスクに一般化を見落としています。
この作業では、3つのカテゴリの組成操作、単純な連結、コンテキスト遷移、ディープダイブでモバイルエージェントを評価するために設計された包括的なベンチマークであるUI-Nexusを紹介します。
UI-Nexusは、20の完全に制御可能なローカルユーティリティアプリ環境と30のオンライン中国語および英語のサービスアプリでのインタラクティブな評価をサポートしています。
100のインタラクティブタスクテンプレートで構成され、平均最適なステップカウントは14.05です。
エージェントワークフローまたはエージェントとしてのモバイルエージェントを備えたさまざまなモバイルエージェントにわたる実験結果は、UI-Nexusが重要な課題を示していることを示しています。
具体的には、既存のエージェントは一般に、パフォーマンスと効率のバランスをとるのに苦労しており、解釈不足、過剰解放、注意ドリフトなどの代表的な障害モードを示し、目に見える原子間一般化ギャップを引き起こします。
これらの調査結果に触発されて、私たちは、組成モバイルタスクに取り組むための軽量で効率的なスケジューリングシステムであるAgent-Nexusを提案します。
エージェントネックスは、一連の自己完結型の原子サブタスクに長距離タスクを動的に分解することにより、既存のモバイルエージェントの能力を推定します。
Agent-Nexusは、推論のオーバーヘッドを大幅に犠牲にすることなく、UI-Nexusベンチマーク内の組成操作タスクに関する既存のモバイルエージェントの24%から40%のタスク成功率の改善を達成します。
デモビデオ、データセット、およびコードは、https://ui-nexus.github.ioのプロジェクトページで入手できます。

要約(オリジナル)

Autonomous agents powered by multimodal large language models have been developed to facilitate task execution on mobile devices. However, prior work has predominantly focused on atomic tasks — such as shot-chain execution tasks and single-screen grounding tasks — while overlooking the generalization to compositional tasks, which are indispensable for real-world applications. This work introduces UI-NEXUS, a comprehensive benchmark designed to evaluate mobile agents on three categories of compositional operations: Simple Concatenation, Context Transition, and Deep Dive. UI-NEXUS supports interactive evaluation in 20 fully controllable local utility app environments, as well as 30 online Chinese and English service apps. It comprises 100 interactive task templates with an average optimal step count of 14.05. Experimental results across a range of mobile agents with agentic workflow or agent-as-a-model show that UI-NEXUS presents significant challenges. Specifically, existing agents generally struggle to balance performance and efficiency, exhibiting representative failure modes such as under-execution, over-execution, and attention drift, causing visible atomic-to-compositional generalization gap. Inspired by these findings, we propose AGENT-NEXUS, a lightweight and efficient scheduling system to tackle compositional mobile tasks. AGENT-NEXUS extrapolates the abilities of existing mobile agents by dynamically decomposing long-horizon tasks to a series of self-contained atomic subtasks. AGENT-NEXUS achieves 24% to 40% task success rate improvement for existing mobile agents on compositional operation tasks within the UI-NEXUS benchmark without significantly sacrificing inference overhead. The demo video, dataset, and code are available on the project page at https://ui-nexus.github.io.

arxiv情報

著者 Yuan Guo,Tingjia Miao,Zheng Wu,Pengzhou Cheng,Ming Zhou,Zhuosheng Zhang
発行日 2025-06-10 16:45:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク