CHOP: Mobile Operating Assistant with Constrained High-frequency Optimized Subtask Planning

要約

Visual Language Models(VLMS)の進歩により、モバイルデバイスの操作が強化されており、シミュレートされた人間のようなアクションがユーザーの要件に対処することができます。
現在のVLMベースのモバイルオペレーティングアシスタントは、タスク、サブタスク、アクションの3つのレベルに構成できます。
高レベルの目標を低レベルの実行可能アクションにリンクするサブタスクレベルは、タスクの完了に重要ですが、2つの課題に直面しています。低レベルのエージェントが実行できない効果のないサブタスクは、高レベルのタスクの完了に貢献できない非効率的なサブタスクです。
これらの課題は、マルチエージェントアーキテクチャのGUIシナリオ内でサブタスクを分解する際のVLMの経験の欠如に起因しています。
これらに対処するために、制約された高周波o} ptimized計画(CHOP)を備えた新しいモバイルアシスタントアーキテクチャを提案します。
私たちのアプローチは、人間が計画したサブタスクを基底ベクトルとして使用することにより、GUIシナリオ計画におけるVLMの欠陥を克服します。
私たちは、20のアプリにわたって英語と中国の両方のコンテキストでアーキテクチャを評価し、有効性と効率の両方の大幅な改善を示しています。
データセットとコードはhttps://github.com/yuqi-zhou/chopで入手できます

要約(オリジナル)

The advancement of visual language models (VLMs) has enhanced mobile device operations, allowing simulated human-like actions to address user requirements. Current VLM-based mobile operating assistants can be structured into three levels: task, subtask, and action. The subtask level, linking high-level goals with low-level executable actions, is crucial for task completion but faces two challenges: ineffective subtasks that lower-level agent cannot execute and inefficient subtasks that fail to contribute to the completion of the higher-level task. These challenges stem from VLM’s lack of experience in decomposing subtasks within GUI scenarios in multi-agent architecture. To address these, we propose a new mobile assistant architecture with constrained high-frequency o}ptimized planning (CHOP). Our approach overcomes the VLM’s deficiency in GUI scenarios planning by using human-planned subtasks as the basis vector. We evaluate our architecture in both English and Chinese contexts across 20 Apps, demonstrating significant improvements in both effectiveness and efficiency. Our dataset and code is available at https://github.com/Yuqi-Zhou/CHOP

arxiv情報

著者 Yuqi Zhou,Shuai Wang,Sunhao Dai,Qinglin Jia,Zhaocheng Du,Zhenhua Dong,Jun Xu
発行日 2025-03-05 18:56:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク