要約
出現する大規模言語/マルチモーダルモデルは、特にモバイルUIタスク自動化において、モバイルエージェントの進化を促進する。しかし、既存の評価アプローチは、エージェントが予測したアクションと事前に定義されたアクションシーケンスを比較するために、人間の検証や確立されたデータセットに依存しており、拡張性がなく、忠実ではありません。これらの限界を克服するために、本論文では、オンデバイスモバイルUIタスク実行と忠実でスケーラブルなタスク評価のためのテストベッドであるLlamaTouchを紹介する。タスク実行プロセスがUI状態を転送するだけであることを観察することにより、LlamaTouchは、エージェントが手動で注釈されたすべての必須アプリケーション/システム状態をトラバースするかどうかだけを評価する新しい評価アプローチを採用している。LlamaTouchは3つの主要な技術から構成されています:(1) モバイルエージェントが現実的なモバイル環境とインタラクションしてタスクを実行することを可能にする、デバイス上でのタスク実行。(2)ピクセルレベルのスクリーンショットとテキストによる画面階層を統合し、設計された豊富なアノテーションプリミティブを使用して、重要なUIコンポーネントを明示的に識別し、正確にアノテーションする、きめ細かなUIコンポーネントアノテーション。(3) 正確なマッチングとファジーマッチングを利用するマルチレベルのアプリケーション状態マッチングアルゴリズムにより、予測不可能なUIレイアウト/コンテンツダイナミクスであっても、各画面の重要な情報を正確に検出します。LlamaTouchは現在、4つのモバイルエージェントと496のタスクを組み込んでおり、広く使用されているデータセットのタスクと、より多様なモバイルアプリケーションをカバーするために独自に構築したタスクの両方を包含している。評価結果は、LlamaTouchが実世界のモバイル環境での評価に忠実であり、人間による検証よりもスケーラビリティに優れていることを示している。また、LlamaTouchはタスクのアノテーションと新しいモバイルエージェントの統合を容易にします。コードとデータセットはhttps://github.com/LlamaTouch/LlamaTouch。
要約(オリジナル)
The emergent large language/multimodal models facilitate the evolution of mobile agents, especially in mobile UI task automation. However, existing evaluation approaches, which rely on human validation or established datasets to compare agent-predicted actions with predefined action sequences, are unscalable and unfaithful. To overcome these limitations, this paper presents LlamaTouch, a testbed for on-device mobile UI task execution and faithful, scalable task evaluation. By observing that the task execution process only transfers UI states, LlamaTouch employs a novel evaluation approach that only assesses whether an agent traverses all manually annotated, essential application/system states. LlamaTouch comprises three key techniques: (1) On-device task execution that enables mobile agents to interact with realistic mobile environments for task execution. (2) Fine-grained UI component annotation that merges pixel-level screenshots and textual screen hierarchies to explicitly identify and precisely annotate essential UI components with a rich set of designed annotation primitives. (3) A multi-level application state matching algorithm that utilizes exact and fuzzy matching to accurately detect critical information in each screen, even with unpredictable UI layout/content dynamics. LlamaTouch currently incorporates four mobile agents and 496 tasks, encompassing both tasks in the widely-used datasets and our self-constructed ones to cover more diverse mobile applications. Evaluation results demonstrate LlamaTouch’s high faithfulness of evaluation in real-world mobile environments and its better scalability than human validation. LlamaTouch also enables easy task annotation and integration of new mobile agents. Code and dataset are publicly available at https://github.com/LlamaTouch/LlamaTouch.
arxiv情報
著者 | Li Zhang,Shihe Wang,Xianqing Jia,Zhihan Zheng,Yunhe Yan,Longxi Gao,Yuanchun Li,Mengwei Xu |
発行日 | 2024-08-02 13:49:32+00:00 |
arxivサイト | arxiv_id(pdf) |