要約
この論文では、さまざまな Android アプリ間で効率的な対話と制御を実現する、「アプリ エージェント」と呼ばれる新しい携帯電話制御アーキテクチャを紹介します。
提案されている Lightweight Multi-modal App Control (LiMAC) は、テキストの目標と、スクリーンショットや対応する UI ツリーなどの過去のモバイル観察のシーケンスを入力として受け取り、正確なアクションを生成します。
スマートフォンに固有の計算上の制約に対処するために、LiMAC 内では、リアルタイムの意思決定とタスクの実行のために、微調整されたビジョン言語モデル (VLM) と統合された小型のアクション トランスフォーマー (AcT) が導入されています。
2 つのオープンソース モバイル コントロール データセットで LiMAC を評価し、Florence2 や Qwen2-VL などのオープンソース VLM の微調整バージョンに対するスモール フォーム ファクター アプローチの優れたパフォーマンスを実証しました。
また、GPT-4o のようなクローズドソース基盤モデルを利用した即時エンジニアリング ベースラインよりも大幅に優れたパフォーマンスを発揮します。
より具体的には、LiMAC は全体的なアクション精度を、微調整された VLM と比較して最大 19%、プロンプト エンジニアリング ベースラインと比較して最大 42% 向上させます。
要約(オリジナル)
This paper introduces a novel mobile phone control architecture, termed “app agents’, for efficient interactions and controls across various Android apps. The proposed Lightweight Multi-modal App Control (LiMAC) takes as input a textual goal and a sequence of past mobile observations, such as screenshots and corresponding UI trees, to generate precise actions. To address the computational constraints inherent to smartphones, within LiMAC, we introduce a small Action Transformer (AcT) integrated with a fine-tuned vision-language model (VLM) for real-time decision-making and task execution. We evaluate LiMAC on two open-source mobile control datasets, demonstrating the superior performance of our small-form-factor approach against fine-tuned versions of open-source VLMs, such as Florence2 and Qwen2-VL. It also significantly outperforms prompt engineering baselines utilising closed-source foundation models like GPT-4o. More specifically, LiMAC increases the overall action accuracy by up to 19% compared to fine-tuned VLMs, and up to 42% compared to prompt-engineering baselines.
arxiv情報
著者 | Filippos Christianos,Georgios Papoudakis,Thomas Coste,Jianye Hao,Jun Wang,Kun Shao |
発行日 | 2024-10-23 13:57:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google