Lightweight Neural App Control

要約

このペーパーでは、さまざまなAndroidアプリ間で効率的な対話と制御のために、新しい携帯電話コントロールアーキテクチャ、軽量マルチモーダルアプリコントロール(LIMAC)を紹介します。
LIMACは、テキストの目標と、スクリーンショットや対応するUIツリーなどの過去のモバイル観測のシーケンスを、正確なアクションを生成します。
スマートフォンに固有の計算上の制約に対処するために、リアルタイムの意思決定とタスク実行のために、微調整されたビジョン言語モデル(VLM)と統合された小さなアクショントランス(ACT)を導入します。
2つのオープンソースモバイルコントロールデータセットでLIMACを評価し、Florence2やQWEN2-VLなどのオープンソースVLMの微調整されたバージョンに対する小型因子アプローチの優れたパフォーマンスを実証します。
また、GPT-4Oなどの閉鎖源の基礎モデルを利用して、迅速なエンジニアリングベースラインを大幅に上回っています。
より具体的には、LIMACは、微調整されたVLMSと比較して全体的なアクション精度を最大19%増加させ、プロンプトエンジニアリングベースラインと比較して最大42%増加します。

要約(オリジナル)

This paper introduces a novel mobile phone control architecture, Lightweight Multi-modal App Control (LiMAC), for efficient interactions and control across various Android apps. LiMAC takes as input a textual goal and a sequence of past mobile observations, such as screenshots and corresponding UI trees, to generate precise actions. To address the computational constraints inherent to smartphones, we introduce a small Action Transformer (AcT) integrated with a fine-tuned vision-language model (VLM) for real-time decision-making and task execution. We evaluate LiMAC on two open-source mobile control datasets, demonstrating the superior performance of our small-form-factor approach against fine-tuned versions of open-source VLMs, such as Florence2 and Qwen2-VL. It also significantly outperforms prompt engineering baselines utilising closed-source foundation models like GPT-4o. More specifically, LiMAC increases the overall action accuracy by up to 19% compared to fine-tuned VLMs, and up to 42% compared to prompt-engineering baselines.

arxiv情報

著者 Filippos Christianos,Georgios Papoudakis,Thomas Coste,Jianye Hao,Jun Wang,Kun Shao
発行日 2025-02-12 17:51:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク