Guiding VLM Agents with Process Rewards at Inference Time for GUI Navigation

要約

視覚言語モデル(VLMS)の最近の進歩により、複雑なグラフィカルユーザーインターフェイス(GUI)インタラクションタスクの処理における機能が顕著になりました。
これらの改善にもかかわらず、現在のフレームワークはしばしば、挑戦的なGUI環境で正しいアクションを生成するのに苦労しています。
最先端の商用VLMはブラックボックスであり、GUIタスク用の微調整オープンソースVLMには重要なリソースが必要です。
さらに、フィードバックの遅延とローカル最適化の問題により、既存の軌道レベルの評価と改良技術は頻繁に不足しています。
これらの課題に対処するために、推論時にGUIナビゲーションと制御中に報酬モデルによってVLMエージェントをプロセス監督で導くアプローチを提案します。
このガイダンスにより、VLMエージェントは各推論ステップでアクションを最適化することができ、それにより、静的環境と動的環境の両方でパフォーマンスが向上します。
特に、私たちの方法は、3つのGUIナビゲーションタスクの大幅なパフォーマンスの向上を示し、静的環境のシングルステップアクション精度が3.4%改善され、1つの動的環境でのタスク成功率が約33%増加します。
軌道反射と再試行メカニズムのさらなる統合により、タスクの成功のさらに強化も実証します。

要約(オリジナル)

Recent advancements in visual language models (VLMs) have notably enhanced their capabilities in handling complex Graphical User Interface (GUI) interaction tasks. Despite these improvements, current frameworks often struggle to generate correct actions in challenging GUI environments. State-of-the-art commercial VLMs are black-boxes, and fine-tuning open-source VLMs for GUI tasks requires significant resources. Additionally, existing trajectory-level evaluation and refinement techniques frequently fall short due to delayed feedback and local optimization issues. To address these challenges, we propose an approach that guides VLM agents with process supervision by a reward model during GUI navigation and control at inference time. This guidance allows the VLM agent to optimize actions at each inference step, thereby improving performance in both static and dynamic environments. In particular, our method demonstrates significant performance gains in three GUI navigation tasks, achieving a 3.4% improvement in single step action accuracy for static environments, along with a around 33% increase in task success rate in one dynamic environment. With further integration of trajectory reflection and retry mechanisms, we also demonstrate even greater enhancement in task success.

arxiv情報

著者 Zhiyuan Hu,Shiyun Xiong,Yifan Zhang,See-Kiong Ng,Anh Tuan Luu,Bo An,Shuicheng Yan,Bryan Hooi
発行日 2025-04-22 17:52:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク