STEVE: A Step Verification Pipeline for Computer-use Agent Training

要約

グラフィカルユーザーインターフェイスを自律的に操作するためにAIエージェントを開発することは、長い挑戦的な作業です。
データのスケーリング法の最近の進歩により、スケーリングされた命令セットでコンピューター使用エージェントを訓練するようになりますが、動作のクローニングを使用してエージェントを訓練するには、膨大な高品質の軌跡が必要です。
スケーラビリティのニーズを満たすために、コンピューター使用エージェントトレーニングのためのステップ検証パイプラインであるSteveを設計しました。
まず、コンピューター使用エージェント向けの大きな命令セットを確立し、一部の最適なエージェントで軌道データを収集します。
GPT-4Oは、アクション実行の前後に画面に基づいて軌道内の各ステップの正確性を検証し、各ステップをバイナリラベルで割り当てます。
最後に、KahnemanとTverskyの最適化を採用して、バイナリの段階的ラベルからエージェントを最適化します。
広範な実験は、軌道内で肯定的および否定的なアクションの両方を活用することにより、エージェントが監視された微調整を上回ることを明らかにします。
また、Steveは、コンピューター使用エージェントとして7Bビジョン言語モデルをトレーニングすることを可能にし、挑戦的なライブデスクトップ環境Winagentarenaでリードパフォーマンスを達成し、コストを削減します。
コードとデータ:https://github.com/fanbinlu/steve。

要約(オリジナル)

Developing AI agents to autonomously manipulate graphical user interfaces is a long challenging task. Recent advances in data scaling law inspire us to train computer-use agents with a scaled instruction set, yet using behavior cloning to train agents still requires immense high-quality trajectories. To meet the scalability need, we designed STEVE, a step verification pipeline for computer-use agent training. First, we establish a large instruction set for computer-use agents and collect trajectory data with some suboptimal agents. GPT-4o is used to verify the correctness of each step in the trajectories based on the screens before and after the action execution, assigning each step with a binary label. Last, we adopt the Kahneman and Tversky Optimization to optimize the agent from the binary stepwise labels. Extensive experiments manifest that our agent outperforms supervised finetuning by leveraging both positive and negative actions within a trajectory. Also, STEVE enables us to train a 7B vision-language model as a computer-use agent, achieving leading performance in the challenging live desktop environment WinAgentArena with great efficiency at a reduced cost. Code and data: https://github.com/FanbinLu/STEVE.

arxiv情報

著者 Fanbin Lu,Zhisheng Zhong,Ziqin Wei,Shu Liu,Chi-Wing Fu,Jiaya Jia
発行日 2025-03-24 16:33:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク