DPO Learning with LLMs-Judge Signal for Computer Use Agents

要約

コンピュータ・ユース・エージェント(CUA)は、グラフィカル・ユーザー・インターフェース(GUI)と自動的に対話し、タスクを完了するシステムである。CUAは、大規模な視覚言語モデル(VLM)の出現により大きな進歩を遂げた。しかし、これらのエージェントは、一般的にクラウドベースの推論に依存しており、特に個人デバイス上で動作する場合、かなりの計算量を必要とするため、プライバシーとスケーラビリティに関する重大な懸念が生じる。本研究では、ローカルマシンのみで動作する軽量な視覚言語モデルを開発することで、プライバシー保護とリソース効率に優れたエージェントへの一歩を踏み出す。このコンパクトなエージェントを訓練するために、我々はLLM-as-Judgeフレームワークを導入し、合成された相互作用の軌跡を自動的に評価し、フィルタリングすることで、人間によるアノテーションなしに強化学習のための高品質なデータを生成する。OS-Worldベンチマークでの実験により、我々の微調整されたローカルモデルが既存のベースラインを上回ることが実証され、プライベートで効率的かつ一般化可能なGUIエージェントへの有望な道筋が浮き彫りにされた。

要約(オリジナル)

Computer use agents (CUA) are systems that automatically interact with graphical user interfaces (GUIs) to complete tasks. CUA have made significant progress with the advent of large vision-language models (VLMs). However, these agents typically rely on cloud-based inference with substantial compute demands, raising critical privacy and scalability concerns, especially when operating on personal devices. In this work, we take a step toward privacy-preserving and resource-efficient agents by developing a lightweight vision-language model that runs entirely on local machines. To train this compact agent, we introduce an LLM-as-Judge framework that automatically evaluates and filters synthetic interaction trajectories, producing high-quality data for reinforcement learning without human annotation. Experiments on the OS-World benchmark demonstrate that our fine-tuned local model outperforms existing baselines, highlighting a promising path toward private, efficient, and generalizable GUI agents.

arxiv情報

著者 Man Luo,David Cobbley,Xin Su,Shachar Rosenman,Vasudev Lal,Shao-Yen Tseng,Phillip Howard
発行日 2025-06-03 17:27:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク