Autonomous Evaluation and Refinement of Digital Agents

要約

ドメイン全般の自動評価によって、Web ナビゲーションとデバイス制御のエージェントのパフォーマンスが大幅に向上することを示します。
私たちは、推論コスト、設計のモジュール性、精度の間でトレードオフとなる複数の評価モデルを実験します。
これらのモデルのパフォーマンスをデジタル エージェント向けのいくつかの一般的なベンチマークで検証し、オラクルの評価指標と 74.4 ~ 92.9% の一致があることがわかりました。
最後に、これらのエバリュエーターを使用して、微調整と推論時間のガイダンスを通じて既存のエージェントのパフォーマンスを向上させます。
追加の監視なしで、人気のベンチマークである WebArena で最先端のパフォーマンスを 29% 向上させ、困難なドメイン転送シナリオでは 75% の相対的な向上を達成しました。

要約(オリジナル)

We show that domain-general automatic evaluators can significantly improve the performance of agents for web navigation and device control. We experiment with multiple evaluation models that trade off between inference cost, modularity of design, and accuracy. We validate the performance of these models in several popular benchmarks for digital agents, finding between 74.4 and 92.9% agreement with oracle evaluation metrics. Finally, we use these evaluators to improve the performance of existing agents via fine-tuning and inference-time guidance. Without any additional supervision, we improve state-of-the-art performance by 29% on the popular benchmark WebArena, and achieve a 75% relative improvement in a challenging domain transfer scenario.

arxiv情報

著者 Jiayi Pan,Yichi Zhang,Nicholas Tomlin,Yifei Zhou,Sergey Levine,Alane Suhr
発行日 2024-04-09 17:25:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク