Vision-Language Models as a Source of Rewards

要約

豊かなオープンエンド環境で多くの目標を達成できるジェネラリスト エージェントを構築することは、強化学習の研究フロンティアの 1 つです。
RL を使用してジェネラリスト エージェントを構築する際の主な制限要因は、さまざまな目標を達成するために多数の報酬関数が必要になることでした。
私たちは、強化学習エージェントの報酬源として既製のビジョン言語モデル (VLM) を使用する実現可能性を調査します。
さまざまな言語目標の視覚的達成に対する報酬を CLIP ファミリーのモデルからどのように導き出し、さまざまな言語目標を達成できる RL エージェントのトレーニングに使用できるかを示します。
このアプローチを 2 つの異なる視覚的領域で紹介し、VLM の規模が大きいほど、視覚的な目標達成に対するより正確な報酬が得られ、その結果、より有能な RL エージェントが生成されることを示すスケーリング傾向を示します。

要約(オリジナル)

Building generalist agents that can accomplish many goals in rich open-ended environments is one of the research frontiers for reinforcement learning. A key limiting factor for building generalist agents with RL has been the need for a large number of reward functions for achieving different goals. We investigate the feasibility of using off-the-shelf vision-language models, or VLMs, as sources of rewards for reinforcement learning agents. We show how rewards for visual achievement of a variety of language goals can be derived from the CLIP family of models, and used to train RL agents that can achieve a variety of language goals. We showcase this approach in two distinct visual domains and present a scaling trend showing how larger VLMs lead to more accurate rewards for visual goal achievement, which in turn produces more capable RL agents.

arxiv情報

著者 Kate Baumli,Satinder Baveja,Feryal Behbahani,Harris Chan,Gheorghe Comanici,Sebastian Flennerhag,Maxime Gazeau,Kristian Holsheimer,Dan Horgan,Michael Laskin,Clare Lyle,Hussain Masoom,Kay McKinney,Volodymyr Mnih,Alexander Neitz,Fabio Pardo,Jack Parker-Holder,John Quan,Tim Rocktäschel,Himanshu Sahni,Tom Schaul,Yannick Schroecker,Stephen Spencer,Richie Steigerwald,Luyu Wang,Lei Zhang
発行日 2023-12-14 18:06:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク