要約
報酬エンジニアリングは、強化学習(RL)の重要な課題の1つです。
選好ベースのRLは、人間のフィードバックから学習することにより、この問題に効果的に対処します。
ただし、人間の好みラベルを収集するのは時間がかかり、費用がかかります。
この論文では、新規\ textbf {v} ision- \ textbf {l} anguage \ textbf {p}参照学習フレームワークを提案します。
具体化された操作タスク。
これを達成するために、3種類の言語条件付き設定を定義し、人間の注釈なしで多用途の暗黙的優先順序を含むビジョン言語設定データセットを構築します。
優先モデルは、言語関連の機能を抽出することを学び、その後、さまざまな下流タスクで優先アノテーターとして機能します。
ポリシーは、報酬学習または直接的なポリシーの最適化を介して、注釈付きの選好に従って学ぶことができます。
シミュレートされた具体化された操作タスクに関する広範な経験的結果は、私たちの方法が正確な好みを提供し、目に見えないタスクと目に見えない言語指示に一般化し、ベースラインを大きなマージンで上回ることを示しています。
要約(オリジナル)
Reward engineering is one of the key challenges in Reinforcement Learning (RL). Preference-based RL effectively addresses this issue by learning from human feedback. However, it is both time-consuming and expensive to collect human preference labels. In this paper, we propose a novel \textbf{V}ision-\textbf{L}anguage \textbf{P}reference learning framework, named \textbf{VLP}, which learns a vision-language preference model to provide preference feedback for embodied manipulation tasks. To achieve this, we define three types of language-conditioned preferences and construct a vision-language preference dataset, which contains versatile implicit preference orders without human annotations. The preference model learns to extract language-related features, and then serves as a preference annotator in various downstream tasks. The policy can be learned according to the annotated preferences via reward learning or direct policy optimization. Extensive empirical results on simulated embodied manipulation tasks demonstrate that our method provides accurate preferences and generalizes to unseen tasks and unseen language instructions, outperforming the baselines by a large margin.
arxiv情報
著者 | Runze Liu,Chenjia Bai,Jiafei Lyu,Shengjie Sun,Yali Du,Xiu Li |
発行日 | 2025-02-17 15:32:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google