Representation Alignment from Human Feedback for Cross-Embodiment Reward Learning from Mixed-Quality Demonstrations

要約

我々は、クロス実施形態逆強化学習の問題を研究する。そこでは、1つ以上の実施形態におけるビデオデモンストレーションから報酬関数を学習し、その後、学習した報酬を別の実施形態(例えば、異なるアクションスペース、ダイナミクス、サイズ、形状)に転送したい。
、など)。
実施形態間で移行する報酬関数を学習することは、人間のビデオデモンストレーションを介してロボットにポリシーを教える、または異なる実施形態を持つ別のロボットのポリシーを模倣するようにロボットに教えるなどの設定で重要です。
ただし、これまでの研究は、最適に近いデモンストレーションが利用できる場合にのみ焦点を当てており、これを保証するのは多くの場合困難です。
対照的に、私たちは混合品質のデモンストレーションからのクロス実施形態報酬学習の設定を研究します。
我々は、これまでの研究では、混合品質のデータから学習する場合、一般化可能な報酬表現を学習するのに苦労していることを実証しました。
次に、人間のフィードバックを活用して表現学習と調整を行い、効果的なクロスボディ学習を可能にするいくつかの手法を分析します。
私たちの結果は、さまざまな表現学習技術が質的に異なる報酬形成行動にどのようにつながるか、また、混合品質、混合実施形態データから学習する際の人間のフィードバックの重要性についての洞察を与えます。

要約(オリジナル)

We study the problem of cross-embodiment inverse reinforcement learning, where we wish to learn a reward function from video demonstrations in one or more embodiments and then transfer the learned reward to a different embodiment (e.g., different action space, dynamics, size, shape, etc.). Learning reward functions that transfer across embodiments is important in settings such as teaching a robot a policy via human video demonstrations or teaching a robot to imitate a policy from another robot with a different embodiment. However, prior work has only focused on cases where near-optimal demonstrations are available, which is often difficult to ensure. By contrast, we study the setting of cross-embodiment reward learning from mixed-quality demonstrations. We demonstrate that prior work struggles to learn generalizable reward representations when learning from mixed-quality data. We then analyze several techniques that leverage human feedback for representation learning and alignment to enable effective cross-embodiment learning. Our results give insight into how different representation learning techniques lead to qualitatively different reward shaping behaviors and the importance of human feedback when learning from mixed-quality, mixed-embodiment data.

arxiv情報

著者 Connor Mattson,Anurag Aribandi,Daniel S. Brown
発行日 2024-08-10 18:24:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク