What Matters to You? Towards Visual Representation Alignment for Robot Learning

要約

ロボットは人間にサービスを提供する場合、エンドユーザーの好みに合わせて報酬を最適化する必要があります。
ロボットは RGB 画像などの生の知覚入力に依存するため、ロボットの報酬には必然的に視覚的表現が使用されます。
最近、事前にトレーニングされたビジュアル モデルからの表現を使用することが注目されていますが、これらをロボット工学で機能させるための鍵となるのは微調整であり、これは通常、ダイナミクス予測や時間的サイクルの一貫性の強制などのプロキシ タスクを介して行われます。
しかし、これらの代理タスクはすべて、人間にとって重要なことについての人間の入力をバイパスするため、誤った相関関係が悪化して、最終的にはユーザーの好みと一致しないロボットの動作につながります。
この研究では、ロボットが人間のフィードバックを活用して視覚表現をエンドユーザーに合わせ、タスクにとって何が重要かを解きほぐすべきであることを提案します。
我々は、嗜好ベースの学習と最適なトランスポートのレンズを通じて、視覚表現の整合問題と視覚報酬学習問題を解決するための方法である、表現整合嗜好ベース学習 (RAPL) を提案します。
X-MAGICAL とロボット操作の実験を通じて、RAPL の報酬は高いサンプル効率で好ましいロボットの動作を一貫して生成し、視覚表現がロボットとは異なる実施形態から学習された場合に強力なゼロショット一般化を示すことがわかりました。

要約(オリジナル)

When operating in service of people, robots need to optimize rewards aligned with end-user preferences. Since robots will rely on raw perceptual inputs like RGB images, their rewards will inevitably use visual representations. Recently there has been excitement in using representations from pre-trained visual models, but key to making these work in robotics is fine-tuning, which is typically done via proxy tasks like dynamics prediction or enforcing temporal cycle-consistency. However, all these proxy tasks bypass the human’s input on what matters to them, exacerbating spurious correlations and ultimately leading to robot behaviors that are misaligned with user preferences. In this work, we propose that robots should leverage human feedback to align their visual representations with the end-user and disentangle what matters for the task. We propose Representation-Aligned Preference-based Learning (RAPL), a method for solving the visual representation alignment problem and visual reward learning problem through the lens of preference-based learning and optimal transport. Across experiments in X-MAGICAL and in robotic manipulation, we find that RAPL’s reward consistently generates preferred robot behaviors with high sample efficiency, and shows strong zero-shot generalization when the visual representation is learned from a different embodiment than the robot’s.

arxiv情報

著者 Ran Tian,Chenfeng Xu,Masayoshi Tomizuka,Jitendra Malik,Andrea Bajcsy
発行日 2023-10-11 23:04:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク