要約
この論文では、CLIP ベースのモデルの力を利用してロボット動作の報酬関数を学習する新しい方法を紹介します。
従来の報酬関数の設計は手動の特徴量エンジニアリングに依存することが多く、一連のタスクにわたって一般化するのが難しい場合があります。
私たちのアプローチは、状態特徴と画像入力の両方を効果的に処理する CLIP の機能を利用することで、この課題を回避します。
一連の連続した観測が与えられると、私たちのモデルはそれらの間で実行された動きを識別することに優れています。
グリッパーを指定されたターゲットに向けたり、立方体の位置を調整したりするなど、さまざまなロボット活動にわたる結果を紹介します。
実験的評価を通じて、私たちの方法が動きを正確に推定する能力に優れていることと、ロボット工学の分野での強化学習トレーニングを強化するというその約束を強調します。
要約(オリジナル)
This paper presents a novel method for learning reward functions for robotic motions by harnessing the power of a CLIP-based model. Traditional reward function design often hinges on manual feature engineering, which can struggle to generalize across an array of tasks. Our approach circumvents this challenge by capitalizing on CLIP’s capability to process both state features and image inputs effectively. Given a pair of consecutive observations, our model excels in identifying the motion executed between them. We showcase results spanning various robotic activities, such as directing a gripper to a designated target and adjusting the position of a cube. Through experimental evaluations, we underline the proficiency of our method in precisely deducing motion and its promise to enhance reinforcement learning training in the realm of robotics.
arxiv情報
著者 | Xuzhe Dang,Stefan Edelkamp,Nicolas Ribault |
発行日 | 2023-11-06 19:48:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google