要約
非構造化および未管理のデータからの学習は、言語と視覚における生成的アプローチの主要なパラダイムとなっています。
一般に遊びとして知られる、このような構造化されていない、誘導されていない行動データも、ロボット工学で収集するのは簡単ですが、本質的に多峰性で、ノイズが多く、最適ではない性質があるため、そこから学習するのははるかに困難です。
この論文では、後から考えて言語でラベル付けされた非構造化プレイデータから目標指向のスキルポリシーを学習するというこの問題を研究します。
具体的には、拡散モデルの進歩を利用してマルチタスク拡散モデルを学習し、プレイデータからロボットスキルを抽出します。
状態とアクションの空間で条件付きノイズ除去拡散プロセスを使用することで、プレイ データの複雑さとマルチモダリティを適切に処理し、多様で興味深いロボットの動作を生成できます。
拡散モデルをスキル学習にさらに役立つようにするために、条件付き動作生成プロセスに個別のボトルネックを導入することで、ロボット エージェントがスキルの語彙を獲得することを奨励します。
私たちの実験では、シミュレーションと現実世界の両方のさまざまな環境におけるアプローチの有効性を実証しています。
結果の視覚化とビデオは https://play-fusion.github.io にあります。
要約(オリジナル)
Learning from unstructured and uncurated data has become the dominant paradigm for generative approaches in language and vision. Such unstructured and unguided behavior data, commonly known as play, is also easier to collect in robotics but much more difficult to learn from due to its inherently multimodal, noisy, and suboptimal nature. In this paper, we study this problem of learning goal-directed skill policies from unstructured play data which is labeled with language in hindsight. Specifically, we leverage advances in diffusion models to learn a multi-task diffusion model to extract robotic skills from play data. Using a conditional denoising diffusion process in the space of states and actions, we can gracefully handle the complexity and multimodality of play data and generate diverse and interesting robot behaviors. To make diffusion models more useful for skill learning, we encourage robotic agents to acquire a vocabulary of skills by introducing discrete bottlenecks into the conditional behavior generation process. In our experiments, we demonstrate the effectiveness of our approach across a wide variety of environments in both simulation and the real world. Results visualizations and videos at https://play-fusion.github.io
arxiv情報
著者 | Lili Chen,Shikhar Bahl,Deepak Pathak |
発行日 | 2023-12-07 18:59:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google