Diffusion Models for Robotic Manipulation: A Survey

要約

拡散生成モデルは、画像やビデオ生成などの視覚ドメインで顕著な成功を示しています。
彼らは最近、ロボット工学、特にロボットの操作における有望なアプローチとしても浮上しています。
拡散モデルは確率的フレームワークを活用し、マルチモーダル分布をモデル化する能力と、高次元の入力および出力スペースに堅牢性をモデル化する能力で際立っています。
この調査では、把握学習、軌跡計画、データ増強など、ロボット操作における最先端の拡散モデルの包括的なレビューを提供します。
シーンと画像の増強の拡散モデルは、一般化とデータ不足を強化するためのビジョンベースのタスクのロボット工学とコンピュータービジョンの交差点にあります。
このペーパーでは、拡散モデルの2つの主要なフレームワークと、模倣学習と強化学習との統合についても説明します。
さらに、一般的なアーキテクチャとベンチマークについて説明し、現在の最先端の拡散ベースの方法の課題と利点を指摘しています。

要約(オリジナル)

Diffusion generative models have demonstrated remarkable success in visual domains such as image and video generation. They have also recently emerged as a promising approach in robotics, especially in robot manipulations. Diffusion models leverage a probabilistic framework, and they stand out with their ability to model multi-modal distributions and their robustness to high-dimensional input and output spaces. This survey provides a comprehensive review of state-of-the-art diffusion models in robotic manipulation, including grasp learning, trajectory planning, and data augmentation. Diffusion models for scene and image augmentation lie at the intersection of robotics and computer vision for vision-based tasks to enhance generalizability and data scarcity. This paper also presents the two main frameworks of diffusion models and their integration with imitation learning and reinforcement learning. In addition, it discusses the common architectures and benchmarks and points out the challenges and advantages of current state-of-the-art diffusion-based methods.

arxiv情報

著者 Rosa Wolf,Yitian Shi,Sheng Liu,Rania Rayyes
発行日 2025-04-11 11:01:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, stat.ML パーマリンク