Generative Image as Action Models

要約

画像生成拡散モデルは、画像編集や新しいビュー合成などの新しい機能を利用できるように微調整されています。
同様に、視覚運動制御のための画像生成モデルのロックを解除することはできるでしょうか?
私たちは、安定拡散を微調整して RGB 画像上にターゲットとして「共同アクションを描画」する動作クローニング エージェントである GENIMA を紹介します。
これらの画像は、視覚ターゲットを一連の関節位置にマッピングするコントローラーに入力されます。
私たちは 25 の RLBench と 9 つの現実世界の操作タスクで GENIMA を研究しました。
私たちは、アクションを画像空間に持ち上げることにより、インターネットの事前トレーニング済み拡散モデルが、特にシーンの摂動に対する堅牢性と新しいオブジェクトへの一般化において、最先端の視覚運動アプローチを上回るポリシーを生成できることを発見しました。
私たちの方法は、深度、キーポイント、モーション プランナーなどの事前定義が欠けているにもかかわらず、3D エージェントと競合することもできます。

要約(オリジナル)

Image-generation diffusion models have been fine-tuned to unlock new capabilities such as image-editing and novel view synthesis. Can we similarly unlock image-generation models for visuomotor control? We present GENIMA, a behavior-cloning agent that fine-tunes Stable Diffusion to ‘draw joint-actions’ as targets on RGB images. These images are fed into a controller that maps the visual targets into a sequence of joint-positions. We study GENIMA on 25 RLBench and 9 real-world manipulation tasks. We find that, by lifting actions into image-space, internet pre-trained diffusion models can generate policies that outperform state-of-the-art visuomotor approaches, especially in robustness to scene perturbations and generalizing to novel objects. Our method is also competitive with 3D agents, despite lacking priors such as depth, keypoints, or motion-planners.

arxiv情報

著者 Mohit Shridhar,Yat Long Lo,Stephen James
発行日 2024-07-10 17:41:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO パーマリンク