Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via Self-supervised Learning

要約

シーケンス モデリングのアプローチは、ロボットの模倣学習において有望な結果を示しています。
最近、拡散モデルは、複雑なデータ分布をモデル化する際の優れた機能の恩恵を受けて、シーケンス モデリング方式での動作クローニングに採用されています。
標準の拡散ベースのポリシーは、入力状態に応じてランダム ノイズからアクション シーケンスを繰り返し生成します。
それにもかかわらず、普及政策のモデルは視覚的表現の点でさらに改善できる可能性があります。
この研究では、慎重に設計された状態デコーダと補助的な自己教師あり学習 (SSL) 目標を介して、拡散ベースの視覚運動ポリシー学習を強化するシンプルかつ効果的な方法であるクロスウェイ拡散を提案します。
状態デコーダは、逆拡散プロセスの中間表現から生の画像ピクセルとその他の状態情報を再構築します。
モデル全体は、SSL の目的と元の拡散損失によって共同で最適化されます。
私たちの実験では、さまざまなシミュレーションおよび現実世界のロボット タスクにおけるクロスウェイ拡散の有効性を実証し、標準の拡散ベースのポリシーに対する一貫した利点と、ベースラインに対する大幅な改善を確認しました。

要約(オリジナル)

Sequence modeling approaches have shown promising results in robot imitation learning. Recently, diffusion models have been adopted for behavioral cloning in a sequence modeling fashion, benefiting from their exceptional capabilities in modeling complex data distributions. The standard diffusion-based policy iteratively generates action sequences from random noise conditioned on the input states. Nonetheless, the model for diffusion policy can be further improved in terms of visual representations. In this work, we propose Crossway Diffusion, a simple yet effective method to enhance diffusion-based visuomotor policy learning via a carefully designed state decoder and an auxiliary self-supervised learning (SSL) objective. The state decoder reconstructs raw image pixels and other state information from the intermediate representations of the reverse diffusion process. The whole model is jointly optimized by the SSL objective and the original diffusion loss. Our experiments demonstrate the effectiveness of Crossway Diffusion in various simulated and real-world robot tasks, confirming its consistent advantages over the standard diffusion-based policy and substantial improvements over the baselines.

arxiv情報

著者 Xiang Li,Varun Belagali,Jinghuan Shang,Michael S. Ryoo
発行日 2024-01-11 18:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク