要約
さまざまなドメインから事前に収集されたデータを再利用することは、アクセス可能なデータがターゲット ドメインでは不十分であるが、他の関連ドメインでは比較的豊富である場合の意思決定タスクにおいて魅力的なソリューションです。
既存のクロスドメインポリシー転送方法は主に、ドメインの対応関係や修正を学習してポリシー学習を促進することを目的としていますが、そのためには、任意のドメインやタスクに対応するために柔軟性がないか、完全に再利用できないドメイン/タスク固有のモデルコンポーネント、表現、またはポリシーを学習する必要があります。
これらの問題により、複雑なドメイン固有のポリシー転送モデルを考案するのではなく、データ (軌跡) レベルでドメイン ギャップを直接埋めることができるだろうかと疑問に感じます。
この研究では、ターゲット データセットから軌跡分布を事前に取得する新しい拡散変換モデル (Decision Diffusion Transformer、DDiT) を備えたクロスドメイン軌跡編集 (xTED) フレームワークを提案します。
提案された拡散トランスフォーマー バックボーンは、状態、アクション、報酬シーケンス間の複雑な依存関係と、ターゲット データ トラジェクトリ内の遷移ダイナミクスを捕捉します。
上記の事前トレーニングされた拡散事前学習を使用すると、ドメイン ギャップのあるソース データの軌跡を、拡散ベースの編集プロセスを通じてターゲット データの分布によく似た編集された軌跡に変換できます。これにより、基礎となるドメイン ギャップが暗黙的に修正され、状態のリアリズムとダイナミクスが強化されます。
ソース軌跡データの信頼性を高めながら、下流のポリシー学習方法の柔軟な選択を可能にします。
そのシンプルさにも関わらず、xTED は広範なシミュレーションや実際のロボット実験で他のベースラインに対して優れたパフォーマンスを示します。
要約(オリジナル)
Reusing pre-collected data from different domains is an attractive solution in decision-making tasks where the accessible data is insufficient in the target domain but relatively abundant in other related domains. Existing cross-domain policy transfer methods mostly aim at learning domain correspondences or corrections to facilitate policy learning, which requires learning domain/task-specific model components, representations, or policies that are inflexible or not fully reusable to accommodate arbitrary domains and tasks. These issues make us wonder: can we directly bridge the domain gap at the data (trajectory) level, instead of devising complicated, domain-specific policy transfer models? In this study, we propose a Cross-Domain Trajectory EDiting (xTED) framework with a new diffusion transformer model (Decision Diffusion Transformer, DDiT) that captures the trajectory distribution from the target dataset as a prior. The proposed diffusion transformer backbone captures the intricate dependencies among state, action, and reward sequences, as well as the transition dynamics within the target data trajectories. With the above pre-trained diffusion prior, source data trajectories with domain gaps can be transformed into edited trajectories that closely resemble the target data distribution through the diffusion-based editing process, which implicitly corrects the underlying domain gaps, enhancing the state realism and dynamics reliability in source trajectory data, while enabling flexible choices of downstream policy learning methods. Despite its simplicity, xTED demonstrates superior performance against other baselines in extensive simulation and real-robot experiments.
arxiv情報
著者 | Haoyi Niu,Qimao Chen,Tenglong Liu,Jianxiong Li,Guyue Zhou,Yi Zhang,Jianming Hu,Xianyuan Zhan |
発行日 | 2024-09-13 10:07:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google