要約
異なるドメインから事前に収集されたデータを再利用することは、特にターゲットドメインのデータが限られている場合、意思決定タスクにとって魅力的なソリューションである。既存の領域横断的な政策伝達手法は、タスク/ドメイン固有の識別器、表現、または政策を学習するような、政策学習を促進するためのドメイン対応や補正を学習することを目的としている。この設計思想は、しばしば重いモデル・アーキテクチャやタスク/ドメイン固有のモデリングになり、柔軟性に欠ける。このような現実から、我々は、複雑な下流のクロスドメインポリシー転送手順に頼るのではなく、データレベルで普遍的にドメインギャップを直接埋めることができないかと考える。本研究では、クロスドメイン軌跡適応のために特別に設計された拡散モデルを採用した、クロスドメイン軌跡適応(xTED)フレームワークを提案する。我々の提案するモデルアーキテクチャは、状態、行動、報酬間の複雑な依存関係や、ターゲットデータ内のダイナミクスパターンを効果的に捉える。事前に訓練された拡散モデルを用いてノイズを付加しノイズ除去を行うことで、元の意味情報を保持したまま、ソースドメインの軌跡をターゲットドメインの特性に合わせて変換することができる。この処理により、根底にあるドメインのギャップが効果的に修正され、ソースデータの状態のリアリズムとダイナミクスの信頼性が向上し、様々な単一ドメインやクロスドメインの下流政策学習手法との柔軟な統合が可能になる。xTEDはそのシンプルさにもかかわらず、広範なシミュレーションと実際のロボット実験において優れた性能を示している。
要約(オリジナル)
Reusing pre-collected data from different domains is an appealing solution for decision-making tasks, especially when data in the target domain are limited. Existing cross-domain policy transfer methods mostly aim at learning domain correspondences or corrections to facilitate policy learning, such as learning task/domain-specific discriminators, representations, or policies. This design philosophy often results in heavy model architectures or task/domain-specific modeling, lacking flexibility. This reality makes us wonder: can we directly bridge the domain gaps universally at the data level, instead of relying on complex downstream cross-domain policy transfer procedures? In this study, we propose the Cross-Domain Trajectory EDiting (xTED) framework that employs a specially designed diffusion model for cross-domain trajectory adaptation. Our proposed model architecture effectively captures the intricate dependencies among states, actions, and rewards, as well as the dynamics patterns within target data. Edited by adding noises and denoising with the pre-trained diffusion model, source domain trajectories can be transformed to align with target domain properties while preserving original semantic information. This process effectively corrects underlying domain gaps, enhancing state realism and dynamics reliability in source data, and allowing flexible integration with various single-domain and cross-domain downstream policy learning methods. Despite its simplicity, xTED demonstrates superior performance in extensive simulation and real-robot experiments.
arxiv情報
著者 | Haoyi Niu,Qimao Chen,Tenglong Liu,Jianxiong Li,Guyue Zhou,Yi Zhang,Jianming Hu,Xianyuan Zhan |
発行日 | 2025-02-01 09:49:25+00:00 |
arxivサイト | arxiv_id(pdf) |