要約
自動運転、ロボット工学、ヘルスケアなどの現実世界の逐次意思決定タスクでは、模倣、分類、クラスタリングなどのタスクにおいて、観察された状態動作の軌跡から学習することが重要です。
たとえば、自動運転車は人間の運転行動を再現する必要がありますが、ロボットや医療システムは、専門家のデータに由来するかどうかに関係なく、意思決定シーケンスをモデル化することで恩恵を受けます。
既存の軌跡エンコード方法は、多くの場合、特定のタスクに焦点を当てたり、報酬信号に依存したりするため、ドメインやタスク全体で一般化する能力が制限されています。
CLIP や BERT のようなモデルを静的ドメインに埋め込む成功に触発されて、私たちは、動的な基礎的な意思決定プロセスのスキルと能力を捕捉する潜在空間に状態アクションの軌跡を埋め込むための新しい方法を提案します。
この方法は報酬ラベルを必要とせずに動作するため、さまざまなドメインやタスクにわたってより適切に一般化できます。
私たちの貢献は 3 つあります。 (1) 状態アクション データから複数の能力をキャプチャする軌跡埋め込みアプローチを導入します。
(2) 学習された埋め込みは、模倣、分類、クラスタリング、回帰などの下流タスク全体にわたって強力な表現力を示します。
(3) 埋め込みは、IQ-Learn でのエージェントの動作の制御や潜在空間での加法的構造などの固有の特性を示します。
実験結果は、私たちの方法が従来のアプローチよりも優れており、さまざまなアプリケーションに対してより柔軟で強力な軌道表現を提供することを確認しています。
私たちのコードは https://github.com/Erasmo1015/vte で入手できます。
要約(オリジナル)
In real-world sequential decision making tasks like autonomous driving, robotics, and healthcare, learning from observed state-action trajectories is critical for tasks like imitation, classification, and clustering. For example, self-driving cars must replicate human driving behaviors, while robots and healthcare systems benefit from modeling decision sequences, whether or not they come from expert data. Existing trajectory encoding methods often focus on specific tasks or rely on reward signals, limiting their ability to generalize across domains and tasks. Inspired by the success of embedding models like CLIP and BERT in static domains, we propose a novel method for embedding state-action trajectories into a latent space that captures the skills and competencies in the dynamic underlying decision-making processes. This method operates without the need for reward labels, enabling better generalization across diverse domains and tasks. Our contributions are threefold: (1) We introduce a trajectory embedding approach that captures multiple abilities from state-action data. (2) The learned embeddings exhibit strong representational power across downstream tasks, including imitation, classification, clustering, and regression. (3) The embeddings demonstrate unique properties, such as controlling agent behaviors in IQ-Learn and an additive structure in the latent space. Experimental results confirm that our method outperforms traditional approaches, offering more flexible and powerful trajectory representations for various applications. Our code is available at https://github.com/Erasmo1015/vte.
arxiv情報
著者 | Zichang Ge,Changyu Chen,Arunesh Sinha,Pradeep Varakantham |
発行日 | 2025-01-17 18:30:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google