要約
模倣学習(IL)により、エージェントは報酬シグナルなしで専門家の行動を模倣できますが、高次元的、ノイズがよく、不完全な視覚的観測を伴うクロスドメインシナリオで課題に直面します。
これに対処するために、模倣学習のためのドメイン不変の特徴機能抽出(diff-il)を提案します。これは、個々のフレームからドメイン不変の特徴を抽出し、それらをシーケンスに適応させて専門家の行動を分離および再現する新しいIL方法です。
また、Timestepsによる専門家の動作をセグメント化し、時間的コンテキストに沿った報酬を割り当てて、タスクのパフォーマンスを向上させるためのフレームごとの時間ラベリング手法を導入します。
多様な視覚環境にわたる実験は、複雑な視覚タスクへの対処におけるDiff-ILの有効性を示しています。
要約(オリジナル)
Imitation learning (IL) enables agents to mimic expert behavior without reward signals but faces challenges in cross-domain scenarios with high-dimensional, noisy, and incomplete visual observations. To address this, we propose Domain-Invariant Per-Frame Feature Extraction for Imitation Learning (DIFF-IL), a novel IL method that extracts domain-invariant features from individual frames and adapts them into sequences to isolate and replicate expert behaviors. We also introduce a frame-wise time labeling technique to segment expert behaviors by timesteps and assign rewards aligned with temporal contexts, enhancing task performance. Experiments across diverse visual environments demonstrate the effectiveness of DIFF-IL in addressing complex visual tasks.
arxiv情報
著者 | Minung Kim,Kawon Lee,Jungmo Kim,Sungho Choi,Seungyul Han |
発行日 | 2025-02-14 11:57:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google