Robust Offline Imitation Learning from Diverse Auxiliary Data

要約

オフライン模倣学習は、環境との相互作用なしに、専門家の実演の集合のみから方針を学習することを可能にする。専門家データの量が少ないために生じる分布シフトの問題を緩和するために、最近の研究では、専門家データと一緒に大量の補助的なデモンストレーションを組み込んでいる。しかし、これらのアプローチの性能は、補助データの質と構成に関する仮定に依存している。しかし、これらの仮定が成立しない場合、成功することは稀である。この限界に対処するため、我々は多様な補助データからのロバストオフライン模倣(ROIDA)を提案する。ROIDAはまず、学習された報酬関数を用いて、補助データセット全体から高品質な遷移を識別する。これらの高報酬サンプルは、重み付けされた行動クローニングのためのエキスパートデモと組み合わされる。低品質なサンプルに対しては、ROIDAは時間差学習を適用し、高報酬状態へと政策を誘導し、長期的なリターンを向上させる。この2つのアプローチにより、我々のフレームワークは、仮定なしに、高品質データと低品質データの両方を効果的に活用することができる。広範な実験により、ROIDAは、専門家と非専門家のデモの比率が多様な複数の補助データセットにおいて、頑健で一貫した性能を達成することが検証された。ROIDAはラベル付けされていない補助データを効果的に活用し、特定のデータ仮定に依存する先行手法を凌駕する。

要約(オリジナル)

Offline imitation learning enables learning a policy solely from a set of expert demonstrations, without any environment interaction. To alleviate the issue of distribution shift arising due to the small amount of expert data, recent works incorporate large numbers of auxiliary demonstrations alongside the expert data. However, the performance of these approaches rely on assumptions about the quality and composition of the auxiliary data. However, they are rarely successful when those assumptions do not hold. To address this limitation, we propose Robust Offline Imitation from Diverse Auxiliary Data (ROIDA). ROIDA first identifies high-quality transitions from the entire auxiliary dataset using a learned reward function. These high-reward samples are combined with the expert demonstrations for weighted behavioral cloning. For lower-quality samples, ROIDA applies temporal difference learning to steer the policy towards high-reward states, improving long-term returns. This two-pronged approach enables our framework to effectively leverage both high and low-quality data without any assumptions. Extensive experiments validate that ROIDA achieves robust and consistent performance across multiple auxiliary datasets with diverse ratios of expert and non-expert demonstrations. ROIDA effectively leverages unlabeled auxiliary data, outperforming prior methods reliant on specific data assumptions.

arxiv情報

著者 Udita Ghosh,Dripta S. Raychaudhuri,Jiachen Li,Konstantinos Karydis,Amit K. Roy-Chowdhury
発行日 2024-10-04 17:30:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク