要約
安全な強化学習は、伝統的に事前に定義された制約機能に依存しており、自律運転などの複雑な現実世界のタスクの安全性を確保していました。
ただし、さまざまなタスクに対してこれらの機能を正確に定義することは、持続的な課題です。
最近の研究は、関連するタスクとサンプル効率の両方を高めるために、事前に取得されたタスクに依存しない知識を活用する可能性を強調しています。
この洞察に基づいて、複数のタスクで共有制約分布を学習する新しい方法を提案します。
私たちのアプローチは、模倣学習を通じて共有制約を識別し、これらの学習分布内でリスクレベルを調整することにより、新しいタスクに適応します。
この適応性は、専門家固有のバイアスに起因するリスク感度の変動に対処し、不完全なデモンストレーションでさえ、一般的な安全原則への一貫した順守を確保します。
この方法は、マルチタスクやメタタスクのシナリオ、安全な距離の維持、速度制限への接着などの制約に対応する制御およびナビゲーションドメインに適用できます。
実験結果は、当社のアプローチの有効性を検証し、タスク固有の制約定義を必要とせずに、ベースラインと比較して優れた安全性能と成功率を実証します。
これらの発見は、幅広い現実世界のタスクにわたる方法の汎用性と実用性を強調しています。
要約(オリジナル)
Safe reinforcement learning has traditionally relied on predefined constraint functions to ensure safety in complex real-world tasks, such as autonomous driving. However, defining these functions accurately for varied tasks is a persistent challenge. Recent research highlights the potential of leveraging pre-acquired task-agnostic knowledge to enhance both safety and sample efficiency in related tasks. Building on this insight, we propose a novel method to learn shared constraint distributions across multiple tasks. Our approach identifies the shared constraints through imitation learning and then adapts to new tasks by adjusting risk levels within these learned distributions. This adaptability addresses variations in risk sensitivity stemming from expert-specific biases, ensuring consistent adherence to general safety principles even with imperfect demonstrations. Our method can be applied to control and navigation domains, including multi-task and meta-task scenarios, accommodating constraints such as maintaining safe distances or adhering to speed limits. Experimental results validate the efficacy of our approach, demonstrating superior safety performance and success rates compared to baselines, all without requiring task-specific constraint definitions. These findings underscore the versatility and practicality of our method across a wide range of real-world tasks.
arxiv情報
著者 | Se-Wook Yoo,Seung-Woo Seo |
発行日 | 2025-01-30 01:56:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google