要約
この作業では、L4DC 2025で最初に提案された多様な最適な代替案(DNA)と呼ばれる説明可能な強化学習への新しいアプローチの拡張的な議論を提供します。DNAは、軌道鉱床剤の合理的な「オプション」のセットを求め、ユークリデン宇宙で質的に多様な軌道を生成するためのポリシーを最適化します。
説明可能性の精神で、これらの異なるポリシーは、人間のユーザーが選択できる利用可能な軌道形状の観点から、エージェントのオプションを「説明」するために使用されます。
特に、DNAは、エージェントが連続軌跡に限定されているマルコフ決定プロセスに関する値関数ベースのポリシーに適用されます。
ここでは、局所的な修正されたQラーニングの問題で報酬の形成を使用して、保証されたエプシロン最適性を備えた明確なポリシーを解決するDNAについて説明します。
シミュレーションで有意義に異なる「オプション」を構成する定性的に異なるポリシーを正常に返すことを示しています。
説明的な動機を超えて、この作業は、RLでの探査と適応計画の新しい可能性を開きます。
要約(オリジナル)
In this work, we provide an extended discussion of a new approach to explainable Reinforcement Learning called Diverse Near-Optimal Alternatives (DNA), first proposed at L4DC 2025. DNA seeks a set of reasonable ‘options’ for trajectory-planning agents, optimizing policies to produce qualitatively diverse trajectories in Euclidean space. In the spirit of explainability, these distinct policies are used to ‘explain’ an agent’s options in terms of available trajectory shapes from which a human user may choose. In particular, DNA applies to value function-based policies on Markov decision processes where agents are limited to continuous trajectories. Here, we describe DNA, which uses reward shaping in local, modified Q-learning problems to solve for distinct policies with guaranteed epsilon-optimality. We show that it successfully returns qualitatively different policies that constitute meaningfully different ‘options’ in simulation, including a brief comparison to related approaches in the stochastic optimization field of Quality Diversity. Beyond the explanatory motivation, this work opens new possibilities for exploration and adaptive planning in RL.
arxiv情報
著者 | Noel Brindise,Vijeth Hebbar,Riya Shah,Cedric Langbort |
発行日 | 2025-06-11 16:15:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google