HypRL: Reinforcement Learning of Control Policies for Hyperproperties

要約

複雑なタスクに対するマルチエージェント強化学習(MARL)の報酬形状は依然として重要な課題です。
既存のアプローチは、最適なソリューションを見つけることができないことが多い、またはそのようなタスクを効率的に処理できないことがよくあります。
制御ポリシーW.R.T.
hyperltlで表されるハイパープロパティ。
ハイパープロパティは、エージェント間の実行トレースのセットを介して目標と制約を指定するための強力な形式主義を構成します。
Hyperltl式$ \ phi $の満足度を最大化するポリシーを学習するために、スコール化を適用して定量化装置の代替を管理し、定量的堅牢性関数を定義して、未知の遷移を持つマルコフ決定プロセスの実行トレースよりも報酬を形作ります。
次に、適切なRLアルゴリズムを使用して、予想される報酬を集合的に最大化し、その結果、$ \ phi $を満たす確率を高めるポリシーを学習します。
安全性を認識した計画、深海の宝物、および対応後の問題など、さまざまなベンチマークのセットでHyprlを評価します。
また、仕様駆動型ベースラインと比較して、Hyprlの有効性と効率を実証します。

要約(オリジナル)

Reward shaping in multi-agent reinforcement learning (MARL) for complex tasks remains a significant challenge. Existing approaches often fail to find optimal solutions or cannot efficiently handle such tasks. We propose HYPRL, a specification-guided reinforcement learning framework that learns control policies w.r.t. hyperproperties expressed in HyperLTL. Hyperproperties constitute a powerful formalism for specifying objectives and constraints over sets of execution traces across agents. To learn policies that maximize the satisfaction of a HyperLTL formula $\phi$, we apply Skolemization to manage quantifier alternations and define quantitative robustness functions to shape rewards over execution traces of a Markov decision process with unknown transitions. A suitable RL algorithm is then used to learn policies that collectively maximize the expected reward and, consequently, increase the probability of satisfying $\phi$. We evaluate HYPRL on a diverse set of benchmarks, including safety-aware planning, Deep Sea Treasure, and the Post Correspondence Problem. We also compare with specification-driven baselines to demonstrate the effectiveness and efficiency of HYPRL.

arxiv情報

著者 Tzu-Han Hsu,Arshia Rafieioskouei,Borzoo Bonakdarpour
発行日 2025-06-13 16:47:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LO パーマリンク