要約
SACやTD3のようなリスクを考慮した強化学習(RL)アルゴリズムは、様々な連続行動タスクにおいて、リスクを考慮しないアルゴリズムを上回ることが経験的に示されている。しかし、これらのアルゴリズムが採用している悲観的な目標の理論的根拠はまだ確立されておらず、これらのアルゴリズムが実装しているポリシーの特定のクラスについて疑問が投げかけられている。本研究では、経済学の基本概念である期待効用仮説を適用し、リスク中立型とリスク考慮型のRL目標の両方が、指数効用関数を用いた期待効用最大化によって解釈できることを説明する。このアプローチにより、リスクを考慮した政策が価値確実性等価物を効果的に最大化し、従来の意思決定理論の原理と一致することが明らかになった。さらに、我々はDual Actor-Critic(DAC)を提案する。DACはリスクを考慮したモデルフリーのアルゴリズムであり、時間差学習用の悲観的アクターと探索用の楽観的アクターという2つの異なるアクターネットワークを特徴とする。様々な運動タスクと操作タスクにおけるDACの評価は、サンプルの効率と最終的な性能の向上を示している。驚くべきことに、DACは計算資源を大幅に削減しながら、複雑な犬やヒューマノイドの領域において、主要なモデルベース手法の性能に匹敵する。
要約(オリジナル)
Risk-aware Reinforcement Learning (RL) algorithms like SAC and TD3 were shown empirically to outperform their risk-neutral counterparts in a variety of continuous-action tasks. However, the theoretical basis for the pessimistic objectives these algorithms employ remains unestablished, raising questions about the specific class of policies they are implementing. In this work, we apply the expected utility hypothesis, a fundamental concept in economics, to illustrate that both risk-neutral and risk-aware RL goals can be interpreted through expected utility maximization using an exponential utility function. This approach reveals that risk-aware policies effectively maximize value certainty equivalent, aligning them with conventional decision theory principles. Furthermore, we propose Dual Actor-Critic (DAC). DAC is a risk-aware, model-free algorithm that features two distinct actor networks: a pessimistic actor for temporal-difference learning and an optimistic actor for exploration. Our evaluations of DAC across various locomotion and manipulation tasks demonstrate improvements in sample efficiency and final performance. Remarkably, DAC, while requiring significantly less computational resources, matches the performance of leading model-based methods in the complex dog and humanoid domains.
arxiv情報
著者 | Michal Nauman,Marek Cygan |
発行日 | 2024-03-02 12:40:15+00:00 |
arxivサイト | arxiv_id(pdf) |