On the Limitations of Markovian Rewards to Express Multi-Objective, Risk-Sensitive, and Modal Tasks

要約

この論文では、強化学習 (RL) におけるスカラーのマルコフ報酬関数の表現力を研究し、それらが表現できるものに対するいくつかの制限を特定します。
具体的には、RL タスクの 3 つのクラスを検討します。
多目的 RL、リスクに敏感な RL、およびモーダル RL。
各クラスについて、このクラスの問題がスカラーのマルコフ報酬を使用して表現できる場合を記述する必要十分条件を導出します。
さらに、スカラーのマルコフ報酬では、これら 3 つのクラスのそれぞれのインスタンスのほとんどを表現できないことがわかりました。
これにより、標準の報酬関数で表現できるものと表現できないものについてのより完全な理解に貢献します。
これに加えて、モーダル問題はこれまで RL 文献で体系的に扱われていなかったため、新しい種類の問題として注意を呼び掛けます。
また、特注の RL アルゴリズムを使用して、議論する問題の一部を解決するためのアプローチの概要も簡単に説明します。

要約(オリジナル)

In this paper, we study the expressivity of scalar, Markovian reward functions in Reinforcement Learning (RL), and identify several limitations to what they can express. Specifically, we look at three classes of RL tasks; multi-objective RL, risk-sensitive RL, and modal RL. For each class, we derive necessary and sufficient conditions that describe when a problem in this class can be expressed using a scalar, Markovian reward. Moreover, we find that scalar, Markovian rewards are unable to express most of the instances in each of these three classes. We thereby contribute to a more complete understanding of what standard reward functions can and cannot express. In addition to this, we also call attention to modal problems as a new class of problems, since they have so far not been given any systematic treatment in the RL literature. We also briefly outline some approaches for solving some of the problems we discuss, by means of bespoke RL algorithms.

arxiv情報

著者 Joar Skalse,Alessandro Abate
発行日 2024-01-26 12:18:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク