要約
本稿では、データ駆動型意思決定における損失関数の中心的な役割を説明し、コスト依存型分類(CSC)と強化学習(RL)における損失関数の影響に関する包括的なサーベイを提供する。我々は、異なる回帰損失関数が価値ベースの意思決定アルゴリズムのサンプル効率と適応性にどのような影響を与えるかを示す。複数の設定において、2値クロスエントロピー損失を用いたアルゴリズムが、最適なポリシーのコストにスケーリングする一次境界を達成し、一般的に用いられる2乗損失よりもはるかに効率的であることを証明する。さらに、最大尤度損失を用いた分布アルゴリズムが、ポリシーの分散にスケーリングされた2次境界を達成し、1次境界よりもさらにシャープであることを証明する。これは特に分布的RLの利点を証明するものである。本論文が、様々な損失関数を用いた意思決定アルゴリズムを分析するガイドとなり、読者があらゆる意思決定アルゴリズムを改善するために、より良い損失関数を探し求めるきっかけとなることを願っている。
要約(オリジナル)
This paper illustrates the central role of loss functions in data-driven decision making, providing a comprehensive survey on their influence in cost-sensitive classification (CSC) and reinforcement learning (RL). We demonstrate how different regression loss functions affect the sample efficiency and adaptivity of value-based decision making algorithms. Across multiple settings, we prove that algorithms using the binary cross-entropy loss achieve first-order bounds scaling with the optimal policy’s cost and are much more efficient than the commonly used squared loss. Moreover, we prove that distributional algorithms using the maximum likelihood loss achieve second-order bounds scaling with the policy variance and are even sharper than first-order bounds. This in particular proves the benefits of distributional RL. We hope that this paper serves as a guide analyzing decision making algorithms with varying loss functions, and can inspire the reader to seek out better loss functions to improve any decision making algorithm.
arxiv情報
著者 | Kaiwen Wang,Nathan Kallus,Wen Sun |
発行日 | 2025-04-04 15:09:19+00:00 |
arxivサイト | arxiv_id(pdf) |