要約
優先的フィードバックからの学習(LfPF)は、大規模言語モデルやある種の対話型学習エージェントの学習において重要な役割を果たす。しかしながら、LfPFアルゴリズムの理論と応用の間には大きなギャップが存在する。LfPF問題における最適ポリシーの存在を保証する現在の結果は、選好と遷移ダイナミクスの両方がマルコフ決定過程によって決定されることを前提としている。我々は、部分観測可能な非マルコフ環境におけるLfPF問題を分析するための新しい枠組みである直接選好過程を導入する。この枠組みの中で、選好の順序構造を考慮することにより、最適政策の存在を保証する条件を確立する。フォン・ノイマン-モルゲンシュテルン期待効用定理を用いて、直接選好過程が標準的な強化学習問題を一般化することを示す。我々の発見は、LfPFアルゴリズムの経験的成功と理論的理解との間のギャップを縮め、LfPFエージェントをより原理的に設計するために必要なツールを将来の実務家に提供する。
要約(オリジナル)
Learning from Preferential Feedback (LfPF) plays an essential role in training Large Language Models, as well as certain types of interactive learning agents. However, a substantial gap exists between the theory and application of LfPF algorithms. Current results guaranteeing the existence of optimal policies in LfPF problems assume that both the preferences and transition dynamics are determined by a Markov Decision Process. We introduce the Direct Preference Process, a new framework for analyzing LfPF problems in partially-observable, non-Markovian environments. Within this framework, we establish conditions that guarantee the existence of optimal policies by considering the ordinal structure of the preferences. Using the von Neumann-Morgenstern Expected Utility Theorem, we show that the Direct Preference Process generalizes the standard reinforcement learning problem. Our findings narrow the gap between the empirical success and theoretical understanding of LfPF algorithms and provide future practitioners with the tools necessary for a more principled design of LfPF agents.
arxiv情報
著者 | Jonathan Colaco Carr,Prakash Panangaden,Doina Precup |
発行日 | 2023-11-03 15:42:12+00:00 |
arxivサイト | arxiv_id(pdf) |