要約
実際のアプリケーションでヒューマン フィードバックからの強化学習 (RLHF) を使用するには、ヒューマン フィードバックのさまざまなソースから報酬モデルを学習し、さまざまな種類のフィードバックの提供に関与する人的要因を考慮することが重要です。
しかし、多様な種類のフィードバックからの学習に関する体系的な研究は、研究者が利用できる標準化されたツールが限られているために妨げられています。
このギャップを埋めるために、人間のフィードバックから学習するための構成可能な対話型インターフェイスである RLHF-Blender を提案します。
RLHF-Blender は、研究者が報酬学習のための人間のフィードバックの特性と質を体系的に調査できるようにするモジュール式の実験フレームワークと実装を提供します。
このシステムは、デモンストレーション、ランキング、比較、自然言語による指示などのさまざまなタイプのフィードバックの探索や、その有効性に対する人的要因の影響を考慮した研究を容易にします。
RLHF-Blender によって実現される一連の具体的な研究機会について説明します。
詳細については、https://rlhfblender.info/ をご覧ください。
要約(オリジナル)
To use reinforcement learning from human feedback (RLHF) in practical applications, it is crucial to learn reward models from diverse sources of human feedback and to consider human factors involved in providing feedback of different types. However, the systematic study of learning from diverse types of feedback is held back by limited standardized tooling available to researchers. To bridge this gap, we propose RLHF-Blender, a configurable, interactive interface for learning from human feedback. RLHF-Blender provides a modular experimentation framework and implementation that enables researchers to systematically investigate the properties and qualities of human feedback for reward learning. The system facilitates the exploration of various feedback types, including demonstrations, rankings, comparisons, and natural language instructions, as well as studies considering the impact of human factors on their effectiveness. We discuss a set of concrete research opportunities enabled by RLHF-Blender. More information is available at https://rlhfblender.info/.
arxiv情報
著者 | Yannick Metz,David Lindner,Raphaël Baur,Daniel Keim,Mennatallah El-Assady |
発行日 | 2023-08-08 15:21:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google