要約
人間によるフィードバックによる強化学習 (RLHF) は、人間の好みを調整することで、コストのかかる手動の報酬設計を必要とせずにタスクを実行できるため、大きな注目を集めています。
さまざまな環境における多様な人間のフィードバックの種類とさまざまな学習方法を考慮することが重要です。
ただし、標準化されたアノテーション プラットフォームや広く使用されている統一ベンチマークがないため、多様なフィードバックを使用して RLHF の進歩を定量化することは困難です。
このギャップを埋めるために、RLHF に合わせた包括的なシステム実装である Uni-RLHF を導入します。
実際の人間のフィードバックから完全なワークフローを提供し、実際的な問題の開発を促進することを目的としています。
Uni-RLHF には 3 つのパッケージが含まれています: 1) ユニバーサル マルチフィードバック アノテーション プラットフォーム、2) 大規模なクラウドソース フィードバック データセット、3) モジュラー オフライン RLHF ベースライン実装。
Uni-RLHF は、さまざまなフィードバック タイプに合わせた使いやすいアノテーション インターフェイスを開発し、幅広い主流の RL 環境と互換性があります。
次に、クラウドソースによるアノテーションの体系的なパイプラインを確立し、30 以上の一般的なタスクにわたる 1,500 万以上のステップで構成される大規模なアノテーション付きデータセットを作成します。
広範な実験を通じて、収集されたデータセットの結果は、適切に設計された手動報酬による結果と比較して、競争力のあるパフォーマンスを示しています。
私たちはさまざまな設計の選択肢を評価し、その長所と改善の余地がある領域についての洞察を提供します。
私たちは、人間による現実的なフィードバックに基づいて、より堅牢で信頼性の高い RLHF ソリューションの開発を促進するために、貴重なオープンソース プラットフォーム、データセット、ベースラインを構築したいと考えています。
Web サイトは https://uni-rlhf.github.io/ から入手できます。
要約(オリジナル)
Reinforcement Learning with Human Feedback (RLHF) has received significant attention for performing tasks without the need for costly manual reward design by aligning human preferences. It is crucial to consider diverse human feedback types and various learning methods in different environments. However, quantifying progress in RLHF with diverse feedback is challenging due to the lack of standardized annotation platforms and widely used unified benchmarks. To bridge this gap, we introduce Uni-RLHF, a comprehensive system implementation tailored for RLHF. It aims to provide a complete workflow from real human feedback, fostering progress in the development of practical problems. Uni-RLHF contains three packages: 1) a universal multi-feedback annotation platform, 2) large-scale crowdsourced feedback datasets, and 3) modular offline RLHF baseline implementations. Uni-RLHF develops a user-friendly annotation interface tailored to various feedback types, compatible with a wide range of mainstream RL environments. We then establish a systematic pipeline of crowdsourced annotations, resulting in large-scale annotated datasets comprising more than 15 million steps across 30+ popular tasks. Through extensive experiments, the results in the collected datasets demonstrate competitive performance compared to those from well-designed manual rewards. We evaluate various design choices and offer insights into their strengths and potential areas of improvement. We wish to build valuable open-source platforms, datasets, and baselines to facilitate the development of more robust and reliable RLHF solutions based on realistic human feedback. The website is available at https://uni-rlhf.github.io/.
arxiv情報
著者 | Yifu Yuan,Jianye Hao,Yi Ma,Zibin Dong,Hebin Liang,Jinyi Liu,Zhixin Feng,Kai Zhao,Yan Zheng |
発行日 | 2024-03-25 13:20:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google