要約
人間フィードバックによる強化学習(RLHF)は、人間の嗜好に合わせることで、コストのかかる手作業による報酬設計を必要とせずにタスクを実行するために大きな注目を集めている。様々な環境において、多様な人間のフィードバックタイプや様々な学習方法を考慮することは極めて重要である。しかし、標準化されたアノテーションプラットフォームや広く使用されている統一ベンチマークがないため、多様なフィードバックによるRLHFの進捗を定量化することは困難である。このギャップを埋めるために、我々はRLHFに合わせた包括的なシステム実装であるUni-RLHFを紹介する。Uni-RLHFは、実際の人間のフィードバックから完全なワークフローを提供し、実用的な問題の開発における進歩を促進することを目的としている。Uni-RLHFには3つのパッケージが含まれている:1) 普遍的なマルチフィードバックアノテーションプラットフォーム、2) 大規模なクラウドソースフィードバックデータセット、3) モジュラー式のオフラインRLHFベースライン実装。Uni-RLHFは、様々なフィードバックタイプに合わせた使いやすいアノテーションインターフェースを開発し、広範な主流RL環境に対応する。そして、クラウドソースによるアノテーションの体系的なパイプラインを確立し、30以上の一般的なタスクにわたる1500万以上のステップからなる大規模なアノテーションデータセットを得る。広範な実験を通じて、収集されたデータセットの結果は、適切に設計された手動報酬によるものと比較して、競争力のある性能を示す。我々は様々な設計の選択肢を評価し、それらの長所と潜在的な改善点についての洞察を提供する。我々は、現実的な人間のフィードバックに基づく、より堅牢で信頼性の高いRLHFソリューションの開発を促進するために、貴重なオープンソースプラットフォーム、データセット、およびベースラインを構築したいと考えている。ウェブサイトはhttps://uni-rlhf.github.io/。
要約(オリジナル)
Reinforcement Learning with Human Feedback (RLHF) has received significant attention for performing tasks without the need for costly manual reward design by aligning human preferences. It is crucial to consider diverse human feedback types and various learning methods in different environments. However, quantifying progress in RLHF with diverse feedback is challenging due to the lack of standardized annotation platforms and widely used unified benchmarks. To bridge this gap, we introduce Uni-RLHF, a comprehensive system implementation tailored for RLHF. It aims to provide a complete workflow from real human feedback, fostering progress in the development of practical problems. Uni-RLHF contains three packages: 1) a universal multi-feedback annotation platform, 2) large-scale crowdsourced feedback datasets, and 3) modular offline RLHF baseline implementations. Uni-RLHF develops a user-friendly annotation interface tailored to various feedback types, compatible with a wide range of mainstream RL environments. We then establish a systematic pipeline of crowdsourced annotations, resulting in large-scale annotated datasets comprising more than 15 million steps across 30+ popular tasks. Through extensive experiments, the results in the collected datasets demonstrate competitive performance compared to those from well-designed manual rewards. We evaluate various design choices and offer insights into their strengths and potential areas of improvement. We wish to build valuable open-source platforms, datasets, and baselines to facilitate the development of more robust and reliable RLHF solutions based on realistic human feedback. The website is available at https://uni-rlhf.github.io/.
arxiv情報
著者 | Yifu Yuan,Jianye Hao,Yi Ma,Zibin Dong,Hebin Liang,Jinyi Liu,Zhixin Feng,Kai Zhao,Yan Zheng |
発行日 | 2024-02-04 09:40:22+00:00 |
arxivサイト | arxiv_id(pdf) |