要約
ヒューマン フィードバックからの強化学習 (RLHF) は、定性的タスクの基礎モデルのパフォーマンスを向上させる可能性を示しています。
その有望性にもかかわらず、特に、多様なモデル応答を要求する画像生成などの分野において、平均化された人間の嗜好の学習された報酬モデルを最大化するメカニズムとしてのみ概念化されると、その有効性が制限されることがよくあります。
一方、多様で高品質のソリューションを追求することに特化した品質ダイバーシティ (QD) アルゴリズムは、手動で定義されたダイバーシティ メトリックへの依存によって制約を受けることがよくあります。
興味深いことに、RLHF と QD のこのような制限は、両方からの洞察を融合することで克服できます。
このペーパーでは、ヒューマン フィードバックによる品質ダイバーシティ (QDHF) を紹介します。これは、ダイバーシティ メトリックの推論にヒューマン フィードバックを採用し、QD アルゴリズムの適用可能性を拡張します。
実験結果は、QDHF が自動ダイバーシティ発見に関して既存の QD 方法よりも優れており、QD の検索機能と人間が構築したメトリクスを一致させることを明らかにしています。
特に、潜在空間照明タスクに展開すると、QDHF は拡散モデルによって生成される画像の多様性を著しく強化します。
この研究は、QDHF のサンプル効率とそこから導き出される多様性メトリクスの品質の詳細な分析で締めくくられ、複雑で制限のないタスクの最適化における探索と多様性を強化するという QDHF の期待を強調しています。
要約(オリジナル)
Reinforcement learning from human feedback (RLHF) has exhibited the potential to enhance the performance of foundation models for qualitative tasks. Despite its promise, its efficacy is often restricted when conceptualized merely as a mechanism to maximize learned reward models of averaged human preferences, especially in areas such as image generation which demand diverse model responses. Meanwhile, quality diversity (QD) algorithms, dedicated to seeking diverse, high-quality solutions, are often constrained by the dependency on manually defined diversity metrics. Interestingly, such limitations of RLHF and QD can be overcome by blending insights from both. This paper introduces Quality Diversity through Human Feedback (QDHF), which employs human feedback for inferring diversity metrics, expanding the applicability of QD algorithms. Empirical results reveal that QDHF outperforms existing QD methods regarding automatic diversity discovery, and matches the search capabilities of QD with human-constructed metrics. Notably, when deployed for a latent space illumination task, QDHF markedly enhances the diversity of images generated by a Diffusion model. The study concludes with an in-depth analysis of QDHF’s sample efficiency and the quality of its derived diversity metrics, emphasizing its promise for enhancing exploration and diversity in optimization for complex, open-ended tasks.
arxiv情報
著者 | Li Ding,Jenny Zhang,Jeff Clune,Lee Spector,Joel Lehman |
発行日 | 2023-10-18 16:46:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google