DreamReward: Text-to-3D Generation with Human Preference

要約

テキスト プロンプトからの 3D コンテンツ作成は、最近目覚ましい成功を収めています。
ただし、現在のテキストから 3D への変換方法では、人間の好みと一致しない 3D 結果が生成されることがよくあります。
この論文では、人間の好みのフィードバックからテキストから 3D モデルを学習して改善するための、DreamReward という造語の包括的なフレームワークを紹介します。
まず、評価やランキングを含む体系的な注釈パイプラインに基づいて、25,000 人の専門家の比較を収集します。
次に、人間の好みを効果的にエンコードする初の汎用テキストから 3D への人間の好みの報酬モデルである Reward3D を構築します。
3D 報酬モデルに基づいて構築し、最終的に理論分析を実行し、再定義されたスコアラーを使用してマルチビュー拡散モデルを最適化する直接調整アルゴリズムである Reward3D フィードバック学習 (DreamFL) を提示します。
理論的な証明と広範な実験比較に基づいて、当社の DreamReward は、人間の意図に即した整合性を大幅に向上させ、忠実度の高い 3D の一貫した結果を生成することに成功しました。
私たちの結果は、人間のフィードバックから学習してテキストから 3D モデルを改善できる大きな可能性を示しています。

要約(オリジナル)

3D content creation from text prompts has shown remarkable success recently. However, current text-to-3D methods often generate 3D results that do not align well with human preferences. In this paper, we present a comprehensive framework, coined DreamReward, to learn and improve text-to-3D models from human preference feedback. To begin with, we collect 25k expert comparisons based on a systematic annotation pipeline including rating and ranking. Then, we build Reward3D — the first general-purpose text-to-3D human preference reward model to effectively encode human preferences. Building upon the 3D reward model, we finally perform theoretical analysis and present the Reward3D Feedback Learning (DreamFL), a direct tuning algorithm to optimize the multi-view diffusion models with a redefined scorer. Grounded by theoretical proof and extensive experiment comparisons, our DreamReward successfully generates high-fidelity and 3D consistent results with significant boosts in prompt alignment with human intention. Our results demonstrate the great potential for learning from human feedback to improve text-to-3D models.

arxiv情報

著者 Junliang Ye,Fangfu Liu,Qixiu Li,Zhengyi Wang,Yikai Wang,Xinzhou Wang,Yueqi Duan,Jun Zhu
発行日 2024-03-21 17:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク