要約
3D世代は急速な進歩を経験していますが、3D評価の開発はペースを維持していません。
自動評価を人間の認識と公平に整合させる方法は、よく知られている課題になりました。
言語とイメージ生成の分野における最近の進歩は、人間の好みを探求し、立派なフィッティング能力を紹介しています。
ただし、3Dドメインには、生成モデルよりもこのような包括的な優先データセットがまだありません。
この不在を緩和するために、戦闘方法で統合されたプラットフォームである3DGen-Arenaを開発します。
次に、多様なテキストと画像のプロンプトを慎重に設計し、アリーナプラットフォームを活用して、パブリックユーザーと専門家のアノテーターの両方から人間の好みを収集し、その結果、大規模な多次元の人間選好データセット3DGenベンチが生まれます。
このデータセットを使用して、クリップベースのスコアリングモデル、3DGENスコア、およびMLLMベースの自動評価者である3DGEN-EVALをさらにトレーニングします。
これらの2つのモデルは、テキストから3Dへの質の高い評価を革新的に統合し、画像から3Dの発電を統合し、それぞれの強みと共同で自動評価システムを形成します。
広範な実験は、人間の好みを予測する際のスコアリングモデルの有効性を示しており、既存の指標と比較して人間のランクとの優れた相関を示しています。
3DGenベンチデータセットと自動評価システムが、3D世代の分野でより公平な評価を促進し、3D生成モデルとその下流のアプリケーションの開発をさらに促進すると考えています。
要約(オリジナル)
3D generation is experiencing rapid advancements, while the development of 3D evaluation has not kept pace. How to keep automatic evaluation equitably aligned with human perception has become a well-recognized challenge. Recent advances in the field of language and image generation have explored human preferences and showcased respectable fitting ability. However, the 3D domain still lacks such a comprehensive preference dataset over generative models. To mitigate this absence, we develop 3DGen-Arena, an integrated platform in a battle manner. Then, we carefully design diverse text and image prompts and leverage the arena platform to gather human preferences from both public users and expert annotators, resulting in a large-scale multi-dimension human preference dataset 3DGen-Bench. Using this dataset, we further train a CLIP-based scoring model, 3DGen-Score, and a MLLM-based automatic evaluator, 3DGen-Eval. These two models innovatively unify the quality evaluation of text-to-3D and image-to-3D generation, and jointly form our automated evaluation system with their respective strengths. Extensive experiments demonstrate the efficacy of our scoring model in predicting human preferences, exhibiting a superior correlation with human ranks compared to existing metrics. We believe that our 3DGen-Bench dataset and automated evaluation system will foster a more equitable evaluation in the field of 3D generation, further promoting the development of 3D generative models and their downstream applications.
arxiv情報
著者 | Yuhan Zhang,Mengchen Zhang,Tong Wu,Tengfei Wang,Gordon Wetzstein,Dahua Lin,Ziwei Liu |
発行日 | 2025-03-27 17:53:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google