要約
テキストから 3D への生成方法は最近進歩しているにもかかわらず、信頼できる評価指標が著しく欠如しています。
既存の指標は通常、アセットが入力テキストとどの程度一致しているかなど、それぞれ 1 つの基準に焦点を当てています。
これらの指標には、さまざまな評価基準に一般化する柔軟性が欠けており、人間の好みとうまく一致しない可能性があります。
ユーザーの好みの調査を実施することは、適応性と人間に合わせた結果の両方を提供する代替手段です。
ただし、ユーザー調査を拡張するには非常にコストがかかる場合があります。
このペーパーでは、テキストから 3D への生成モデルのための、自動かつ多用途で人間に合わせた評価指標を紹介します。
この目的を達成するために、まず GPT-4V を使用してプロンプト ジェネレーターを開発し、テキストと 3D モデルを比較するための入力として機能する評価プロンプトを生成します。
さらに、ユーザー定義の基準に従って 2 つの 3D アセットを比較するように GPT-4V に指示するメソッドを設計します。
最後に、これらのペアごとの比較結果を使用して、これらのモデルに Elo 評価を割り当てます。
実験結果は、私たちの指標がさまざまな評価基準にわたって人間の好みと強く一致していることを示唆しています。
要約(オリジナル)
Despite recent advances in text-to-3D generative methods, there is a notable absence of reliable evaluation metrics. Existing metrics usually focus on a single criterion each, such as how well the asset aligned with the input text. These metrics lack the flexibility to generalize to different evaluation criteria and might not align well with human preferences. Conducting user preference studies is an alternative that offers both adaptability and human-aligned results. User studies, however, can be very expensive to scale. This paper presents an automatic, versatile, and human-aligned evaluation metric for text-to-3D generative models. To this end, we first develop a prompt generator using GPT-4V to generate evaluating prompts, which serve as input to compare text-to-3D models. We further design a method instructing GPT-4V to compare two 3D assets according to user-defined criteria. Finally, we use these pairwise comparison results to assign these models Elo ratings. Experimental results suggest our metric strongly align with human preference across different evaluation criteria.
arxiv情報
著者 | Tong Wu,Guandao Yang,Zhibing Li,Kai Zhang,Ziwei Liu,Leonidas Guibas,Dahua Lin,Gordon Wetzstein |
発行日 | 2024-01-08 18:52:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google