Looking at words and points with attention: a benchmark for text-to-shape coherence

要約

テキスト条件付き 3D オブジェクトの生成と操作は急速に進歩していますが、生成された 3D 形状と入力されたテキストの説明の間の一貫性の評価には明確なベンチマークがありません。
その理由は 2 つあります。a) 唯一公開されているテキストと形状のペアのデータセットにおけるテキスト記述の品質が低いこと。
b) そのような一貫性を定量的に評価するために使用される指標の有効性が限られている。
このホワイトペーパーでは、両方の弱点に対処する包括的なソリューションを提案します。
まず、大規模な言語モデルを採用して、形状に関連付けられたテキストの説明を自動的に洗練します。
次に、クロスアテンションメカニズムを通じて、テキストと図形の一貫性を評価するための定量的な指標を提案します。
私たちのアプローチを検証するために、ユーザー調査を実施し、私たちの指標を既存の指標と定量的に比較します。
洗練されたデータセット、新しいメトリック、およびユーザー調査によって検証された一連のテキストと形状のペアは、テキスト条件付き 3D 生成モデルのテキストと形状の一貫性に関する研究を促進するために一般に公開される、新しいきめの細かいベンチマークを構成します。
ベンチマークは https://cvlab-unibo.github.io/CrossCoherence-Web/ で入手できます。

要約(オリジナル)

While text-conditional 3D object generation and manipulation have seen rapid progress, the evaluation of coherence between generated 3D shapes and input textual descriptions lacks a clear benchmark. The reason is twofold: a) the low quality of the textual descriptions in the only publicly available dataset of text-shape pairs; b) the limited effectiveness of the metrics used to quantitatively assess such coherence. In this paper, we propose a comprehensive solution that addresses both weaknesses. Firstly, we employ large language models to automatically refine textual descriptions associated with shapes. Secondly, we propose a quantitative metric to assess text-to-shape coherence, through cross-attention mechanisms. To validate our approach, we conduct a user study and compare quantitatively our metric with existing ones. The refined dataset, the new metric and a set of text-shape pairs validated by the user study comprise a novel, fine-grained benchmark that we publicly release to foster research on text-to-shape coherence of text-conditioned 3D generative models. Benchmark available at https://cvlab-unibo.github.io/CrossCoherence-Web/.

arxiv情報

著者 Andrea Amaduzzi,Giuseppe Lisanti,Samuele Salti,Luigi Di Stefano
発行日 2023-09-14 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク