要約
ラベルのない 3D オブジェクトは、オブジェクトのセマンティクスの記述から物理プロパティに至るまで、さまざまな注釈タスクで事前トレーニング済みのビジョン言語モデル (VLM) を活用する機会を提供します。
正確な応答には、3D でのオブジェクトの完全な外観、質問/プロンプトのさまざまな表現方法、応答に影響を与えるその他の要素の変化を考慮する必要があります。
サンプリングされた応答の VLM スコアを利用して、VLM クエリ間で異なるあらゆる要因を周辺化する方法を紹介します。
まず、この確率的集計が要約に関して言語モデル (GPT4 など) よりも優れたパフォーマンスを発揮できること、たとえば応答間に対照的な詳細がある場合の幻覚を回避できることを示します。
次に、集約されたアノテーションがプロンプトチェーンに役立つことを示します。
これらは、下流の VLM 予測 (たとえば、オブジェクトのタイプがプロンプトで補助入力として指定されている場合のオブジェクト素材) を改善するのに役立ちます。
このような補助入力により、言語のみの推論に対する視覚的推論の寄与を除去および測定することができます。
これらの評価を使用して、VLM が追加のトレーニングやコンテキスト内学習を行わずに、大規模な Objaverse データセット上の人間が検証したタイプおよびマテリアルのアノテーションの品質にどのようにアプローチできるかを示します。
要約(オリジナル)
Unlabeled 3D objects present an opportunity to leverage pretrained vision language models (VLMs) on a range of annotation tasks — from describing object semantics to physical properties. An accurate response must take into account the full appearance of the object in 3D, various ways of phrasing the question/prompt, and changes in other factors that affect the response. We present a method to marginalize over any factors varied across VLM queries, utilizing the VLM’s scores for sampled responses. We first show that this probabilistic aggregation can outperform a language model (e.g., GPT4) for summarization, for instance avoiding hallucinations when there are contrasting details between responses. Secondly, we show that aggregated annotations are useful for prompt-chaining; they help improve downstream VLM predictions (e.g., of object material when the object’s type is specified as an auxiliary input in the prompt). Such auxiliary inputs allow ablating and measuring the contribution of visual reasoning over language-only reasoning. Using these evaluations, we show how VLMs can approach, without additional training or in-context learning, the quality of human-verified type and material annotations on the large-scale Objaverse dataset.
arxiv情報
著者 | Rishabh Kabra,Loic Matthey,Alexander Lerchner,Niloy J. Mitra |
発行日 | 2023-11-29 17:54:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google