DisCLIP: Open-Vocabulary Referring Expression Generation

要約

Referring Expressions Generation (REG) は、ビジュアル シーン内の特定のオブジェクトを明確に識別するテキスト記述を生成することを目的としています。
従来、これは教師あり学習手法によって実現されてきましたが、この手法は特定のデータ分布ではうまく機能しますが、新しいイメージや概念に一般化するのが難しいことがよくあります。
この問題に対処するために、我々は、Discriminative CLIP の略称である DisCLIP と呼ばれる、REG に対する新しいアプローチを提案します。
私たちは、大規模な視覚的意味論的モデルである CLIP に基づいて構築し、LLM が画像内のターゲット概念の文脈に沿った記述を生成すると同時に、他の気を散らす概念を回避できるようにします。
特に、この最適化は推論時に行われ、学習したパラメーターの追加のトレーニングや調整を必要としません。
シーン内の記述されたオブジェクトを正確に識別する受信機モデルの機能を評価することにより、生成されたテキストの品質を測定します。
これを達成するために、生成された参照表現の批評として、凍結されたゼロショット理解モジュールを使用します。
人間による評価を通じて複数の参照式ベンチマークで DisCLIP を評価し、ドメイン外のデータセットで以前の方法よりも大幅に優れたパフォーマンスを発揮することを示しました。
私たちの結果は、高品質の文脈上の説明を生成するために、事前にトレーニングされた視覚的意味論的モデルを使用する可能性を強調しています。

要約(オリジナル)

Referring Expressions Generation (REG) aims to produce textual descriptions that unambiguously identifies specific objects within a visual scene. Traditionally, this has been achieved through supervised learning methods, which perform well on specific data distributions but often struggle to generalize to new images and concepts. To address this issue, we present a novel approach for REG, named DisCLIP, short for discriminative CLIP. We build on CLIP, a large-scale visual-semantic model, to guide an LLM to generate a contextual description of a target concept in an image while avoiding other distracting concepts. Notably, this optimization happens at inference time and does not require additional training or tuning of learned parameters. We measure the quality of the generated text by evaluating the capability of a receiver model to accurately identify the described object within the scene. To achieve this, we use a frozen zero-shot comprehension module as a critique of our generated referring expressions. We evaluate DisCLIP on multiple referring expression benchmarks through human evaluation and show that it significantly outperforms previous methods on out-of-domain datasets. Our results highlight the potential of using pre-trained visual-semantic models for generating high-quality contextual descriptions.

arxiv情報

著者 Lior Bracha,Eitan Shaar,Aviv Shamsian,Ethan Fetaya,Gal Chechik
発行日 2023-05-30 15:13:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク