Simple Token-Level Confidence Improves Caption Correctness

要約

タイトル:トークンレベル信頼度の単純な改善がキャプションの正確性を向上させる

要約:

– キャプションが画像を正しく記述しているかどうかを判断する能力は、ビジョン・ランゲージ理解の重要な部分です。
– しかし、最先端のモデルは、微細な詳細の正確さを誤解しやすく、生成されたキャプションにオブジェクトを幻想するエラーや、合成的な推論における不正確な結果をもたらすことがあります。
– この研究では、トークンレベル信頼度(TLC)を、キャプションの正確性を評価するための単純で驚くほど効果的な方法として探究しています。
– 具体的には、画像キャプションのためのビジョン・ランゲージモデルを微調整し、モデルに画像と提案されたキャプションを入力し、単語やシーケンスごとに代数的または学習されたトークン信頼度を集計して、画像キャプションの整合性を評価します。
– 事前学習モデルからのシーケンスレベルのスコアと比較して、代数的信頼度測定を用いたTLCは、SVO-Probesにおいて動詞理解において相対精度が10%向上し、合成的推論における画像とグループスコアでは、Winogroundにおいて従来の最先端を相対37%、9%上回ります。
– 学習データが利用可能な場合、学習された信頼度推定器により、MS COCOキャプションにおけるオブジェクト幻想率を元のモデルに比べて相対30%低下させ、新しい最先端を設定します。

要約(オリジナル)

The ability to judge whether a caption correctly describes an image is a critical part of vision-language understanding. However, state-of-the-art models often misinterpret the correctness of fine-grained details, leading to errors in outputs such as hallucinating objects in generated captions or poor compositional reasoning. In this work, we explore Token-Level Confidence, or TLC, as a simple yet surprisingly effective method to assess caption correctness. Specifically, we fine-tune a vision-language model on image captioning, input an image and proposed caption to the model, and aggregate either algebraic or learned token confidences over words or sequences to estimate image-caption consistency. Compared to sequence-level scores from pretrained models, TLC with algebraic confidence measures achieves a relative improvement in accuracy by 10% on verb understanding in SVO-Probes and outperforms prior state-of-the-art in image and group scores for compositional reasoning in Winoground by a relative 37% and 9%, respectively. When training data are available, a learned confidence estimator provides further improved performance, reducing object hallucination rates in MS COCO Captions by a relative 30% over the original model and setting a new state-of-the-art.

arxiv情報

著者 Suzanne Petryk,Spencer Whitehead,Joseph E. Gonzalez,Trevor Darrell,Anna Rohrbach,Marcus Rohrbach
発行日 2023-05-11 17:58:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク