IC3: Image Captioning by Committee Consensus

要約

人間にイメージを説明するよう依頼すると、人は千通りの異なる方法で説明する可能性があります。
従来、画像キャプション モデルは、単一の「最良の」(最も参照に近い)画像キャプションを生成するようにトレーニングされてきました。
残念ながら、そうすることで「情報が乏しい」キャプションが助長され、シーン内の他の潜在的に有用な情報が無視され、可能な詳細のサブセットのみに焦点が当てられます。
この研究では、シンプルでありながら斬新な方法である「委員会コンセンサスによる画像キャプション」(IC3) を紹介します。これは、複数のアノテーターの視点から高レベルの詳細をキャプチャする単一のキャプションを生成するように設計されています。
人間は、IC3 によって生成されたキャプションを 3 分の 2 以上の確率でベースライン SOTA モデルと同等以上に役立つと評価しており、IC3 は SOTA 自動呼び出しシステムのパフォーマンスを最大 84% 向上させることができ、人間が生成した単一の参照キャプションを上回り、重要な機能を示しています。
視覚的な説明に関して SOTA アプローチよりも改善されました。
コードは https://davidmchan.github.io/caption-by-committee/ で入手できます。

要約(オリジナル)

If you ask a human to describe an image, they might do so in a thousand different ways. Traditionally, image captioning models are trained to generate a single ‘best’ (most like a reference) image caption. Unfortunately, doing so encourages captions that are ‘informationally impoverished,’ and focus on only a subset of the possible details, while ignoring other potentially useful information in the scene. In this work, we introduce a simple, yet novel, method: ‘Image Captioning by Committee Consensus’ (IC3), designed to generate a single caption that captures high-level details from several annotator viewpoints. Humans rate captions produced by IC3 at least as helpful as baseline SOTA models more than two thirds of the time, and IC3 can improve the performance of SOTA automated recall systems by up to 84%, outperforming single human-generated reference captions, and indicating significant improvements over SOTA approaches for visual description. Code is available at https://davidmchan.github.io/caption-by-committee/

arxiv情報

著者 David M. Chan,Austin Myers,Sudheendra Vijayanarasimhan,David A. Ross,John Canny
発行日 2023-10-19 17:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク