Mitigating Open-Vocabulary Caption Hallucinations

要約

近年、画像条件付きテキスト生成は急速に進歩していますが、画像キャプションは依然として幻覚という根本的な問題、つまり、与えられた画像から推測できない偽の詳細の生成に悩まされています。
既存の方法は主に、画像キャプションにおける幻覚を緩和または評価するためにクローズド語彙オブジェクトリストを使用しており、実際に発生する幻覚のロングテールの性質を無視しています。
この目的を達成するために、我々は、自由な語彙環境における画像キャプションにおける幻覚に対処するためのフレームワークを提案する。
私たちのフレームワークには、生成基盤モデルを活用して画像キャプション用のオープンボキャブラリーオブジェクト幻覚を評価する新しいベンチマーク OpenCHAIR が含まれており、多様性と精度の両方で人気のある同様のサイズの CHAIR ベンチマークを上回ります。
さらに、クローズドオブジェクトリストを使用せずにオープン語彙幻覚を軽減するために、強化学習の進歩を活用したアプローチであるMOCHAを提案します。
私たちの多目的報酬関数は、強力な監視を必要とせずに、世代における忠実性と適切性の間のトレードオフを明示的にターゲットにしています。
MOCHA は、OpenCHAIR ベンチマークやその他の既存の指標によって取得された、さまざまな画像キャプション モデルを改善します。
コードとモデルを公開します。

要約(オリジナル)

While recent years have seen rapid progress in image-conditioned text generation, image captioning still suffers from the fundamental issue of hallucinations, namely, the generation of spurious details that cannot be inferred from the given image. Existing methods largely use closed-vocabulary object lists to mitigate or evaluate hallucinations in image captioning, ignoring the long-tailed nature of hallucinations that occur in practice. To this end, we propose a framework for addressing hallucinations in image captioning in the open-vocabulary setting. Our framework includes a new benchmark, OpenCHAIR, that leverages generative foundation models to evaluate open-vocabulary object hallucinations for image captioning, surpassing the popular and similarly-sized CHAIR benchmark in both diversity and accuracy. Furthermore, to mitigate open-vocabulary hallucinations without using a closed object list, we propose MOCHa, an approach harnessing advancements in reinforcement learning. Our multi-objective reward function explicitly targets the trade-off between fidelity and adequacy in generations without requiring any strong supervision. MOCHa improves a large variety of image captioning models, as captured by our OpenCHAIR benchmark and other existing metrics. We will release our code and models.

arxiv情報

著者 Assaf Ben-Kish,Moran Yanuka,Morris Alper,Raja Giryes,Hadar Averbuch-Elor
発行日 2024-04-19 14:29:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク