要約
近年、画像条件付きテキスト生成は急速に進歩していますが、画像キャプションは依然として幻覚という根本的な問題、つまり与えられた画像から推測できない偽の詳細の生成に悩まされています。
画像キャプションにおける幻覚を軽減するための専用の方法は、主に閉じられた語彙オブジェクトのトークンに焦点を当てており、実際に発生するほとんどの種類の幻覚は無視されています。
この研究では、強化学習 (RL) の進歩を活用して、オープンワールド設定における幻覚のシーケンスレベルの性質に対処するアプローチである MOCHa を提案します。
入力画像に対するキャプションの忠実度を最適化するために、グラウンドトゥルースの参照キャプションをプロキシとして活用し、生成されたキャプションの論理的一貫性を測定します。
ただし、キャプションの忠実度だけを最適化しても、世代の意味論的な適切性を維持することはできません。
したがって、強力な監視を必要とせずに、これらの品質を共同でターゲットにする多目的報酬関数を提案します。
これらの目標をフレームワークで同時に最適化し、さまざまなスケールのさまざまなキャプション モデルのパフォーマンスを向上できることを実証します。
当社の定性的および定量的結果は、確立されたさまざまな指標にわたって MOCHA の優れたパフォーマンスを示しています。
また、オープンボキャブラリー環境における私たちの方法の利点も示します。
この目的を達成するために、私たちは OpenCHAIR を提供します。これは、生成基盤モデルを使用して構築された、画像キャプション モデルにおける開放語彙幻覚を定量化するための新しいベンチマークです。
コード、ベンチマーク、トレーニング済みモデルをリリースします。
要約(オリジナル)
While recent years have seen rapid progress in image-conditioned text generation, image captioning still suffers from the fundamental issue of hallucinations, the generation of spurious details that cannot be inferred from the given image. Dedicated methods for reducing hallucinations in image captioning largely focus on closed-vocabulary object tokens, ignoring most types of hallucinations that occur in practice. In this work, we propose MOCHa, an approach that harnesses advancements in reinforcement learning (RL) to address the sequence-level nature of hallucinations in an open-world setup. To optimize for caption fidelity to the input image, we leverage ground-truth reference captions as proxies to measure the logical consistency of generated captions. However, optimizing for caption fidelity alone fails to preserve the semantic adequacy of generations; therefore, we propose a multi-objective reward function that jointly targets these qualities, without requiring any strong supervision. We demonstrate that these goals can be simultaneously optimized with our framework, enhancing performance for various captioning models of different scales. Our qualitative and quantitative results demonstrate MOCHa’s superior performance across various established metrics. We also demonstrate the benefit of our method in the open-vocabulary setting. To this end, we contribute OpenCHAIR, a new benchmark for quantifying open-vocabulary hallucinations in image captioning models, constructed using generative foundation models. We will release our code, benchmark, and trained models.
arxiv情報
著者 | Assaf Ben-Kish,Moran Yanuka,Morris Alper,Raja Giryes,Hadar Averbuch-Elor |
発行日 | 2023-12-06 17:28:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google