The Pyramid of Captions

要約

画像キャプションを表現学習タスクとみなすことにより、画像キャプションのための正式な情報理論フレームワークを導入します。
私たちのフレームワークでは、タスクの十分性、最小限の冗長性、人間による解釈可能性という 3 つの主要な目標を定義しています。
この基盤に基づいて、我々は新しいキャプションのピラミッド (PoCa) 手法を提案します。この手法は、ズームインされた画像パッチのローカライズされたキャプションを生成し、大規模な言語モデルを使用してそれらをグローバル キャプション情報と統合することによってキャプション ピラミッドを構築します。
このアプローチは、ローカル パッチを詳細に検査することで、幻覚を修正するか欠落している詳細を追加することにより、エラーのリスクを軽減し、グローバル キャプションの不正確さに対処できるという直観を利用しています。
私たちの理論的枠組みに基づいて、この直感を形式化し、特定の仮定の下で PoCa の有効性を示す形式的な証明を提供します。
さまざまな画像キャプション モデルと大規模な言語モデルを使用した実証テストでは、PoCa が一貫して、より有益で意味的に整合したキャプションを生成し、簡潔さと解釈可能性を維持することが示されています。

要約(オリジナル)

We introduce a formal information-theoretic framework for image captioning by regarding it as a representation learning task. Our framework defines three key objectives: task sufficiency, minimal redundancy, and human interpretability. Building upon this foundation, we propose a novel Pyramid of Captions (PoCa) method, which constructs caption pyramids by generating localized captions for zoomed-in image patches and integrating them with global caption information using large language models. This approach leverages intuition that the detailed examination of local patches can reduce error risks and address inaccuracies in global captions, either by correcting the hallucination or adding missing details. Based on our theoretical framework, we formalize this intuition and provide formal proof demonstrating the effectiveness of PoCa under certain assumptions. Empirical tests with various image captioning models and large language models show that PoCa consistently yields more informative and semantically aligned captions, maintaining brevity and interpretability.

arxiv情報

著者 Delong Chen,Samuel Cahyawijaya,Etsuko Ishii,Ho Shu Chan,Yejin Bang,Pascale Fung
発行日 2024-05-01 12:49:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク