CIC-BART-SSA: Controllable Image Captioning with Structured Semantic Augmentation

要約

Controllable Image Captioning (CIC) は、エンドユーザーが提供する情報 (関心のある領域、エンティティ、イベントなど) に基づいて、画像の自然言語記述を生成することを目的としています。
ただし、利用可能な画像言語データセットには主に画像全体を説明するキャプションが含まれているため、領域や関係のサブセットに対応できる可能性がある CIC モデルのトレーニングには効果的ではありません。
この課題に取り組むために、画像に関連付けられた既存のキャプションのセットの上に構築された統一された構造化された意味表現を使用して、焦点を絞った視覚的に根拠のある追加のキャプションをサンプリングする新しい完全自動方法を提案します。
私たちは、言語を超えたグラフベースの意味論的形式主義である抽象意味表現 (AMR) を活用して、現在の手法の一般的な空間関係のみに焦点を当てたものを超えて、エンティティ間の考えられるすべての空間意味論的関係をエンコードします。
この構造化セマンティック拡張 (SSA) フレームワークを使用して、既存の画像キャプション データセットを根拠のある制御キャプションで拡張し、その空間的および意味的多様性と焦点範囲を拡大します。
次に、CIC タスクに特化して調整された新しいモデル CIC-BART-SSA を開発し、SSA の多様なデータセットから制御信号を供給します。
我々は、SOTA CIC モデルと比較して、CIC-BART-SSA が多様性とテキスト品質の点で優れ、制御性の点で競争力のあるキャプションを生成し、重要なことに、効率的に一般化することによって、広範な制御キャプションと高度に集中した制御キャプションのパフォーマンス間のギャップを最小限に抑えることを経験的に示しています。
挑戦的な、非常に焦点を絞ったシナリオに対応します。
コードは https://github.com/SamsungLabs/CIC-BART-SSA で入手できます。

要約(オリジナル)

Controllable Image Captioning (CIC) aims at generating natural language descriptions for an image, conditioned on information provided by end users, e.g., regions, entities or events of interest. However, available image-language datasets mainly contain captions that describe the entirety of an image, making them ineffective for training CIC models that can potentially attend to any subset of regions or relationships. To tackle this challenge, we propose a novel, fully automatic method to sample additional focused and visually grounded captions using a unified structured semantic representation built on top of the existing set of captions associated with an image. We leverage Abstract Meaning Representation (AMR), a cross-lingual graph-based semantic formalism, to encode all possible spatio-semantic relations between entities, beyond the typical spatial-relations-only focus of current methods. We use this Structured Semantic Augmentation (SSA) framework to augment existing image-caption datasets with the grounded controlled captions, increasing their spatial and semantic diversity and focal coverage. We then develop a new model, CIC-BART-SSA, specifically tailored for the CIC task, that sources its control signals from SSA-diversified datasets. We empirically show that, compared to SOTA CIC models, CIC-BART-SSA generates captions that are superior in diversity and text quality, are competitive in controllability, and, importantly, minimize the gap between broad and highly focused controlled captioning performance by efficiently generalizing to the challenging highly focused scenarios. Code is available at https://github.com/SamsungLabs/CIC-BART-SSA.

arxiv情報

著者 Kalliopi Basioti,Mohamed A. Abdelsalam,Federico Fancellu,Vladimir Pavlovic,Afsaneh Fazly
発行日 2024-07-17 16:40:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク