Caption Generation on Scenes with Seen and Unseen Object Categories

要約

画像キャプションの生成は、視覚と言語の領域が交差する最も困難な問題の1つである。本研究では、入力シーンに、対応する視覚的またはテキスト的な学習例がない視覚的オブジェクトが含まれる可能性がある現実的なキャプション作成課題を提案する。この課題に対して、我々は、見たクラスと見たことのないクラスの両方のインスタンスを認識・局在化するための1段の一般化ゼロショット検出モデルと、検出値を文に変換するテンプレートベースのキャプションモデルから成る検出駆動型アプローチを提案する。キャプション作成に必要な情報を提供する一般化ゼロショット検出モデルを改良するために、クラス間の意味的類似性の観点から有効なクラス表現を定義し、その特殊な構造を利用して有効な未視聴・既視クラス信頼度スコア校正機構を構築する。また、生成された文の視覚的内容と非視覚的内容を別々に測定することにより、キャプション出力に対する更なる洞察を提供する新しい評価指標を提案する。我々の実験は、提案するゼロショット設定におけるキャプションの研究の重要性を強調し、提案する検出駆動型ゼロショットキャプション手法の有効性を検証するものである。

要約(オリジナル)

Image caption generation is one of the most challenging problems at the intersection of vision and language domains. In this work, we propose a realistic captioning task where the input scenes may incorporate visual objects with no corresponding visual or textual training examples. For this problem, we propose a detection-driven approach that consists of a single-stage generalized zero-shot detection model to recognize and localize instances of both seen and unseen classes, and a template-based captioning model that transforms detections into sentences. To improve the generalized zero-shot detection model, which provides essential information for captioning, we define effective class representations in terms of class-to-class semantic similarities, and leverage their special structure to construct an effective unseen/seen class confidence score calibration mechanism. We also propose a novel evaluation metric that provides additional insights for the captioning outputs by separately measuring the visual and non-visual contents of generated sentences. Our experiments highlight the importance of studying captioning in the proposed zero-shot setting, and verify the effectiveness of the proposed detection-driven zero-shot captioning approach.

arxiv情報

著者 Berkan Demirel,Ramazan Gokberk Cinbis
発行日 2022-07-01 11:47:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク