A-CAP: Anticipation Captioning with Commonsense Knowledge

要約

タイトル:A-CAP: Anticipation Captioning with Commonsense Knowledge
要約:
– 人間は、時間の経過とともに得られる稀なビジュアル情報を基に未来を推論する能力を持っています。
– この能力を模倣するため、Anticipation Captioningという新しいタスクを導入し、観測された一連の画像を使って未知の画像に対するキャプションを生成することを目的とします。
– この新しいタスクに対処するために、A-CAPというモデルを提唱し、事前学習されたビジョン・ランゲージモデルに常識を組み込むことで、キャプションを予測することができます。
– 定制されたビジュアルストーリーテリングデータセットにおける定性的および定量的評価を通じて、A-CAPは他の画像キャプション手法よりも優れた性能を発揮し、アンティシペーションキャプショニングの強力なベースラインを確立します。
– また、このタスクに固有の課題にも取り組みます。

要約(オリジナル)

Humans possess the capacity to reason about the future based on a sparse collection of visual cues acquired over time. In order to emulate this ability, we introduce a novel task called Anticipation Captioning, which generates a caption for an unseen oracle image using a sparsely temporally-ordered set of images. To tackle this new task, we propose a model called A-CAP, which incorporates commonsense knowledge into a pre-trained vision-language model, allowing it to anticipate the caption. Through both qualitative and quantitative evaluations on a customized visual storytelling dataset, A-CAP outperforms other image captioning methods and establishes a strong baseline for anticipation captioning. We also address the challenges inherent in this task.

arxiv情報

著者 Duc Minh Vo,Quoc-An Luong,Akihiro Sugimoto,Hideki Nakayama
発行日 2023-04-13 15:10:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク