要約
現在のキャプション手法は、名前付きエンティティやコンテキスト情報など、現実世界の知識が欠如した、正確ではあるものの「一般的な」説明を生成する傾向があります。
Vision-Language Pre-Training (VLP) モデルが大規模な Web 収集データからそのような大量の知識を習得することを考慮すると、VLP モデルの一般化可能性を利用して画像の説明に知識を組み込むことが期待されます。
ただし、VLP モデルの使用は課題に直面しています。ゼロショット推論は、低品質の記述につながる知識の幻覚に悩まされますが、下流タスクの微調整における一般的なバイアスにより、VLP モデルによる知識の表現が妨げられます。
これらの懸念に対処するために、微調整中にトレーニング前の知識を保持できるようにする、知識ガイド付きリプレイ (K-Replay) と呼ばれるシンプルかつ効果的な方法を提案します。
私たちのアプローチは 2 つの部分で構成されます。(1) 自動的に収集された再生サンプルに対する知識予測タスク。知識に関する VLP モデルの記憶を継続的に目覚めさせ、モデルが一般的なパターンに崩壊するのを防ぎます。
(2) 生成された記述の忠実性を向上させるための知識蒸留制約により、知識幻覚が軽減されます。
知識を強化した説明を評価するために、ランドマーク、有名なブランド、特別な食べ物、映画の登場人物に関する知識を含む、新しいキャプションベンチマーク KnowCap を構築します。
実験結果は、私たちのアプローチが知識を説明に効果的に組み込んでおり、強力な VLP ベースラインを CIDEr スコアで 20.9 ポイント (78.7 -> 99.6)、知識認識精度で 20.5 パーセント (34.0% -> 54.5%) 上回っていることを示しています。
コードとデータは https://github.com/njucckevin/KnowCap で入手できます。
要約(オリジナル)
Current captioning approaches tend to generate correct but ‘generic’ descriptions that lack real-world knowledge, e.g., named entities and contextual information. Considering that Vision-Language Pre-Training (VLP) models master massive such knowledge from large-scale web-harvested data, it is promising to utilize the generalizability of VLP models to incorporate knowledge into image descriptions. However, using VLP models faces challenges: zero-shot inference suffers from knowledge hallucination that leads to low-quality descriptions, but the generic bias in downstream task fine-tuning hinders the VLP model from expressing knowledge. To address these concerns, we propose a simple yet effective method called Knowledge-guided Replay (K-Replay), which enables the retention of pre-training knowledge during fine-tuning. Our approach consists of two parts: (1) a knowledge prediction task on automatically collected replay exemplars to continuously awaken the VLP model’s memory about knowledge, thus preventing the model from collapsing into the generic pattern; (2) a knowledge distillation constraint to improve the faithfulness of generated descriptions hence alleviating the knowledge hallucination. To evaluate knowledge-enhanced descriptions, we construct a novel captioning benchmark KnowCap, containing knowledge of landmarks, famous brands, special foods and movie characters. Experimental results show that our approach effectively incorporates knowledge into descriptions, outperforming strong VLP baseline by 20.9 points (78.7->99.6) in CIDEr score and 20.5 percentage points (34.0%->54.5%) in knowledge recognition accuracy. Our code and data is available at https://github.com/njucckevin/KnowCap.
arxiv情報
著者 | Kanzhi Cheng,Wenpo Song,Zheng Ma,Wenhao Zhu,Zixuan Zhu,Jianbing Zhang |
発行日 | 2023-08-02 13:09:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google