Context-aware Visual Storytelling with Visual Prefix Tuning and Contrastive Learning

要約

ビジュアル ストーリーテリング システムは、一連の画像から複数の文章からなるストーリーを生成します。
このタスクでは、コンテキスト情報をキャプチャし、視覚的なバリエーションを橋渡しすることが、さらなる課題をもたらします。
私たちは、事前トレーニング済みの基礎モデルの一般化機能を活用し、一貫性を高めるためにコンテキストを組み込みながら、モダリティを接続する軽量のビジョン言語マッピング ネットワークのみをトレーニングする、シンプルかつ効果的なフレームワークを提案します。
視覚的な関連性とストーリーの有益性も向上させる、マルチモーダルな対照的な目標を導入します。
自動メトリクスと人間による評価の両方にわたる広範な実験結果は、私たちのフレームワークによって生成されたストーリーが多様で、一貫性があり、有益で興味深いものであることを示しています。

要約(オリジナル)

Visual storytelling systems generate multi-sentence stories from image sequences. In this task, capturing contextual information and bridging visual variation bring additional challenges. We propose a simple yet effective framework that leverages the generalization capabilities of pretrained foundation models, only training a lightweight vision-language mapping network to connect modalities, while incorporating context to enhance coherence. We introduce a multimodal contrastive objective that also improves visual relevance and story informativeness. Extensive experimental results, across both automatic metrics and human evaluations, demonstrate that the stories generated by our framework are diverse, coherent, informative, and interesting.

arxiv情報

著者 Yingjin Song,Denis Paperno,Albert Gatt
発行日 2024-08-12 16:15:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク