Entity-Aware Multimodal Alignment Framework for News Image Captioning


ニュース画像のキャプション タスクは、画像キャプション タスクの変形であり、ニュース画像と関連するニュース記事を含むより有益なキャプションを生成するモデルを必要とします。
ただし、私たちの実験によると、一般的な MLLM はゼロショット設定でエンティティを生成するのが苦手です。
ニュース画像のキャプション データセットを微調整しただけでは、エンティティ情報を処理する能力は依然として制限されています。
マルチモーダルエンティティ情報を処理するためのより強力なモデルを取得するために、2 つのマルチモーダルエンティティ認識調整タスクと、モデルを調整してニュース画像のキャプションを生成する調整フレームワークを設計します。
私たちの手法は、GoodNews データセットの CIDEr スコア (72.33 -> 86.29) および NYTimes800k データセットの (70.83 -> 85.61) において、以前の最先端モデルよりも優れた結果を達成しました。


News image captioning task is a variant of image captioning task which requires model to generate a more informative caption with news image and the associated news article. Multimodal Large Language models have developed rapidly in recent years and is promising in news image captioning task. However, according to our experiments, common MLLMs are not good at generating the entities in zero-shot setting. Their abilities to deal with the entities information are still limited after simply fine-tuned on news image captioning dataset. To obtain a more powerful model to handle the multimodal entity information, we design two multimodal entity-aware alignment tasks and an alignment framework to align the model and generate the news image captions. Our method achieves better results than previous state-of-the-art models in CIDEr score (72.33 -> 86.29) on GoodNews dataset and (70.83 -> 85.61) on NYTimes800k dataset.


著者 Junzhe Zhang,Huixuan Zhang,Xiaojun Wan
発行日 2024-02-29 18:03:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク