EAMA : Entity-Aware Multimodal Alignment Based Approach for News Image Captioning

要約

ニュース画像のキャプションには、ニュース画像と関連するニュース記事を含む、エンティティが豊富な有益なキャプションを生成するモデルが必要です。
マルチモーダル大規模言語モデル (MLLM) は、さまざまな視覚言語タスクに対処する際に優れた機能を実証してきましたが、現在の MLLM では、ニュース画像のキャプション タスクにおけるエンティティ情報の処理に依然として限界があることが判明しました。
さらに、MLLM には長い入力を処理する機能がありますが、高品質のニュース画像キャプションを生成するには、テキスト入力情報の十分性と簡潔さとの間のトレードオフが依然として必要です。
MLLM の可能性を探求し、発見した問題に対処するために、ニュース画像のキャプションに対するエンティティ認識マルチモーダル アライメント ベースのアプローチを提案します。
私たちのアプローチでは、まずバランス トレーニング戦略を通じて MLLM を 2 つの追加調整タスク (エンティティ認識文選択タスクとエンティティ選択タスク、およびニュース画像キャプション タスク) と調整して、マルチモーダル エンティティ情報を処理する機能を強化します。
調整された MLLM は、ニュース画像のキャプションを生成する際に、明示的に抽出した追加のエンティティ関連情報を利用してテキスト入力を補完します。
私たちのアプローチは、GoodNews データセット (72.33 -> 88.39) および NYTimes800k データセット (70.83 -> 85.61) の CIDEr スコアにおいて、以前のすべてのモデルよりも良い結果を達成しました。

要約(オリジナル)

News image captioning requires model to generate an informative caption rich in entities, with the news image and the associated news article. Though Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in addressing various vision-language tasks, our research finds that current MLLMs still bear limitations in handling entity information on news image captioning task. Besides, while MLLMs have the ability to process long inputs, generating high-quality news image captions still requires a trade-off between sufficiency and conciseness of textual input information. To explore the potential of MLLMs and address problems we discovered, we propose : an Entity-Aware Multimodal Alignment based approach for news image captioning. Our approach first aligns the MLLM through Balance Training Strategy with two extra alignment tasks: Entity-Aware Sentence Selection task and Entity Selection task, together with News Image Captioning task, to enhance its capability in handling multimodal entity information. The aligned MLLM will utilizes the additional entity-related information it explicitly extracts to supplement its textual input while generating news image captions. Our approach achieves better results than all previous models in CIDEr score on GoodNews dataset (72.33 -> 88.39) and NYTimes800k dataset (70.83 -> 85.61).

arxiv情報

著者 Junzhe Zhang,Huixuan Zhang,Xunjian Yin,Xiaojun Wan
発行日 2024-04-30 08:13:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク