EAMA : Entity-Aware Multimodal Alignment Based Approach for News Image Captioning

要約

ニュース画像のキャプション付けには、ニュース画像と関連するニュース記事を含む、エンティティの豊富な情報量の多いキャプションを生成するモデルが必要である。マルチモーダル大規模言語モデル(MLLM)は、様々な視覚言語タスクに対応する顕著な能力を示しているが、我々の研究では、現在のMLLMは、ニュース画像のキャプションタスクにおけるエンティティ情報の処理にはまだ限界があることを発見した。また、MLLMは長い入力を処理する能力を持つが、高品質のニュース画像キャプションを生成するには、テキスト入力情報の十分性と簡潔性の間のトレードオフが依然として必要である。MLLMの可能性を追求し、我々が発見した問題に対処するために、我々は、ニュース画像キャプション作成のための、Entity-Aware Multimodal Alignmentに基づくアプローチを提案する。本アプローチでは、まず2つのアライメントタスクを追加したバランス学習戦略によりMLLMのアライメントを行う:そのタスクとは、エンティティを考慮した文選択タスクとエンティティ選択タスクである。整列されたMLLMは、ニュース画像のキャプションを生成する際に、テキスト入力を補完するために明示的に抽出されたエンティティ関連の追加情報を利用する。我々のアプローチは、GoodNewsデータセット(72.33 -> 88.39)とNYTimes800kデータセット(70.83 -> 85.61)のCIDErスコアにおいて、全ての先行モデルを上回る結果を達成した。

要約(オリジナル)

News image captioning requires model to generate an informative caption rich in entities, with the news image and the associated news article. Though Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in addressing various vision-language tasks, our research finds that current MLLMs still bear limitations in handling entity information on news image captioning task. Besides, while MLLMs have the ability to process long inputs, generating high-quality news image captions still requires a trade-off between sufficiency and conciseness of textual input information. To explore the potential of MLLMs and address problems we discovered, we propose : an Entity-Aware Multimodal Alignment based approach for news image captioning. Our approach first aligns the MLLM through Balance Training Strategy with two extra alignment tasks: Entity-Aware Sentence Selection task and Entity Selection task, together with News Image Captioning task, to enhance its capability in handling multimodal entity information. The aligned MLLM will utilizes the additional entity-related information it explicitly extracts to supplement its textual input while generating news image captions. Our approach achieves better results than all previous models in CIDEr score on GoodNews dataset (72.33 -> 88.39) and NYTimes800k dataset (70.83 -> 85.61).

arxiv情報

著者 Junzhe Zhang,Huixuan Zhang,Xunjian Yin,Xiaojun Wan
発行日 2024-05-06 14:41:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク