UnMA-CapSumT: Unified and Multi-Head Attention-driven Caption Summarization Transformer

要約

画像キャプションは、画像の自然言語による説明を生成するもので、近年非常に人気が高まっています。
これにより、事実に基づいた様式化された画像キャプション モデルを開発するために、さまざまな深層学習技術が考案されました。
以前のモデルは、事実に基づくキャプションと様式化されたキャプションを個別に生成して、単一の画像に複数のキャプションを提供することに重点を置いていました。
これらから生成された説明には、語彙不足や繰り返しの問題があります。
私たちの知る限り、事実と様式化された(ロマンチックでユーモラスな)要素を含む画像の内容を説明するために、さまざまなキャプション方法を統合した説明を提供するような作品は存在しません。
これらの制限を克服するために、この論文では、新しい統合アテンションおよびマルチヘッド アテンション駆動のキャプション要約トランスフォーマー (UnMA-CapSumT) ベースのキャプション フレームワークを紹介します。
これは、修正されたアダプティブ アテンション ベースの事実画像キャプション モデル (MAA-FIC) とアテンション付きスタイル ファクター Bi-LSTM (SF-Bi-ALSTM) 駆動の様式化画像キャプション モデルによってそれぞれ生成された事実キャプションと様式化されたキャプションの両方を利用します。
SF-Bi-ALSTM ベースの様式化された IC モデルは、{ロマンスとユーモア} という 2 つの顕著な表現スタイルを生成します。
提案されたサマライザ UnMHA-ST は、入力画像の事実に基づく説明と様式化された説明の両方を組み合わせて、スタイル付きのリッチで一貫性のある要約キャプションを生成します。
提案された UnMHA-ST トランスフォーマは、提案された単語埋め込み fastText with Attendant Word Embedding (fTA-WE) とカバレッジ メカニズムの概念を備えたポインター ジェネレーター ネットワークを組み込むことにより、さまざまな言語スタイルを効率的に学習して要約し、語彙不足の問題や繰り返しの問題を解決します。
提案されたフレームワークの効率と有効性を証明するために、アブレーション研究をサポートしながら、Flickr8K と FlickrStyle10K のサブセットに対して広範な実験が行われています。

要約(オリジナル)

Image captioning is the generation of natural language descriptions of images which have increased immense popularity in the recent past. With this different deep-learning techniques are devised for the development of factual and stylized image captioning models. Previous models focused more on the generation of factual and stylized captions separately providing more than one caption for a single image. The descriptions generated from these suffer from out-of-vocabulary and repetition issues. To the best of our knowledge, no such work exists that provided a description that integrates different captioning methods to describe the contents of an image with factual and stylized (romantic and humorous) elements. To overcome these limitations, this paper presents a novel Unified Attention and Multi-Head Attention-driven Caption Summarization Transformer (UnMA-CapSumT) based Captioning Framework. It utilizes both factual captions and stylized captions generated by the Modified Adaptive Attention-based factual image captioning model (MAA-FIC) and Style Factored Bi-LSTM with attention (SF-Bi-ALSTM) driven stylized image captioning model respectively. SF-Bi-ALSTM-based stylized IC model generates two prominent styles of expression- {romance, and humor}. The proposed summarizer UnMHA-ST combines both factual and stylized descriptions of an input image to generate styled rich coherent summarized captions. The proposed UnMHA-ST transformer learns and summarizes different linguistic styles efficiently by incorporating proposed word embedding fastText with Attention Word Embedding (fTA-WE) and pointer-generator network with coverage mechanism concept to solve the out-of-vocabulary issues and repetition problem. Extensive experiments are conducted on Flickr8K and a subset of FlickrStyle10K with supporting ablation studies to prove the efficiency and efficacy of the proposed framework.

arxiv情報

著者 Dhruv Sharma,Chhavi Dhiman,Dinesh Kumar
発行日 2024-12-16 14:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク