Tri-FusionNet: Enhancing Image Description Generation with Transformer-based Fusion Network and Dual Attention Mechanism

要約

画像の説明の生成は、視覚コンテンツのアクセシビリティとAIの理解に不可欠です。
深い学習の最近の進歩により、自然言語の処理とコンピュータービジョンが大幅に改善されました。
この作業では、トランスモジュールを統合する新しい画像説明生成モデルであるTri-FusionNetを提案します:Dual Attentionメカニズムを備えたVision Transformer(VIT)エンコーダーモジュール、堅牢に最適化されたBERTアプローチ(Roberta)デコーダーモジュール、および対照的な言語イメージ(CLIP)統合モジュール。
二重の注意を払って強化されたVITエンコーダーは、関連する空間領域と言語コンテキストに焦点を当て、画像機能の抽出を改善します。
Robertaデコーダーは、正確なテキストの説明を生成するために採用されています。
Clipの統合モジュールは、対照的な学習を通じて視覚データとテキストデータを調整し、両方のモダリティの効果的な組み合わせを確保します。
このVit、Roberta、およびClipの融合は、二重の注意とともに、モデルがより正確で、文脈的に豊富で柔軟な説明を生成できるようにします。
提案されたフレームワークは、FlickR30KおよびFlickR8Kデータセットで競争力のあるパフォーマンスを示しました。BLEUスコアは0.767から0.456および0.784から0.479、1.679および1.483のサイダースコア、0.478および0.358のMeteorスコア、および0.567および0.789のRouge-Lスコアの範囲です。
MS-COCOでは、フレームワークでは、0.893(B-1)、0.821(B-2)、0.794(B-3)、および0.725(B-4)のBLEUスコアが得られました。
結果は、高品質の画像の説明を生成する際のTri-FusionNetの有効性を示しています。

要約(オリジナル)

Image description generation is essential for accessibility and AI understanding of visual content. Recent advancements in deep learning have significantly improved natural language processing and computer vision. In this work, we propose Tri-FusionNet, a novel image description generation model that integrates transformer modules: a Vision Transformer (ViT) encoder module with dual-attention mechanism, a Robustly Optimized BERT Approach (RoBERTa) decoder module, and a Contrastive Language-Image Pre-Training (CLIP) integrating module. The ViT encoder, enhanced with dual attention, focuses on relevant spatial regions and linguistic context, improving image feature extraction. The RoBERTa decoder is employed to generate precise textual descriptions. CLIP’s integrating module aligns visual and textual data through contrastive learning, ensuring effective combination of both modalities. This fusion of ViT, RoBERTa, and CLIP, along with dual attention, enables the model to produce more accurate, contextually rich, and flexible descriptions. The proposed framework demonstrated competitive performance on the Flickr30k and Flickr8k datasets, with BLEU scores ranging from 0.767 to 0.456 and 0.784 to 0.479, CIDEr scores of 1.679 and 1.483, METEOR scores of 0.478 and 0.358, and ROUGE-L scores of 0.567 and 0.789, respectively. On MS-COCO, the framework obtained BLEU scores of 0.893 (B-1), 0.821 (B-2), 0.794 (B-3), and 0.725 (B-4). The results demonstrate the effectiveness of Tri-FusionNet in generating high-quality image descriptions.

arxiv情報

著者 Lakshita Agarwal,Bindu Verma
発行日 2025-04-23 14:33:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク