IFCap: Image-like Retrieval and Frequency-based Entity Filtering for Zero-shot Captioning

要約

画像キャプションの最近の進歩により、画像とテキストのペアのデータの制限を克服するために、テキストのみのトレーニング方法が模索されています。
しかし、既存のテキストのみのトレーニング方法では、トレーニング中にテキスト データを使用する場合と推論中に画像を使用する場合との間のモダリティのギャップが見落とされることがよくあります。
この問題に対処するために、私たちは、テキストの特徴を視覚的に関連する特徴と並べてモダリティのギャップを軽減する、画像様検索と呼ばれる新しいアプローチを提案します。
私たちの方法では、取得されたキャプションを入力特徴と統合するフュージョン モジュールを設計することにより、生成されたキャプションの精度がさらに向上します。
さらに、キャプションの品質を大幅に向上させる周波数ベースのエンティティ フィルタリング技術を導入します。
これらのメソッドを、IFCap ($\textbf{I}$mage-like Retrieval および $\textbf{F}$requency-based Entity Filtering for Zero-shot $\textbf{Cap}) と呼ぶ統一フレームワークに統合します。
$tioning)。
広範な実験を通じて、私たちの単純かつ強力なアプローチはその有効性を実証し、画像キャプションとビデオキャプションの両方において、テキストのみのトレーニングに基づくゼロショットキャプションと比較して、最先端の方法を大幅に上回りました。

要約(オリジナル)

Recent advancements in image captioning have explored text-only training methods to overcome the limitations of paired image-text data. However, existing text-only training methods often overlook the modality gap between using text data during training and employing images during inference. To address this issue, we propose a novel approach called Image-like Retrieval, which aligns text features with visually relevant features to mitigate the modality gap. Our method further enhances the accuracy of generated captions by designing a Fusion Module that integrates retrieved captions with input features. Additionally, we introduce a Frequency-based Entity Filtering technique that significantly improves caption quality. We integrate these methods into a unified framework, which we refer to as IFCap ($\textbf{I}$mage-like Retrieval and $\textbf{F}$requency-based Entity Filtering for Zero-shot $\textbf{Cap}$tioning). Through extensive experimentation, our straightforward yet powerful approach has demonstrated its efficacy, outperforming the state-of-the-art methods by a significant margin in both image captioning and video captioning compared to zero-shot captioning based on text-only training.

arxiv情報

著者 Soeun Lee,Si-Woo Kim,Taewhan Kim,Dong-Jin Kim
発行日 2024-09-26 16:47:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク