Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning

要約

画像キャプション用の検索拡張モデルの最近の進歩により、強力なドメイン転送機能を備えた効率的で軽量なモデルに関連するキャプションを取得する利点が浮き彫りになっています。
これらのモデルは検索拡張の成功を示していますが、実際には検索モデルはまだ完璧には程遠いです。取得された情報がモデルを誤解させる可能性があり、その結果、間違った生成やパフォーマンスの低下が発生する可能性があります。
この論文では、検索拡張キャプション モデル SmallCap の堅牢性を分析します。
私たちの分析によると、このモデルは取得されたキャプションの大部分に現れるトークンに敏感であり、入力属性はそれらのトークンが生成された出力にコピーされる可能性が高いことを示しています。
これらの結果を考慮して、より多様なセットから取得したキャプションをサンプリングすることによってモデルをトレーニングすることを提案します。
これにより、モデルが大部分のトークンをコピーすることを学習する可能性が減り、ドメイン内とドメイン間のパフォーマンスの両方が向上します。

要約(オリジナル)

Recent advances in retrieval-augmented models for image captioning highlight the benefit of retrieving related captions for efficient, lightweight models with strong domain-transfer capabilities. While these models demonstrate the success of retrieval augmentation, retrieval models are still far from perfect in practice: the retrieved information can sometimes mislead the model, resulting in incorrect generation and worse performance. In this paper, we analyze the robustness of a retrieval-augmented captioning model SmallCap. Our analysis shows that the model is sensitive to tokens that appear in the majority of the retrieved captions, and the input attribution shows that those tokens are likely copied into the generated output. Given these findings, we propose to train the model by sampling retrieved captions from more diverse sets. This decreases the chance that the model learns to copy majority tokens, and improves both in-domain and cross-domain performance.

arxiv情報

著者 Wenyan Li,Jiaang Li,Rita Ramos,Raphael Tang,Desmond Elliott
発行日 2024-08-06 10:10:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク