要約
画像キャプション用の検索拡張モデルの最近の進歩は、強力なドメイン転送機能を備えた効率的で軽量なモデルに関連するキャプションを取得することの重要性を浮き彫りにしています。
これらのモデルは検索拡張の成功を示していますが、実際には検索モデルはまだ完璧には程遠いです。
取得した情報はモデル生成に誤解を与え、パフォーマンスに悪影響を及ぼす可能性があります。
この論文では、SmallCap 検索拡張キャプション モデルの堅牢性を分析します。
私たちの分析では、SmallCap は取得されたキャプションの大部分に現れるトークンに敏感であることが示されており、統合された勾配アトリビューションにより、それらのトークンが最終的なキャプションにコピーされる可能性が高いことが示されています。
これらの結果を考慮して、より多様なセットから取得したキャプションをサンプリングすることによってモデルをトレーニングすることを提案します。
これにより、モデルが大部分のトークンをコピーすることを学習する可能性が減り、ドメイン内およびドメイン間のパフォーマンスの両方が効果的に向上します。
要約(オリジナル)
Recent advancements in retrieval-augmented models for image captioning highlight the significance of retrieving related captions for efficient, lightweight models with strong domain-transfer capabilities. While these models demonstrate the success of retrieval augmentation, retrieval models are still far from perfect in practice. Retrieved information can sometimes mislead the model generation, negatively impacting performance. In this paper, we analyze the robustness of the SmallCap retrieval-augmented captioning model. Our analysis shows that SmallCap is sensitive to tokens that appear in the majority of the retrieved captions, and integrated gradients attribution shows that those tokens are likely copied into the final caption. Given these findings, we propose to train the model by sampling retrieved captions from more diverse sets. This reduces the probability that the model learns to copy majority tokens and improves both in-domain and cross-domain performance effectively.
arxiv情報
著者 | Wenyan Li,Jiaang Li,Rita Ramos,Raphael Tang,Desmond Elliott |
発行日 | 2024-06-04 12:41:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google