Retrieval-augmented Image Captioning

要約

検索拡張言語生成と事前トレーニング済みの Vision and Language (V&L) エンコーダーに着想を得て、画像単独ではなく、入力画像とデータストアから取得した一連のキャプションを指定して文を生成する、画像キャプションへの新しいアプローチを提示します。
モデルのエンコーダーは、事前トレーニング済みの V&L BERT を使用して画像と取得したキャプションを共同で処理し、デコーダーはマルチモーダル エンコーダー表現に対応し、取得したキャプションから追加のテキスト証拠を利用します。
COCO データセットに関する実験結果は、この新しい視点から画像キャプションを効果的に定式化できることを示しています。
EXTRA という名前のモデルは、トレーニング データセットから取得したキャプションを使用するメリットがあり、再トレーニングを必要とせずに外部データセットを使用するメリットもあります。
アブレーション研究では、十分な数のキャプション (たとえば、k=5) を取得すると、キャプションの品質が向上することが示されています。
私たちの研究は、標準的な分類タスクではなく、生成タスクに事前トレーニング済みの V&L エンコーダーを使用することに貢献しています。

要約(オリジナル)

Inspired by retrieval-augmented language generation and pretrained Vision and Language (V&L) encoders, we present a new approach to image captioning that generates sentences given the input image and a set of captions retrieved from a datastore, as opposed to the image alone. The encoder in our model jointly processes the image and retrieved captions using a pretrained V&L BERT, while the decoder attends to the multimodal encoder representations, benefiting from the extra textual evidence from the retrieved captions. Experimental results on the COCO dataset show that image captioning can be effectively formulated from this new perspective. Our model, named EXTRA, benefits from using captions retrieved from the training dataset, and it can also benefit from using an external dataset without the need for retraining. Ablation studies show that retrieving a sufficient number of captions (e.g., k=5) can improve captioning quality. Our work contributes towards using pretrained V&L encoders for generative tasks, instead of standard classification tasks.

arxiv情報

著者 Rita Ramos,Desmond Elliott,Bruno Martins
発行日 2023-02-16 12:54:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク