要約
多言語画像キャプションは最近、大規模な機械翻訳データを使用したトレーニングによって取り組まれていますが、これは高価でノイズが多く、時間のかかるプロセスです。
多言語キャプション データを必要とせずに、取得したキャプションで言語モデルをプロンプトすることによって機能する、画像ブラインドの少数ショット多言語キャプション モデルである LMCap を提案します。
具体的には、標準のエンコーダ/デコーダ パラダイムに従う代わりに、画像が与えられた場合、LMCap はまず多言語 CLIP エンコーダを使用して類似画像のキャプションを取得します。
これらのキャプションは、目的の言語でキャプションを生成するために、XGLM デコーダーのプロンプトに結合されます。
言い換えれば、生成モデルは画像を直接処理せず、代わりに取得したキャプションを処理します。
地理的に多様な画像の XM3600 データセットでの実験では、キャプション データに対する教師ありトレーニングを必要とせずに、このモデルが完全に教師付きの多言語キャプション モデルと競合できることが示されました。
要約(オリジナル)
Multilingual image captioning has recently been tackled by training with large-scale machine translated data, which is an expensive, noisy, and time-consuming process. Without requiring any multilingual caption data, we propose LMCap, an image-blind few-shot multilingual captioning model that works by prompting a language model with retrieved captions. Specifically, instead of following the standard encoder-decoder paradigm, given an image, LMCap first retrieves the captions of similar images using a multilingual CLIP encoder. These captions are then combined into a prompt for an XGLM decoder, in order to generate captions in the desired language. In other words, the generation model does not directly process the image, instead processing retrieved captions. Experiments on the XM3600 dataset of geographically diverse images show that our model is competitive with fully-supervised multilingual captioning models, without requiring any supervised training on any captioning data.
arxiv情報
著者 | Rita Ramos,Bruno Martins,Desmond Elliott |
発行日 | 2023-05-31 13:03:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google