SmallCap: Lightweight Image Captioning Prompted with Retrieval Augmentation

要約

タイトル:SmallCap:検索増強を用いた軽量画像キャプショニング
要約:画像キャプショニングの最近の進歩は、データとモデルサイズの拡大に重点を置いており、事前トレーニングとフィントゥーンのコストを大幅に増加させている。大きなモデルの代わりに、当社はSmallCapを提供し、データストアから取得された関連するキャプションに基づいてキャプションを生成します。我々のモデルは軽量で、学習されるパラメータは、事前にトレーニングされたCLIPエンコーダーとGPT-2デコーダーの間の新しく導入されたクロスアテンションレイヤーにしかありません。SmallCapは、追加のフィントゥーニングなしで新しいドメインに移行でき、データストアの内容を容易に置換することができるため、トレーニングフリーで大規模なデータを利用することができます。我々の実験では、COCOだけでトレーニングされたSmallCapがこのベンチマークで競争力のある性能を発揮することを示し、また、ターゲットドメインデータからの検索だけで再トレーニングせずに他のドメインに転移することができることを示しました。多様な人間ラベル付けおよびWebデータのトレーニングフリーでの活用により、さまざまなドメイン、特に未知の視覚概念に対する汎化能力をテストするnocapsベンチマークに対して、さらなる改善が実現されました。

– 画像キャプショニングにおける最近の進歩は、大量のデータと膨大なモデルサイズによって手間がかかりすぎるようになっている。
– SmallCapは、検索増強された関連するキャプションに基づいて、キャプションを生成する軽量なモデルである。
– モデルは、学習されるパラメータは、CLIPエンコーダーとGPT-2デコーダーの間の新しいクロスアテンションレイヤーにしかなく、トレーニングも速い。
– SmallCapは、学習データフリーで新しいドメインに容易に移行することができる。
– SmallCapは、COCOだけでトレーニングされているにもかかわらず、競争力のある性能を示し、他のドメインに再訓練せずに転移することができます。
– SmallCapは、人間ラベル付きデータやWebデータと組み合わせることによって、より一般的な概念テストであるnocapsベンチマークのために、さらに改善が実現された。

要約(オリジナル)

Recent advances in image captioning have focused on scaling the data and model size, substantially increasing the cost of pre-training and finetuning. As an alternative to large models, we present SmallCap, which generates a caption conditioned on an input image and related captions retrieved from a datastore. Our model is lightweight and fast to train, as the only learned parameters are in newly introduced cross-attention layers between a pre-trained CLIP encoder and GPT-2 decoder. SmallCap can transfer to new domains without additional finetuning and can exploit large-scale data in a training-free fashion since the contents of the datastore can be readily replaced. Our experiments show that SmallCap, trained only on COCO, has competitive performance on this benchmark, and also transfers to other domains without retraining, solely through retrieval from target-domain data. Further improvement is achieved through the training-free exploitation of diverse human-labeled and web data, which proves to be effective for a range of domains, including the nocaps benchmark, designed to test generalization to unseen visual concepts.

arxiv情報

著者 Rita Ramos,Bruno Martins,Desmond Elliott,Yova Kementchedjhieva
発行日 2023-03-28 12:04:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV パーマリンク