要約
画像キャプションは、対照的な事前トレーニングと同様の効果的な事前トレーニング方法として示されています。
ただし、位置認識情報を視覚的な事前トレーニングに組み込むことについては、依然として研究が限られている分野です。
この論文では、位置認識キャプション (LocCa) を使用した簡単な視覚的事前トレーニング方法を提案します。
LocCa は、単純な画像キャプショナ タスク インターフェイスを使用して、画像ピクセル入力を条件とした豊富な情報 (境界ボックスの座標やキャプションなど) を読み出すようにモデルに学習させます。
エンコーダ/デコーダ アーキテクチャのマルチタスク機能のおかげで、画像キャプショナが事前トレーニング中に複数のタスクを簡単に処理できることを示します。
私たちの実験では、LocCa が全体的なタスクでは同等のパフォーマンスを維持しながら、ローカリゼーションの下流タスクでは標準のキャプショナーよりも大幅に優れたパフォーマンスを発揮することを示しています。
要約(オリジナル)
Image captioning has been shown as an effective pretraining method similar to contrastive pretraining. However, the incorporation of location-aware information into visual pretraining remains an area with limited research. In this paper, we propose a simple visual pretraining method with location-aware captioners (LocCa). LocCa uses a simple image captioner task interface, to teach a model to read out rich information, i.e. bounding box coordinates, and captions, conditioned on the image pixel input. Thanks to the multitask capabilities of an encoder-decoder architecture, we show that an image captioner can easily handle multiple tasks during pretraining. Our experiments demonstrate that LocCa outperforms standard captioners significantly on localization downstream tasks while maintaining comparable performance on holistic tasks.
arxiv情報
著者 | Bo Wan,Michael Tschannen,Yongqin Xian,Filip Pavetic,Ibrahim Alabdulmohsin,Xiao Wang,André Susano Pinto,Andreas Steiner,Lucas Beyer,Xiaohua Zhai |
発行日 | 2024-03-28 17:20:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google