Visual Prompting via Image Inpainting

要約

タスク固有の微調整やモデルの変更を行わずに、事前にトレーニングされたビジュアル モデルを新しいダウンストリーム タスクに適応させるにはどうすればよいでしょうか?
NLP のプロンプティングに着想を得たこのホワイト ペーパーでは、視覚的プロンプティングについて調査します。テスト時の新しいタスクと新しい入力画像の入出力画像の例が与えられた場合、目標は、与えられた例と一致する出力画像を自動的に生成することです。
修復アルゴリズムが適切なデータで訓練されていれば、この問題を単純な画像の修復 (文字通り、連結された視覚的なプロンプト画像の穴を埋めるだけ) として提示することが驚くほど効果的であることがわかります。
Arxiv の学術論文ソースからの 88,000 のラベルのない図をキュレーションした新しいデータセットで、マスクされた自動エンコーダーをトレーニングします。
これらの事前トレーニング済みモデルにビジュアル プロンプトを適用し、フォアグラウンド セグメンテーション、単一オブジェクト検出、カラー化、エッジ検出など、さまざまな下流の画像から画像へのタスクの結果を示します。

要約(オリジナル)

How does one adapt a pre-trained visual model to novel downstream tasks without task-specific finetuning or any model modification? Inspired by prompting in NLP, this paper investigates visual prompting: given input-output image example(s) of a new task at test time and a new input image, the goal is to automatically produce the output image, consistent with the given examples. We show that posing this problem as simple image inpainting – literally just filling in a hole in a concatenated visual prompt image – turns out to be surprisingly effective, provided that the inpainting algorithm has been trained on the right data. We train masked auto-encoders on a new dataset that we curated – 88k unlabeled figures from academic papers sources on Arxiv. We apply visual prompting to these pretrained models and demonstrate results on various downstream image-to-image tasks, including foreground segmentation, single object detection, colorization, edge detection, etc.

arxiv情報

著者 Amir Bar,Yossi Gandelsman,Trevor Darrell,Amir Globerson,Alexei A. Efros
発行日 2022-09-01 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク