要約
文脈学習(In-context learning)とは、異なるプロンプトでモデルの動作を設定する能力で、自然言語処理の分野に革命をもたらし、タスクに特化したモデルの必要性を軽減し、あらゆるクエリを支援できる汎用のモデルへの道を切り開きました。一方、コンピュータビジョンでは、セマンティックセグメンテーションや深度推定のような高密度なタスクを実行するために、特殊なデコーダと微調整プロトコルが必要とされるため、ほとんど前者の体制にとどまっている。本研究では、このようなシーン理解タスクの文脈内学習のためのシンプルなメカニズムを探求する。すなわち、注釈付き特徴量のプロンプトから最近傍を検索する。画像内と画像間の注意を活用する新しい事前訓練プロトコル$unicode{x2013}$を提案し、この体制で特に有用な表現が得られる。このようにして得られたハミングバードモデルは、適切なプロンプトにより、様々なシーン理解タスクをそのまま実行し、各タスクに対して細かく調整された専門家のパフォーマンスに近づくことができる。さらに、ハミングバードは、微調整されたモデルよりもはるかに効率的に新しいタスクを実行するように設定することができ、対話型アシスタント領域でのシーン理解の可能性を高めている。
要約(オリジナル)
In-context learning$\unicode{x2013}$the ability to configure a model’s behavior with different prompts$\unicode{x2013}$has revolutionized the field of natural language processing, alleviating the need for task-specific models and paving the way for generalist models capable of assisting with any query. Computer vision, in contrast, has largely stayed in the former regime: specialized decoders and finetuning protocols are generally required to perform dense tasks such as semantic segmentation and depth estimation. In this work we explore a simple mechanism for in-context learning of such scene understanding tasks: nearest neighbor retrieval from a prompt of annotated features. We propose a new pretraining protocol$\unicode{x2013}$leveraging attention within and across images$\unicode{x2013}$which yields representations particularly useful in this regime. The resulting Hummingbird model, suitably prompted, performs various scene understanding tasks without modification while approaching the performance of specialists that have been finetuned for each task. Moreover, Hummingbird can be configured to perform new tasks much more efficiently than finetuned models, raising the possibility of scene understanding in the interactive assistant regime.
arxiv情報
著者 | Ivana Balažević,David Steiner,Nikhil Parthasarathy,Relja Arandjelović,Olivier J. Hénaff |
発行日 | 2023-06-02 16:42:04+00:00 |
arxivサイト | arxiv_id(pdf) |