‘This is my unicorn, Fluffy’: Personalizing frozen vision-language representations

要約

Web スケールのデータで事前トレーニングされた大規模な視覚および言語モデルは、多数の V&L 問題に対して非常に貴重な表現を提供します。
ただし、構造化されていない言語でユーザー固有の視覚的概念について推論するために、それらをどのように使用できるかは不明です。
この問題は、パーソナライズされた画像検索からスマート デバイスとのパーソナライズされた対話まで、複数のドメインで発生します。
ユーザー固有の「パーソナライズされた」概念を「実際に」取得してセグメント化するための 2 つの新しいベンチマーク データセットを使用して、Personalized Vision & Language (PerVL) と呼ばれる新しい学習セットアップを導入します。
PerVL では、(1) ダウンストリーム タスクとは独立してパーソナライズされた概念を学習する必要があります。(2) 事前トレーニング済みのモデルが自由な言語で推論できるようにし、(3) パーソナライズされた否定的な例を必要としません。
新しいパーソナライズされた概念のための新しい単語埋め込みを使用して、事前トレーニング済みモデルの入力語彙を拡張することによって動作する PerVL を解決するためのアーキテクチャを提案します。
モデルは、文の中でそれらを使用するだけで、それらについて推論できます。
私たちのアプローチがいくつかの例からパーソナライズされた視覚的概念を学習し、リッチテキストクエリを使用して画像検索とセマンティックセグメンテーションに効果的に適用できることを示します。

要約(オリジナル)

Large Vision & Language models pretrained on web-scale data provide representations that are invaluable for numerous V&L problems. However, it is unclear how they can be used for reasoning about user-specific visual concepts in unstructured language. This problem arises in multiple domains, from personalized image retrieval to personalized interaction with smart devices. We introduce a new learning setup called Personalized Vision & Language (PerVL) with two new benchmark datasets for retrieving and segmenting user-specific ‘personalized’ concepts ‘in the wild’. In PerVL, one should learn personalized concepts (1) independently of the downstream task (2) allowing a pretrained model to reason about them with free language, and (3) does not require personalized negative examples. We propose an architecture for solving PerVL that operates by extending the input vocabulary of a pretrained model with new word embeddings for the new personalized concepts. The model can then reason about them by simply using them in a sentence. We demonstrate that our approach learns personalized visual concepts from a few examples and can effectively apply them in image retrieval and semantic segmentation using rich textual queries.

arxiv情報

著者 Niv Cohen,Rinon Gal,Eli A. Meirom,Gal Chechik,Yuval Atzmon
発行日 2022-08-02 13:42:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク