Flexible visual prompts for in-context learning in computer vision

要約

この研究では、画像セグメンテーションのタスクのインコンテキスト学習 (ICL) に取り組み、視覚的なインコンテキスト学習に最新のビデオ オブジェクト セグメンテーション (VOS) 技術を適応させる新しいアプローチを導入します。
この適応は、少数の例からオブジェクトを効率的かつ柔軟に学習する VOS メソッドの機能に触発されています。
さまざまなサポートセットサイズと多様なセグメンテーションデータセットにわたる評価を通じて、私たちの方法は常に既存の技術を上回っています。
特に、トレーニング中に遭遇しなかったクラスを含むデータで優れています。
さらに、このセットに含める最も関連性の高い画像を選択するサポート セット選択の手法を提案します。
サポート セットの選択を採用すると、追加のトレーニングや迅速な調整を必要とせずに、テストされたすべてのメソッドのパフォーマンスが向上します。
コードは https://github.com/v7labs/XMem_ICL/ にあります。

要約(オリジナル)

In this work, we address in-context learning (ICL) for the task of image segmentation, introducing a novel approach that adapts a modern Video Object Segmentation (VOS) technique for visual in-context learning. This adaptation is inspired by the VOS method’s ability to efficiently and flexibly learn objects from a few examples. Through evaluations across a range of support set sizes and on diverse segmentation datasets, our method consistently surpasses existing techniques. Notably, it excels with data containing classes not encountered during training. Additionally, we propose a technique for support set selection, which involves choosing the most relevant images to include in this set. By employing support set selection, the performance increases for all tested methods without the need for additional training or prompt tuning. The code can be found at https://github.com/v7labs/XMem_ICL/.

arxiv情報

著者 Thomas Foster,Ioana Croitoru,Robert Dorfman,Christoffer Edlund,Thomas Varsavsky,Jon Almazán
発行日 2023-12-11 18:27:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク