要約
ワンショット オープン アフォーダンス学習 (OOAL) を導入します。この学習では、基本オブジェクト カテゴリごとに 1 つの例のみを使用してモデルがトレーニングされますが、新しいオブジェクトとアフォーダンスを識別することが期待されます。
視覚言語モデルは、新しいオブジェクトやシーンの認識には優れていますが、アフォーダンスなどのより細かいレベルを理解するのに苦労することがよくあります。
この問題に対処するために、私たちは既存の基盤モデルの包括的な分析を実施し、アフォーダンスに対する固有の理解を調査し、データ限定のアフォーダンス学習の可能性を評価します。
次に、視覚機能とアフォーダンス テキスト埋め込みとの連携を強化する、シンプルで効果的なデザインを備えたビジョン言語フレームワークを提案します。
2 つのアフォーダンス セグメンテーション ベンチマークの実験では、提案された方法がトレーニング データ全体の 1% 未満の最先端のモデルよりも優れたパフォーマンスを示し、目に見えないオブジェクトとアフォーダンスに対して合理的な一般化機能を示すことが示されています。
要約(オリジナル)
We introduce One-shot Open Affordance Learning (OOAL), where a model is trained with just one example per base object category, but is expected to identify novel objects and affordances. While vision-language models excel at recognizing novel objects and scenes, they often struggle to understand finer levels of granularity such as affordances. To handle this issue, we conduct a comprehensive analysis of existing foundation models, to explore their inherent understanding of affordances and assess the potential for data-limited affordance learning. We then propose a vision-language framework with simple and effective designs that boost the alignment between visual features and affordance text embeddings. Experiments on two affordance segmentation benchmarks show that the proposed method outperforms state-of-the-art models with less than 1% of the full training data, and exhibits reasonable generalization capability on unseen objects and affordances.
arxiv情報
著者 | Gen Li,Deqing Sun,Laura Sevilla-Lara,Varun Jampani |
発行日 | 2023-11-29 16:23:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google