要約
複雑な概念を表現することは、ラベル付けまたは定量化できる場合は簡単ですが、多くのアイデアを定義するのは難しいが、即座に認識可能です。
ムードボードを提案します。ユーザーは、属性の変更の意図された方向を示唆する例で抽象的な概念を伝えます。
1)無関係な特徴を考慮し、2)画像間の接続を見つけて、関連する概念をより近くに導く、基礎となるムードスペースを計算します。
50〜100倍小さいコンパクトな空間に事前に訓練された機能を圧縮/減圧するためのフィブレーション計算を発明します。
主な革新は、模範全体の画像トークンのペアワイズアフィニティ関係を模倣することを学ぶことです。
ムード空間の粗からファインまでの階層構造に焦点を当てるために、アフィニティマトリックスから上部固有ベクトル構造を計算し、固有ベクトル空間の損失を定義します。
結果として得られるムードスペースは、局所的に線形でコンパクトで、オブジェクトの平均化、視覚的類推、ポーズ転送などの画像レベルの操作を、ムードスペースの単純なベクトル操作として実行できます。
私たちの学習は、微調整なしでの計算において効率的であり、数個(2〜20)の例も必要であり、学習には1分もかかりません。
要約(オリジナル)
Expressing complex concepts is easy when they can be labeled or quantified, but many ideas are hard to define yet instantly recognizable. We propose a Mood Board, where users convey abstract concepts with examples that hint at the intended direction of attribute changes. We compute an underlying Mood Space that 1) factors out irrelevant features and 2) finds the connections between images, thus bringing relevant concepts closer. We invent a fibration computation to compress/decompress pre-trained features into/from a compact space, 50-100x smaller. The main innovation is learning to mimic the pairwise affinity relationship of the image tokens across exemplars. To focus on the coarse-to-fine hierarchical structures in the Mood Space, we compute the top eigenvector structure from the affinity matrix and define a loss in the eigenvector space. The resulting Mood Space is locally linear and compact, allowing image-level operations, such as object averaging, visual analogy, and pose transfer, to be performed as a simple vector operation in Mood Space. Our learning is efficient in computation without any fine-tuning, needs only a few (2-20) exemplars, and takes less than a minute to learn.
arxiv情報
著者 | Huzheng Yang,Katherine Xu,Michael D. Grossberg,Yutong Bai,Jianbo Shi |
発行日 | 2025-04-21 14:49:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google