要約
様式化された抽象化は、視覚的に誇張されているが意味的に忠実な被験者の表現を合成し、認識と知覚的な歪みのバランスをとります。
構造的な忠実度を優先する画像間翻訳とは異なり、様式化された抽象化は、文体的な発散を受け入れながら、特に分散型の個人にとって挑戦的な文体的な発散を受け入れながら、アイデンティティキューの選択的保持を要求します。
ID関連の特徴を抽出するためのビジョン言語モデル(VLLM)の推論時間スケーリングを使用して、単一の画像から様式化された抽象化を生成するトレーニングフリーのフレームワークと、スタイルに依存したプライアーに基づいて構造を再構築する新しいクロスドメイン補正フロー反転戦略を提案します。
私たちの方法は、スタイルを意識した一時的なスケジューリングを通じて構造修復を動的に適応させ、主題とスタイルの両方を称える高忠実度の再構築を可能にします。
微調整せずにマルチラウンドの抽象化を目指した生成をサポートします。
このタスクを評価するために、ピクセルレベルの類似性が失敗する抽象スタイルに適したGPTベースのヒト整列メトリックであるStyleBenchを紹介します。
多様な抽象化(レゴ、ニットドール、サウスパークなど)にわたる実験は、完全にオープンソースのセットアップで、目に見えないアイデンティティとスタイルに強い一般化を示しています。
要約(オリジナル)
Stylized abstraction synthesizes visually exaggerated yet semantically faithful representations of subjects, balancing recognizability with perceptual distortion. Unlike image-to-image translation, which prioritizes structural fidelity, stylized abstraction demands selective retention of identity cues while embracing stylistic divergence, especially challenging for out-of-distribution individuals. We propose a training-free framework that generates stylized abstractions from a single image using inference-time scaling in vision-language models (VLLMs) to extract identity-relevant features, and a novel cross-domain rectified flow inversion strategy that reconstructs structure based on style-dependent priors. Our method adapts structural restoration dynamically through style-aware temporal scheduling, enabling high-fidelity reconstructions that honor both subject and style. It supports multi-round abstraction-aware generation without fine-tuning. To evaluate this task, we introduce StyleBench, a GPT-based human-aligned metric suited for abstract styles where pixel-level similarity fails. Experiments across diverse abstraction (e.g., LEGO, knitted dolls, South Park) show strong generalization to unseen identities and styles in a fully open-source setup.
arxiv情報
著者 | Aimon Rahman,Kartik Narayan,Vishal M. Patel |
発行日 | 2025-05-28 17:59:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google