Product of Experts for Visual Generation

要約

最新のニューラルモデルは、豊富な事前にキャプチャされ、共有されたデータドメイン、例えば画像やビデオよりも補完的な知識を持っています。
グラフィックエンジンや物理シミュレーターなどの人間が作成した知識を持つ視覚的な生成モデル、視覚的言語モデル、ソースなど、複数のソースからの多様な知識を統合してください。
異種モデルからの推論時間知識の構成を実行する専門家(POE)フレームワークの製品を提案します。
このトレーニングなしのアプローチは、アニールされた重要性サンプリング(AIS)を介して専門家全体の製品分布からサンプルします。
私たちのフレームワークは、画像とビデオの合成タスクにおける実際的な利点を示し、モノリシックな方法よりも優れた制御可能性をもたらし、視覚生成目標を指定するための柔軟なユーザーインターフェイスをさらに提供します。

要約(オリジナル)

Modern neural models capture rich priors and have complementary knowledge over shared data domains, e.g., images and videos. Integrating diverse knowledge from multiple sources — including visual generative models, visual language models, and sources with human-crafted knowledge such as graphics engines and physics simulators — remains under-explored. We propose a Product of Experts (PoE) framework that performs inference-time knowledge composition from heterogeneous models. This training-free approach samples from the product distribution across experts via Annealed Importance Sampling (AIS). Our framework shows practical benefits in image and video synthesis tasks, yielding better controllability than monolithic methods and additionally providing flexible user interfaces for specifying visual generation goals.

arxiv情報

著者 Yunzhi Zhang,Carson Murtuza-Lanier,Zizhang Li,Yilun Du,Jiajun Wu
発行日 2025-06-10 15:21:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク