要約
フローベースの生成モデルは最近、テキストからイメージの生成などの条件付き生成タスクに対して印象的なパフォーマンスを示しています。
ただし、現在の方法は、一般的な単峰性ノイズ分布をターゲットデータ分布の特定のモードに変換します。
そのため、初期ソース分布のすべてのポイントは、ターゲット分布のすべてのポイントにマッピングでき、その結果、平均パスが長くなります。
この目的のために、この作業では、条件付きフローベースのモデルの活用されていない特性を活用します。これは、非自明の事前分布を設計する能力です。
テキストプロンプトなどの入力条件が与えられた場合、最初にデータ空間にあるポイントにマッピングされ、同じ条件モード(クラスなど)のすべてのデータポイントまでの平均距離が最小の「平均」データポイントを表します。
。
次に、このポイントを中心としたパラメトリック分布からサンプルを条件付きターゲット分布にマッピングするために、フローマッチング定式化を利用します。
実験的に、私たちの方法は、ベースラインと比較して、トレーニング時間と生成効率(FID、KID、クリップアライメントスコア)を大幅に改善し、サンプリングステップを使用して高品質のサンプルを生成します。
要約(オリジナル)
Flow-based generative models have recently shown impressive performance for conditional generation tasks, such as text-to-image generation. However, current methods transform a general unimodal noise distribution to a specific mode of the target data distribution. As such, every point in the initial source distribution can be mapped to every point in the target distribution, resulting in long average paths. To this end, in this work, we tap into a non-utilized property of conditional flow-based models: the ability to design a non-trivial prior distribution. Given an input condition, such as a text prompt, we first map it to a point lying in data space, representing an “average’ data point with the minimal average distance to all data points of the same conditional mode (e.g., class). We then utilize the flow matching formulation to map samples from a parametric distribution centered around this point to the conditional target distribution. Experimentally, our method significantly improves training times and generation efficiency (FID, KID and CLIP alignment scores) compared to baselines, producing high quality samples using fewer sampling steps.
arxiv情報
| 著者 | Noam Issachar,Mohammad Salama,Raanan Fattal,Sagie Benaim |
| 発行日 | 2025-02-13 18:58:15+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google