要約
スコアベースまたは拡散モデルは、GANベースおよびVAEベースのモデルを上回る高品質の表形式データを生成します。
ただし、これらの方法にはかなりのトレーニング時間が必要です。
この論文では、テキストから画像の生成やテキストからビデオへの生成などで適用される修正されたフローモデリングを使用する長所を紹介します。
整理可能な機能は、いくつかの積み重ねられたゲート線形ユニットブロックで構成されるシンプルなアーキテクチャです。
さらに、トレーニング戦略も簡単で、混合タイプのノイズ分布とロジット正規のタイムステップ分布が組み込まれています。
私たちの実験は、長所が必要なトレーニング時間を短縮しながら、いくつかの最先端の拡散およびスコアベースのモデルと比較して、競争力のあるパフォーマンスを達成することを示しています。
私たちのコードは、https://github.com/fmp453/rectableで入手できます。
要約(オリジナル)
Score-based or diffusion models generate high-quality tabular data, surpassing GAN-based and VAE-based models. However, these methods require substantial training time. In this paper, we introduce RecTable, which uses the rectified flow modeling, applied in such as text-to-image generation and text-to-video generation. RecTable features a simple architecture consisting of a few stacked gated linear unit blocks. Additionally, our training strategies are also simple, incorporating a mixed-type noise distribution and a logit-normal timestep distribution. Our experiments demonstrate that RecTable achieves competitive performance compared to the several state-of-the-art diffusion and score-based models while reducing the required training time. Our code is available at https://github.com/fmp453/rectable.
arxiv情報
著者 | Masane Fuchi,Tomohiro Takagi |
発行日 | 2025-03-26 17:12:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google