Tractable Transformers for Flexible Conditional Generation

要約

非自動節約（NAR）生成モデルは、シーケンシャル依存性要件によって制約される自己回帰（AR）のカウンターパートよりも、多様な条件付き生成タスクをより原則的な方法で処理できるため、価値があります。
拡散言語モデルなどのNARモデルの最近の進歩は、同様のサイズのARモデル（GPTなど）と比較して、無条件の生成における優れたパフォーマンスを実証しています。
ただし、このような改善により、条件付き生成のパフォーマンスが改善されるとは限りません。
このギャップの重要な理由は、トレーニング中に目にされていない条件付き確率クエリに一般化することが難しいことであることを示します。
その結果、強力な無条件の生成パフォーマンスは、高品質の条件付き生成を保証するものではありません。
このペーパーでは、条件付き生成タスクが異なる方により堅牢な変圧器ベースの生成モデルであるTractable Transformer（Tracformer）を提案します。
完全な入力から派生したグローバルなコンテキスト機能のみに依存する既存のモデルとは異なり、TracFormersはスパーストランスエンコーダーを組み込んでローカルおよびグローバルの両方のコンテキスト情報をキャプチャします。
この情報は、条件付き生成のためにデコーダーを介してルーティングされます。
経験的結果は、Tracformersが最近の拡散およびARモデルのベースラインと比較して、テキストモデリングで最先端の条件付き生成パフォーマンスを達成することを示しています。

要約(オリジナル)

Non-autoregressive (NAR) generative models are valuable because they can handle diverse conditional generation tasks in a more principled way than their autoregressive (AR) counterparts, which are constrained by sequential dependency requirements. Recent advancements in NAR models, such as diffusion language models, have demonstrated superior performance in unconditional generation compared to AR models (e.g., GPTs) of similar sizes. However, such improvements do not always lead to improved conditional generation performance. We show that a key reason for this gap is the difficulty in generalizing to conditional probability queries unseen during training. As a result, strong unconditional generation performance does not guarantee high-quality conditional generation. This paper proposes Tractable Transformers (Tracformer), a Transformer-based generative model that is more robust to different conditional generation tasks. Unlike existing models that rely solely on global contextual features derived from full inputs, Tracformers incorporate a sparse Transformer encoder to capture both local and global contextual information. This information is routed through a decoder for conditional generation. Empirical results demonstrate that Tracformers achieve state-of-the-art conditional generation performance on text modeling compared to recent diffusion and AR model baselines.

arxiv情報

著者	Anji Liu,Xuejie Liu,Dayuan Zhao,Mathias Niepert,Yitao Liang,Guy Van den Broeck
発行日	2025-02-11 15:05:26+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Tractable Transformers for Flexible Conditional Generation

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー