要約
それに続くトークンを1つずつ「左から右に」予測するオートレーリングモデル(ARMS)は、幅広いシーケンス生成タスクで大きな成功を収めています。
ただし、満足のいく洗練された制約を必要とする、またはそのシーケンシャル依存性がオーダーアウトの生成により適切に対処されるシーケンスを正確に表すのに苦労しています。
マスクされた拡散モデル(MDMS)はこれらの制限のいくつかに対処しますが、MDMSで複数のトークンを同時にマスクするプロセスでは、一貫性が導入され、MDMが埋めるトークンの数が前に不明になった場合、任意の浸漬制約を処理できません。
この作業では、シーケンスで任意の位置にトークンを挿入することを学ぶ挿入言語モデル(ILMS)を導入します。つまり、挿入する位置と語彙要素の両方を共同で選択します。
トークンを一度に1つずつ挿入することにより、ILMSはトークン間の強い依存関係を表すことができ、任意の順序でシーケンスを生成する能力により、トークン依存関係が左から右へのシーケンシャル構造に従わないシーケンスを正確にモデル化できます。
ILMSをトレーニングするために、カスタマイズされたネットワークパラメーター化を提案し、単純な除去目標を使用します。
私たちの経験的評価は、ILMが一般的な計画タスクで両手とMDMを上回ることを示しています。
さらに、ILMSはMDMSを上回り、無条件のテキスト生成タスクでARMSと同等のパフォーマンスを発揮しながら、任意の長さのテキストの浸透でMDMよりも柔軟性を提供することを示します。
要約(オリジナル)
Autoregressive models (ARMs), which predict subsequent tokens one-by-one “from left to right,” have achieved significant success across a wide range of sequence generation tasks. However, they struggle to accurately represent sequences that require satisfying sophisticated constraints or whose sequential dependencies are better addressed by out-of-order generation. Masked Diffusion Models (MDMs) address some of these limitations, but the process of unmasking multiple tokens simultaneously in MDMs can introduce incoherences, and MDMs cannot handle arbitrary infilling constraints when the number of tokens to be filled in is not known in advance. In this work, we introduce Insertion Language Models (ILMs), which learn to insert tokens at arbitrary positions in a sequence — that is, they select jointly both the position and the vocabulary element to be inserted. By inserting tokens one at a time, ILMs can represent strong dependencies between tokens, and their ability to generate sequences in arbitrary order allows them to accurately model sequences where token dependencies do not follow a left-to-right sequential structure. To train ILMs, we propose a tailored network parameterization and use a simple denoising objective. Our empirical evaluation demonstrates that ILMs outperform both ARMs and MDMs on common planning tasks. Furthermore, we show that ILMs outperform MDMs and perform on par with ARMs in an unconditional text generation task while offering greater flexibility than MDMs in arbitrary-length text infilling.
arxiv情報
著者 | Dhruvesh Patel,Aishwarya Sahoo,Avinash Amballa,Tahira Naseem,Tim G. J. Rudner,Andrew McCallum |
発行日 | 2025-05-09 03:29:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google