σ-GPTs: A New Approach to Autoregressive Models

要約

GPT ファミリなどの自己回帰モデルは、固定順序 (通常は左から右) を使用してシーケンスを生成します。
ただし、これは必須ではありません。
この論文では、この仮定に異議を唱え、出力に位置エンコーディングを追加するだけで、この次数をサンプルごとにオンザフライで変調でき、重要な有利な特性を提供できることを示します。
これにより、トークンの任意のサブセットのサンプリングと条件付けが可能になります。また、拒否戦略に従って動的に複数のトークンをワンショットでサンプリングすることもできるため、モデル評価の数が線形以下になります。
私たちは、言語モデリング、パス解決、航空機の垂直速度予測など、さまざまな領域にわたってメソッドを評価し、生成に必要なステップ数を 1 桁削減します。

要約(オリジナル)

Autoregressive models, such as the GPT family, use a fixed order, usually left-to-right, to generate sequences. However, this is not a necessity. In this paper, we challenge this assumption and show that by simply adding a positional encoding for the output, this order can be modulated on-the-fly per-sample which offers key advantageous properties. It allows for the sampling of and conditioning on arbitrary subsets of tokens, and it also allows sampling in one shot multiple tokens dynamically according to a rejection strategy, leading to a sub-linear number of model evaluations. We evaluate our method across various domains, including language modeling, path-solving, and aircraft vertical rate prediction, decreasing the number of steps required for generation by an order of magnitude.

arxiv情報

著者 Arnaud Pannatier,Evann Courdier,François Fleuret
発行日 2024-04-15 08:22:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク