要約
自己回帰モデル(アーム)は、大規模な言語モデル(LLM)の礎石と広く見なされています。
私たちは、トレーニング前および監視された微調整(SFT)パラダイムの下でゼロから訓練された拡散モデルであるLladaを導入することにより、この概念に挑戦します。
LLADAモデルの分布は、マスクされたトークンを予測するためにバニラ変圧器によってパラメーター化された、フォワードデータマスキングプロセスと逆プロセスを介して分布しています。
尤度結合を最適化することにより、確率的推論のための原則的な生成アプローチを提供します。
大規模なベンチマークを横切って、Lladaは強力なスケーラビリティを示し、自己構築されたアームベースラインよりも優れています。
驚くべきことに、LLADA 8Bは、コンテキスト学習におけるLLAMA3 8Bのような強力なLLMと競争力があり、SFTの後、マルチターンダイアログなどのケーススタディで印象的な指導に応じた能力を示します。
さらに、Lladaは逆転の呪いに対処し、逆転詩の完成タスクでGPT-4oを上回ります。
私たちの調査結果は、拡散モデルを腕に代わる実行可能で有望な代替として確立し、上記の重要なLLM機能が本質的に武器に結び付けられているという仮定に挑戦します。
プロジェクトページとコード:https://ml-gsai.github.io/llada-demo/。
要約(オリジナル)
Autoregressive models (ARMs) are widely regarded as the cornerstone of large language models (LLMs). We challenge this notion by introducing LLaDA, a diffusion model trained from scratch under the pre-training and supervised fine-tuning (SFT) paradigm. LLaDA models distributions through a forward data masking process and a reverse process, parameterized by a vanilla Transformer to predict masked tokens. By optimizing a likelihood bound, it provides a principled generative approach for probabilistic inference. Across extensive benchmarks, LLaDA demonstrates strong scalability, outperforming our self-constructed ARM baselines. Remarkably, LLaDA 8B is competitive with strong LLMs like LLaMA3 8B in in-context learning and, after SFT, exhibits impressive instruction-following abilities in case studies such as multi-turn dialogue. Moreover, LLaDA addresses the reversal curse, surpassing GPT-4o in a reversal poem completion task. Our findings establish diffusion models as a viable and promising alternative to ARMs, challenging the assumption that key LLM capabilities discussed above are inherently tied to ARMs. Project page and codes: https://ml-gsai.github.io/LLaDA-demo/.
arxiv情報
著者 | Shen Nie,Fengqi Zhu,Zebin You,Xiaolu Zhang,Jingyang Ou,Jun Hu,Jun Zhou,Yankai Lin,Ji-Rong Wen,Chongxuan Li |
発行日 | 2025-02-18 16:08:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google