要約
因果言語モデルトレーニングの構造は、各トークンを前のコンテキストから正確に予測できると想定しています。
これは、人間の自然な執筆と推論プロセスとは対照的であり、通常、正確な議論やフレーズの前に目標が知られています。
このミスマッチは文献でよく研究されていますが、この不一致に対処するには建築的変化が必要であるという作業の仮定があります。
トレーニングデータシーケンスの再配置と処理により、モデルは真のデータ生成プロセスをより正確に模倣できるようになり、アーキテクチャまたはトレーニングインフラストラクチャに他の変更を必要としないと主張します。
この手法、Trelawney、およびそれから導き出された推論アルゴリズムにより、計画、アルゴリズムの推論、ストーリー生成タスクにまたがるいくつかの重要なベンチマークのパフォーマンスを改善できることを実証します。
最後に、当社の方法は、自然に追加費用なしで長期目標の生成を可能にします。
モデルの目標生成機能を使用することで、計画と推論がさらに改善される方法を調査します。
さらに、Trelawneyは、現在の言語モデリングのパラダイムを超えて新しい機能への扉を開く可能性があると考えています。
要約(オリジナル)
The structure of causal language model training assumes that each token can be accurately predicted from the previous context. This contrasts with humans’ natural writing and reasoning process, where goals are typically known before the exact argument or phrasings. While this mismatch has been well studied in the literature, the working assumption has been that architectural changes are needed to address this mismatch. We argue that rearranging and processing the training data sequences can allow models to more accurately imitate the true data-generating process, and does not require any other changes to the architecture or training infrastructure. We demonstrate that this technique, Trelawney, and the inference algorithms derived from it allow us to improve performance on several key benchmarks that span planning, algorithmic reasoning, and story generation tasks. Finally, our method naturally enables the generation of long-term goals at no additional cost. We investigate how using the model’s goal-generation capability can further improve planning and reasoning. Additionally, we believe Trelawney could potentially open doors to new capabilities beyond the current language modeling paradigm.
arxiv情報
著者 | Abitha Thankaraj,Yiding Jiang,J. Zico Kolter,Yonatan Bisk |
発行日 | 2025-04-24 03:13:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google