要約
書いたり話したりするとき、人は時々立ち止まって考えることがあります。
推論に焦点を当てた作品では、質問に答えたり、エージェントのタスクを完了したりする方法として推論を組み立てることがよくありますが、推論はほとんどすべての書かれたテキストに暗黙的に含まれています。
たとえば、これは証明の行間に記載されていない手順や、会話の基礎となる心の理論に当てはまります。
Self-Taught Reasoner (STaR、Zelikman et al. 2022) では、質問応答の数少ない例から理論的根拠を推測し、正解につながる例から学習することで、有用な思考を学びます。
これは非常に制約された設定です。理想的には、言語モデルは代わりに、任意のテキストで明示されていない根拠を推測することを学習できます。
我々は、STAR を一般化した Quiet-STaR を提案します。この STaR では、LM が各トークンで理論的根拠を生成して将来のテキストを説明し、予測を改善することを学習します。
私たちは、1) 継続を生成する計算コスト、2) LM が最初は内部思考を生成または使用する方法を知らないという事実、3) 個々の次のトークンを超えて予測する必要性などの重要な課題に対処します。
これらを解決するために、思考の開始と終了を示す学習可能なトークンと拡張された教師強制手法を使用した、トークン単位の並列サンプリング アルゴリズムを提案します。
心強いことに、生成された理論的根拠は、予測が難しいトークンのモデル化に過度に役立ち、難しい質問に直接答える LM の能力を向上させます。
特に、Quiet-STaR を使用してインターネット テキストのコーパス上で LM の事前トレーニングを継続した後、GSM8K (5.9%$\rightarrow$10.9%) と CommonsenseQA (36.3%$\rightarrow$47.2%) でゼロショットの改善が見られ、観察されました。
自然テキスト内の難しいトークンの複雑さが改善されました。
重要なのは、これらの改善にはこれらのタスクを微調整する必要がないことです。
Quiet-STAR は、より一般的かつスケーラブルな方法で推論する方法を学習できる LM への一歩を示します。
要約(オリジナル)
When writing and talking, people sometimes pause to think. Although reasoning-focused works have often framed reasoning as a method of answering questions or completing agentic tasks, reasoning is implicit in almost all written text. For example, this applies to the steps not stated between the lines of a proof or to the theory of mind underlying a conversation. In the Self-Taught Reasoner (STaR, Zelikman et al. 2022), useful thinking is learned by inferring rationales from few-shot examples in question-answering and learning from those that lead to a correct answer. This is a highly constrained setting — ideally, a language model could instead learn to infer unstated rationales in arbitrary text. We present Quiet-STaR, a generalization of STaR in which LMs learn to generate rationales at each token to explain future text, improving their predictions. We address key challenges, including 1) the computational cost of generating continuations, 2) the fact that the LM does not initially know how to generate or use internal thoughts, and 3) the need to predict beyond individual next tokens. To resolve these, we propose a tokenwise parallel sampling algorithm, using learnable tokens indicating a thought’s start and end, and an extended teacher-forcing technique. Encouragingly, generated rationales disproportionately help model difficult-to-predict tokens and improve the LM’s ability to directly answer difficult questions. In particular, after continued pretraining of an LM on a corpus of internet text with Quiet-STaR, we find zero-shot improvements on GSM8K (5.9%$\rightarrow$10.9%) and CommonsenseQA (36.3%$\rightarrow$47.2%) and observe a perplexity improvement of difficult tokens in natural text. Crucially, these improvements require no fine-tuning on these tasks. Quiet-STaR marks a step towards LMs that can learn to reason in a more general and scalable way.
arxiv情報
著者 | Eric Zelikman,Georges Harik,Yijia Shao,Varuna Jayasiri,Nick Haber,Noah D. Goodman |
発行日 | 2024-03-14 17:58:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google