From Sparse Dependence to Sparse Attention: Unveiling How Chain-of-Thought Enhances Transformer Sample Efficiency

要約

チェーンオブシュート(COT)は、大規模な言語モデル(LLM)の推論パフォーマンスを大幅に向上させます。
現在の理論的研究はしばしばこの改善を表現力と計算能力の向上に起因すると考えていますが、現在の大きなモデルが単純なタスクで失敗するため、表現力はLLMレジームの主要な制限ではないと主張します。
パリティ学習セットアップを使用して、COTが表現力で十分であってもサンプル効率を大幅に改善できることを実証します。
具体的には、COTでは、変圧器は多項式サンプル内の機能を学習できますが、COTがなければ、必要なサンプルサイズは指数関数的です。
さらに、入力トークン間にまばらな順次依存関係を導入することにより、COTが学習プロセスを簡素化し、まばらで解釈可能な注意につながることを示します。
合成層と現実世界の両方の実験で理論分析を検証し、注意層のスパース性がCOTによって誘発される改善の重要な要因であることを確認します。

要約(オリジナル)

Chain-of-thought (CoT) significantly enhances the reasoning performance of large language models (LLM). While current theoretical studies often attribute this improvement to increased expressiveness and computational capacity, we argue that expressiveness is not the primary limitation in the LLM regime, as current large models will fail on simple tasks. Using a parity-learning setup, we demonstrate that CoT can substantially improve sample efficiency even when the representation power is sufficient. Specifically, with CoT, a transformer can learn the function within polynomial samples, whereas without CoT, the required sample size is exponential. Additionally, we show that CoT simplifies the learning process by introducing sparse sequential dependencies among input tokens, and leads to a sparse and interpretable attention. We validate our theoretical analysis with both synthetic and real-world experiments, confirming that sparsity in attention layers is a key factor of the improvement induced by CoT.

arxiv情報

著者 Kaiyue Wen,Huaqing Zhang,Hongzhou Lin,Jingzhao Zhang
発行日 2025-03-05 13:57:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク