要約
デコーダーのみのトランスフォーマーは、複雑な推論タスク、特に複数の連続操作を必要とする算術推論に苦労することがよくあります。
この研究では、モデルの中間層における表現の崩壊が、モデルの推論能力を制限する重要な要因であることを特定しました。
これに対処するために、中間表現のエントロピーを強化し、崩壊を防ぐ Sequential Variance-Covariance Regularization (Seq-VCR) を提案します。
思考連鎖 (CoT) トークンの代わりにダミーの一時停止トークンを組み合わせると、私たちの方法は算術推論問題のパフォーマンスを大幅に向上させます。
困難な $5 \times 5$ の整数乗算タスクでは、私たちのアプローチは $99.5\%$ の完全一致精度を達成し、同じサイズのモデル ($0\%$ の精度をもたらす) や 5 ショット CoT プロンプトを備えた GPT-4 ($44) を上回ります。
\%$)。
また、算術式および最長増加部分列 (LIS) データセットでも優れた結果を示します。
私たちの調査結果は、トランスフォーマーの推論能力を強化するには中間層表現の崩壊を防ぐ重要性を強調し、Seq-VCR が明示的な CoT 監視を必要とせずに効果的なソリューションを提供することを示しています。
要約(オリジナル)
Decoder-only Transformers often struggle with complex reasoning tasks, particularly arithmetic reasoning requiring multiple sequential operations. In this work, we identify representation collapse in the model’s intermediate layers as a key factor limiting their reasoning capabilities. To address this, we propose Sequential Variance-Covariance Regularization (Seq-VCR), which enhances the entropy of intermediate representations and prevents collapse. Combined with dummy pause tokens as substitutes for chain-of-thought (CoT) tokens, our method significantly improves performance in arithmetic reasoning problems. In the challenging $5 \times 5$ integer multiplication task, our approach achieves $99.5\%$ exact match accuracy, outperforming models of the same size (which yield $0\%$ accuracy) and GPT-4 with five-shot CoT prompting ($44\%$). We also demonstrate superior results on arithmetic expression and longest increasing subsequence (LIS) datasets. Our findings highlight the importance of preventing intermediate layer representation collapse to enhance the reasoning capabilities of Transformers and show that Seq-VCR offers an effective solution without requiring explicit CoT supervision.
arxiv情報
著者 | Md Rifat Arefin,Gopeshh Subbaraj,Nicolas Gontier,Yann LeCun,Irina Rish,Ravid Shwartz-Ziv,Christopher Pal |
発行日 | 2024-11-04 18:14:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google