Knowing Before Saying: LLM Representations Encode Information About Chain-of-Thought Success Before Completion

要約

ゼロショットチェーンオブサートチェーン(COT)プロセスの成功を、完了前に予測できるかどうかを調査します。
LLM表現に基づいたプロービング分類器は、1つのトークンが生成される前であっても}を十分に実行することを発見し、推論プロセスに関する重要な情報が初期のステップ表現にすでに存在していることを示唆しています。
対照的に、生成されたトークンのみに依存する強力なバートベースのベースラインは、より深い推論ダイナミクスではなく、浅い言語の手がかりに依存するため、さらに悪化します。
驚くべきことに、後の推論手順を使用すると、常に分類が改善されるとは限りません。
追加のコンテキストが役に立たない場合、以前の表現は後の表現に似ており、LLMSが主要な情報を早期にエンコードすることを示唆しています。
これは、推論がしばしば損失なく早めに停止する可能性があることを意味します。
これをテストするために、早期に停止する実験を実施し、COTの推論を切り捨てることは、完全な推論と比較してギャップが残っていますが、COTをまったく使用しないことよりもパフォーマンスを改善することを示しています。
ただし、COTチェーンを短縮するために設計された監視された学習や強化学習などのアプローチは、分類器のガイダンスを活用して、早期停止が効果的である場合を特定することができます。
私たちの調査結果は、そのような方法をサポートする可能性のある洞察を提供し、その利点を維持しながらCOTの効率を最適化するのに役立ちます。

要約(オリジナル)

We investigate whether the success of a zero-shot Chain-of-Thought (CoT) process can be predicted before completion. We discover that a probing classifier, based on LLM representations, performs well \emph{even before a single token is generated}, suggesting that crucial information about the reasoning process is already present in the initial steps representations. In contrast, a strong BERT-based baseline, which relies solely on the generated tokens, performs worse, likely because it depends on shallow linguistic cues rather than deeper reasoning dynamics. Surprisingly, using later reasoning steps does not always improve classification. When additional context is unhelpful, earlier representations resemble later ones more, suggesting LLMs encode key information early. This implies reasoning can often stop early without loss. To test this, we conduct early stopping experiments, showing that truncating CoT reasoning still improves performance over not using CoT at all, though a gap remains compared to full reasoning. However, approaches like supervised learning or reinforcement learning designed to shorten CoT chains could leverage our classifier’s guidance to identify when early stopping is effective. Our findings provide insights that may support such methods, helping to optimize CoT’s efficiency while preserving its benefits.

arxiv情報

著者 Anum Afzal,Florian Matthes,Gal Chechik,Yftah Ziser
発行日 2025-06-02 10:26:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク