要約
ニューラルシーケンスモデルが「興味深い」計算を行うときに検出することは、オープンな問題です。
次のトークン予測の損失は貧弱な指標です。低損失は、面白くない些細な予測可能なシーケンスに起因する可能性がありますが、高い損失は予測不可能であるが、モデルによって無視できる無関係な情報を反映する可能性があります。
私たちはより良いメトリックを提案します:それ自体の将来の隠された状態を予測するモデルの能力を測定します。
次のトークン予測損失とは対照的に、このメトリックは、タスクの直感的な興味深さと相関することを経験的に示します。
予測可能性を測定するために、ネットワークの主要な経路(たとえば、変圧器の残留ストリーム)での情報ボトルネックとして機能する建築に依存しない「隠された状態の予測」(PHI)層を導入します。
私たちは、メトリックとして機能する各計算ステップで得られた新しい情報を測定できるようにする、予測前の小説を提案します。
私たちのメトリックは、文書内で学習した正式な言語の説明の長さ、数学的推論の問題の複雑さ、および自己生成された推論チェーンの正しさを予測することを経験的に示します。
要約(オリジナル)
Detecting when a neural sequence model does ‘interesting’ computation is an open problem. The next token prediction loss is a poor indicator: Low loss can stem from trivially predictable sequences that are uninteresting, while high loss may reflect unpredictable but also irrelevant information that can be ignored by the model. We propose a better metric: measuring the model’s ability to predict its own future hidden states. We show empirically that this metric — in contrast to the next token prediction loss — correlates with the intuitive interestingness of the task. To measure predictability, we introduce the architecture-agnostic ‘prediction of hidden states’ (PHi) layer that serves as an information bottleneck on the main pathway of the network (e.g., the residual stream in Transformers). We propose a novel learned predictive prior that enables us to measure the novel information gained in each computation step, which serves as our metric. We show empirically that our metric predicts the description length of formal languages learned in-context, the complexity of mathematical reasoning problems, and the correctness of self-generated reasoning chains.
arxiv情報
著者 | Vincent Herrmann,Róbert Csordás,Jürgen Schmidhuber |
発行日 | 2025-03-17 17:56:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google