要約
テキスト データセットの膨大なコーパスでトレーニングされた大規模言語モデル (LLM) は、複雑で新しい機能を実証し、明示的にトレーニングされていないタスクで最先端のパフォーマンスを実現します。
LLM 機能の正確な性質は謎に包まれていることが多く、プロンプトが異なれば、コンテキスト内学習を通じて異なる機能を引き出すことができます。
我々は、行動パターンの根底にあるLLMの潜在的な概念を理解するためにコンテキスト内の学習ダイナミクスを分析できる認知的解釈可能フレームワークを提案します。
これにより、成功または失敗の評価ベンチマークよりも微妙な理解が得られますが、回路の機構的な解釈のように内部活性化を観察する必要はありません。
人間のランダム性の知覚に関する認知科学に触発されて、私たちはランダムなバイナリシーケンスをコンテキストとして使用し、シーケンスの長さなどのコンテキストデータのプロパティを操作することによってコンテキスト内学習のダイナミクスを研究します。
最新の GPT-3.5+ モデルでは、擬似乱数を生成し、基本的な形式言語を学習する新たな機能が発見され、モデルの出力が擬似乱数の動作から決定論的な繰り返しに急激に移行する、驚くべきコンテキスト内学習ダイナミクスを備えています。
要約(オリジナル)
Large language models (LLMs) trained on huge corpora of text datasets demonstrate complex, emergent capabilities, achieving state-of-the-art performance on tasks they were not explicitly trained for. The precise nature of LLM capabilities is often mysterious, and different prompts can elicit different capabilities through in-context learning. We propose a Cognitive Interpretability framework that enables us to analyze in-context learning dynamics to understand latent concepts in LLMs underlying behavioral patterns. This provides a more nuanced understanding than success-or-failure evaluation benchmarks, but does not require observing internal activations as a mechanistic interpretation of circuits would. Inspired by the cognitive science of human randomness perception, we use random binary sequences as context and study dynamics of in-context learning by manipulating properties of context data, such as sequence length. In the latest GPT-3.5+ models, we find emergent abilities to generate pseudo-random numbers and learn basic formal languages, with striking in-context learning dynamics where model outputs transition sharply from pseudo-random behaviors to deterministic repetition.
arxiv情報
著者 | Eric J. Bigelow,Ekdeep Singh Lubana,Robert P. Dick,Hidenori Tanaka,Tomer D. Ullman |
発行日 | 2023-10-26 17:54:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google