要約
大規模な言語モデル(LLM)は、いくつかの下流タスクで緊急能力を示すことが示されています。このタスクでは、モデルのパフォーマンスが最初に停滞し、その後、しきい値を超えたスケールで鋭くかつ予測不可能に改善します。
この作業では、難易度に基づいて質問をグループ化することにより、現象を調査し、緊急能力の可能な説明を提供します。
具体的には、ハードな質問と逆UスケーリングのU字型スケーリングを観察し、それに続いて簡単な質問のために着実に改善します。
2つのスケーリングパターンは最初に互いに相殺され、全体的なパフォーマンスが停滞します。
簡単な質問のスケーリングパターンが逆から標準スケーリングに戻り、緊急の能力につながると、パフォーマンスが急上昇し始めます。
この発見に基づいて、スライスとサンドイッチと呼ばれるシンプルで効果的なパイプラインを提案して、しきい値を超えて出現のしきい値とモデルのパフォーマンスを予測します。
私たちのコードは、https://github.com/tony10101105/expemergenceで公開されています。
要約(オリジナル)
Large language models (LLMs) have been shown to exhibit emergent abilities in some downstream tasks, where model performance stagnates at first and then improves sharply and unpredictably with scale beyond a threshold. In this work, we investigate the phenomenon by grouping questions based on difficulty level and provide a possible explanation for emergent abilities. Specifically, we observe U-shaped scaling for hard questions and inverted-U scaling followed by steady improvement for easy questions. The two scaling patterns initially offset each other, causing stagnant overall performance. The performance starts to soar when the scaling pattern of easy questions reverts from inverse to standard scaling, leading to emergent abilities. Based on this finding, we propose a simple yet effective pipeline, called Slice-and-Sandwich, to predict the emergence threshold and model performance beyond the threshold. Our code is publicly available at https://github.com/tony10101105/ExpEmergence.
arxiv情報
著者 | Tung-Yu Wu,Pei-Yu Lo |
発行日 | 2025-02-12 13:03:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google