U-shaped and Inverted-U Scaling behind Emergent Abilities of Large Language Models

要約

大規模言語モデル (LLM) は、一部の下流タスクで新たな能力を発揮することが示されており、最初はパフォーマンスが停滞しているように見えますが、しきい値を超える規模になると急激かつ予測不可能に向上します。
データセット内の質問を平均パフォーマンスによる難易度レベルに応じて分割すると、難しい質問では U 字型のスケーリングが観察され、簡単な質問では逆 U 字型のスケーリングとその後の着実な改善が観察されます。
さらに、創発閾値は、簡単な質問のパフォーマンスが逆スケーリングから標準スケーリングに戻る点とほぼ一致します。
簡単な質問と難しい質問における観察可能な、しかし反対のスケーリング傾向を利用して、出現のしきい値としきい値を超えたモデルのパフォーマンスの両方を予測する、スライス アンド サンドイッチと呼ばれるシンプルで効果的なパイプラインを提案します。

要約(オリジナル)

Large language models (LLMs) have been shown to exhibit emergent abilities in some downstream tasks, where performance seems to stagnate at first and then improve sharply and unpredictably with scale beyond a threshold. By dividing questions in the datasets according to difficulty level by average performance, we observe U-shaped scaling for hard questions, and inverted-U scaling followed by steady improvement for easy questions. Moreover, the emergence threshold roughly coincides with the point at which performance on easy questions reverts from inverse scaling to standard scaling. Capitalizing on the observable though opposing scaling trend on easy and hard questions, we propose a simple yet effective pipeline, called Slice-and-Sandwich, to predict both the emergence threshold and model performance beyond the threshold.

arxiv情報

著者 Tung-Yu Wu,Pei-Yu Lo
発行日 2024-10-02 16:03:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク