Are Emergent Abilities of Large Language Models a Mirage?

要約

最近の研究では、大規模な言語モデルは、より小規模なモデルには存在しない、より大規模なモデルには存在する能力である、創発的な能力を示すと主張しています。
創発的能力の魅力は 2 つあります。1 つは、存在しない状態から存在する状態へと一見瞬時に移行するその鋭さ、もう 1 つは、予期できないモデル スケールで現れる予測不可能性です。
ここでは、創発的能力についての別の説明を提示します。つまり、特定のタスクおよびモデル ファミリについて、固定モデルの出力を分析する場合、創発的能力は、スケールによるモデルの動作の根本的な変化によるものではなく、研究者のメトリックの選択によって現れるというものです。
具体的には、非線形または不連続のメトリックは明らかな創発的な能力を生み出しますが、線形または連続のメトリックはモデルのパフォーマンスに滑らかで連続的な予測可能な変化を生み出します。
単純な数学モデルで別の説明を提示し、それを 3 つの相補的な方法でテストします。 (1) 創発的能力が主張されているタスクに対して InstructGPT/GPT-3 ファミリを使用してメトリクス選択の影響について 3 つの予測を作成、テスト、確認します。
;
(2) BIG-Bench での創発能力のメタ分析における指標の選択に関する 2 つの予測を作成、テスト、確認します。
(3) 多様なディープネットワークにわたるマルチビジョンタスクにおいて、これまでに見たことのない、一見創発的な能力を生み出すための指標を選択する方法を示します。
3 つの分析すべてを通じて、私たちは、創発的な能力とされるものは、異なる指標やより良い統計によって蒸発し、AI モデルのスケーリングの基本的な特性ではない可能性があるという証拠を提供します。

要約(オリジナル)

Recent work claims that large language models display emergent abilities, abilities not present in smaller-scale models that are present in larger-scale models. What makes emergent abilities intriguing is two-fold: their sharpness, transitioning seemingly instantaneously from not present to present, and their unpredictability, appearing at seemingly unforeseeable model scales. Here, we present an alternative explanation for emergent abilities: that for a particular task and model family, when analyzing fixed model outputs, emergent abilities appear due to the researcher’s choice of metric rather than due to fundamental changes in model behavior with scale. Specifically, nonlinear or discontinuous metrics produce apparent emergent abilities, whereas linear or continuous metrics produce smooth, continuous predictable changes in model performance. We present our alternative explanation in a simple mathematical model, then test it in three complementary ways: we (1) make, test and confirm three predictions on the effect of metric choice using the InstructGPT/GPT-3 family on tasks with claimed emergent abilities; (2) make, test and confirm two predictions about metric choices in a meta-analysis of emergent abilities on BIG-Bench; and (3) show to choose metrics to produce never-before-seen seemingly emergent abilities in multiple vision tasks across diverse deep networks. Via all three analyses, we provide evidence that alleged emergent abilities evaporate with different metrics or with better statistics, and may not be a fundamental property of scaling AI models.

arxiv情報

著者 Rylan Schaeffer,Brando Miranda,Sanmi Koyejo
発行日 2023-05-22 15:56:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク