A Simple Explanation for the Phase Transition in Large Language Models with List Decoding

要約

最近のさまざまな実験結果は、大規模言語モデル (LLM) が小規模モデルには存在しない創発的能力を示すことを示しています。
スケールの特定の臨界しきい値を超えると、システム パフォーマンスが大幅に向上します。
このレターでは、このような相転移現象について簡単に説明します。
このために、LLM をシーケンス間ランダム関数としてモデル化します。
各ステップで即時生成を使用する代わりに、各ステップで候補シーケンスのリストを保持し、最後に出力シーケンスの生成を延期するリスト デコーダーを使用します。
LLM がしきい値を下回ると予想されるエラー候補シーケンスの数が制限されたままになり、LLM がしきい値を上回ると指数関数的に増加するような重要なしきい値があることを示します。
このような閾値は、伝染病における基本再生産数に関連しています。

要約(オリジナル)

Various recent experimental results show that large language models (LLM) exhibit emergent abilities that are not present in small models. System performance is greatly improved after passing a certain critical threshold of scale. In this letter, we provide a simple explanation for such a phase transition phenomenon. For this, we model an LLM as a sequence-to-sequence random function. Instead of using instant generation at each step, we use a list decoder that keeps a list of candidate sequences at each step and defers the generation of the output sequence at the end. We show that there is a critical threshold such that the expected number of erroneous candidate sequences remains bounded when an LLM is below the threshold, and it grows exponentially when an LLM is above the threshold. Such a threshold is related to the basic reproduction number in a contagious disease.

arxiv情報

著者 Cheng-Shang Chang
発行日 2023-03-23 09:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IT, math.IT, stat.ML パーマリンク