要約
離散アルゴリズムの学習における Transformer 言語モデルの機能を分析します。
この目的を達成するために、いくつかの個別のサブタスクの構成を必要とする 2 つの新しいタスクを導入します。
LLaMA モデルをゼロからトレーニングする場合と、GPT-4 および Gemini でプロンプトを作成する場合の両方で、学習されたプリミティブの学習構成を測定します。
最先端の Transformer 言語モデルの構成機能は非常に限られており、新しいアルゴリズム構成のためにすべてのサブタスクを再学習するよりもサンプル単位でのスケールが劣っていることがわかります。
また、複雑性理論の定理も提示し、フィードフォワード モデルを記憶する際の勾配降下法は指数関数的にデータ効率が低下する可能性があることを示しています。
要約(オリジナル)
We analyze the capabilities of Transformer language models on learning discrete algorithms. To this end, we introduce two new tasks demanding the composition of several discrete sub-tasks. On both training LLaMA models from scratch and prompting on GPT-4 and Gemini we measure learning compositions of learned primitives. We observe that the compositional capabilities of state-of-the-art Transformer language models are very limited and sample-wise scale worse than relearning all sub-tasks for a new algorithmic composition. We also present a theorem in complexity theory, showing that gradient descent on memorizing feedforward models can be exponentially data inefficient.
arxiv情報
著者 | Jonathan Thomm,Aleksandar Terzic,Geethan Karunaratne,Giacomo Camposampiero,Bernhard Schölkopf,Abbas Rahimi |
発行日 | 2024-02-13 07:36:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google