Limits of Transformer Language Models on Learning to Compose Algorithms

要約

私たちは、構成的離散タスクを学習する際の Transformer 言語モデルの機能を分析します。
この目的を達成するために、LLaMA モデルのトレーニングと、いくつかの個別のサブタスクの構成を学習する必要がある 4 つのタスクで GPT-4 と Gemini をプロンプトすることを評価します。
特に、これらのモデルが合成タスクを学習するためにサブタスクで観察可能なプリミティブをどの程度再利用できるかを測定します。
私たちの結果は、最先端の Transformer 言語モデルでの構成学習はサンプル効率が非常に低いことを示しています。LLaMA では、構成タスクを学習するためにすべてのサブタスクを最初から再学習するよりも多くのデータ サンプルが必要です。
サンプルが少ないインコンテキスト プロンプトは信頼性が低く、サブタスクの実行やマルチラウンド コード生成のエラー修正に失敗します。
さらに、複雑性理論を活用することで、フィードフォワード モデルを記憶する際の勾配降下法のサンプルの非効率性に焦点を当てた理論分析でこれらの発見を裏付けます。
https://github.com/IBM/limitations-lm-algorithmic-compositional-learning でコードをオープンソースにしています。

要約(オリジナル)

We analyze the capabilities of Transformer language models in learning compositional discrete tasks. To this end, we evaluate training LLaMA models and prompting GPT-4 and Gemini on four tasks demanding to learn a composition of several discrete sub-tasks. In particular, we measure how well these models can reuse primitives observable in the sub-tasks to learn the composition task. Our results indicate that compositional learning in state-of-the-art Transformer language models is highly sample inefficient: LLaMA requires more data samples than relearning all sub-tasks from scratch to learn the compositional task; in-context prompting with few samples is unreliable and fails at executing the sub-tasks or correcting the errors in multi-round code generation. Further, by leveraging complexity theory, we support these findings with a theoretical analysis focused on the sample inefficiency of gradient descent in memorizing feedforward models. We open source our code at https://github.com/IBM/limitations-lm-algorithmic-compositional-learning.

arxiv情報

著者 Jonathan Thomm,Giacomo Camposampiero,Aleksandar Terzic,Michael Hersche,Bernhard Schölkopf,Abbas Rahimi
発行日 2024-11-05 06:32:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク