Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability

要約

大規模言語モデル (LLM) は、多くの AI 問題に対する強力なツールとして登場し、優れたコンテキスト内学習 (ICL) 機能を示します。
2 つ以上の単純なタスクを組み合わせた、目に見えない複雑なタスクを解決する構成能力は、汎用人工知能にとって不可欠な推論能力です。
LLM は大きな成功を収めましたが、複合タスク、特に事前トレーニング段階で遭遇しないタスクに LLM がどのようにアプローチするかは未解決の問題のままで、ほとんど理解されていません。
この研究では、コンテキスト内の例として単純なタスクのみを使用して、複合タスクに関する LLM の ICL 機能を詳しく調べます。
私たちは、言語的および論理的課題を含む複合タスクのテスト スイートを開発し、さまざまな LLM ファミリにわたって実証研究を実行します。
モデルが異なる動作を示すことが観察されます。(1) 異なる入力セグメントに個別のマッピング メカニズムを適用する単純な複合タスクの場合、モデルは適切な構成能力を示しますが、モデルをスケールアップするとこの能力が強化されます。
(2) 複数のステップの推論を必要とする、より複雑な複合タスク (各ステップが 1 つのタスクを表す) の場合、モデルは通常パフォーマンスが低下し、スケールアップしても一般に改善が得られません。
私たちは、タスクが異なる入力部分を個別に処理するときにモデルが構成能力を発揮することを説明する、簡略化された設定での理論分析を提供します。
私たちは、私たちの研究が、タスクの性質とモデルのスケールに関する複合タスクを解決する際の LLM の能力に新たな光を当てるものであると信じています。
データセットとコードは、{\url{https://github.com/OliverXUZY/LLM_Compose}} で入手できます。

要約(オリジナル)

Large language models (LLMs) have emerged as powerful tools for many AI problems and exhibit remarkable in-context learning (ICL) capabilities. Compositional ability, solving unseen complex tasks that combine two or more simple tasks, is an essential reasoning ability for Artificial General Intelligence. Despite LLM’s tremendous success, how they approach composite tasks, especially those not encountered during the pretraining phase, remains an open question and largely ununderstood. In this study, we delve into the ICL capabilities of LLMs on composite tasks, with only simple tasks as in-context examples. We develop a test suite of composite tasks that include linguistic and logical challenges and perform empirical studies across different LLM families. We observe that models exhibit divergent behaviors: (1) For simpler composite tasks that apply distinct mapping mechanisms to different input segments, the models demonstrate decent compositional ability, while scaling up the model enhances this ability; (2) for more complex composite tasks that involving reasoning multiple steps, where each step represent one task, models typically underperform, and scaling up generally provide no improvements. We offer theoretical analysis in a simplified setting, explaining that models exhibit compositional capability when the task handles different input parts separately. We believe our work sheds new light on the capabilities of LLMs in solving composite tasks regarding the nature of the tasks and model scale. Our dataset and code are available at {\url{https://github.com/OliverXUZY/LLM_Compose}}.

arxiv情報

著者 Zhuoyan Xu,Zhenmei Shi,Yingyu Liang
発行日 2024-07-22 15:22:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク