要約
Transformer の大規模言語モデル (LLM) は、複雑な複数ステップの推論を必要とするタスクにおける並外れたパフォーマンスで賞賛を集めています。
しかし、これらのモデルは同時に、驚くほど些細な問題で失敗を示します。
ここで疑問が生じます。これらのエラーは偶発的なものなのでしょうか、それとも、より重大な制限を示しているのでしょうか?
変圧器 LLM をわかりやすく理解するために、複数桁の乗算、論理グリッド パズル、古典的な動的計画法の問題という 3 つの代表的な構成タスクにわたって、これらのモデルの限界を調査します。
これらのタスクでは、問題をサブステップに分割し、これらのステップを統合して正確な答えを得る必要があります。
構成タスクを計算グラフとして定式化して複雑さのレベルを体系的に定量化し、推論ステップを中間のサブ手順に分割します。
私たちの経験的発見は、トランスフォーマー LLM が、体系的な問題解決スキルを必ずしも開発することなく、多段階の構成推論を線形化されたサブグラフ マッチングに還元することによって構成タスクを解決することを示唆しています。
私たちの実証研究を締めくくるために、タスクの複雑さの増加に伴って自己回帰世代のパフォーマンスがどのように急速に低下するかを強調する、抽象的な複数ステップの推論問題に関する理論的議論を提供します。
要約(オリジナル)
Transformer large language models (LLMs) have sparked admiration for their exceptional performance on tasks that demand intricate multi-step reasoning. Yet, these models simultaneously show failures on surprisingly trivial problems. This begs the question: Are these errors incidental, or do they signal more substantial limitations? In an attempt to demystify transformer LLMs, we investigate the limits of these models across three representative compositional tasks — multi-digit multiplication, logic grid puzzles, and a classic dynamic programming problem. These tasks require breaking problems down into sub-steps and synthesizing these steps into a precise answer. We formulate compositional tasks as computation graphs to systematically quantify the level of complexity, and break down reasoning steps into intermediate sub-procedures. Our empirical findings suggest that transformer LLMs solve compositional tasks by reducing multi-step compositional reasoning into linearized subgraph matching, without necessarily developing systematic problem-solving skills. To round off our empirical study, we provide theoretical arguments on abstract multi-step reasoning problems that highlight how autoregressive generations’ performance can rapidly decay with\,increased\,task\,complexity.
arxiv情報
著者 | Nouha Dziri,Ximing Lu,Melanie Sclar,Xiang Lorraine Li,Liwei Jiang,Bill Yuchen Lin,Peter West,Chandra Bhagavatula,Ronan Le Bras,Jena D. Hwang,Soumya Sanyal,Sean Welleck,Xiang Ren,Allyson Ettinger,Zaid Harchaoui,Yejin Choi |
発行日 | 2023-10-31 16:35:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google