要約
推論は AI エージェントの基本的な能力です。
最近、大規模言語モデル (LLM) は推論タスクを実行する顕著な能力を示しています。
ただし、LLM の推論能力に関する数多くの評価では、いくつかの限界も示されています。
顕著な制限は長さの一般化です。これは、より小さい長さまたはサイズの推論問題でトレーニングされた場合、結果のモデルはより大きなサイズまたは長さの問題に苦戦することを意味します。
これは、推論スキルの学習における一般化の理論的限界を示している可能性があります。
これらの評価とその観察は、長さの一般化問題の理論的研究を行う動機になりました。
この研究は、マルコフ動的プロセス (MDP) および/または有向非巡回グラフ (DAG) として定式化できる推論タスクに焦点を当てています。
これは、特定の表現における推論タスクで長さ一般化問題を解決できるかどうかを決定する条件を特定し、証明します。
理論的結果を検証するために実験も行われます。
要約(オリジナル)
Reasoning is a fundamental capability of AI agents. Recently, large language models (LLMs) have shown remarkable abilities to perform reasoning tasks. However, numerous evaluations of the reasoning capabilities of LLMs have also showed some limitations. An outstanding limitation is length generalization, meaning that when trained on reasoning problems of smaller lengths or sizes, the resulting models struggle with problems of larger sizes or lengths. This potentially indicates some theoretical limitations of generalization in learning reasoning skills. These evaluations and their observations motivated us to perform a theoretical study of the length generalization problem. This work focuses on reasoning tasks that can be formulated as Markov dynamic processes (MDPs) and/or directed acyclic graphs (DAGs). It identifies and proves conditions that decide whether the length generalization problem can be solved or not for a reasoning task in a particular representation. Experiments are also conducted to verify the theoretical results.
arxiv情報
著者 | Changnan Xiao,Bing Liu |
発行日 | 2023-12-06 16:31:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google