Parrot Mind: Towards Explaining the Complex Task Reasoning of Pretrained Large Language Models with Template-Content Structure

要約

事前トレーニングされた大規模言語モデル (LLM) は、複数のサブステップを含む複雑なプロセスを必要とするタスクであっても、推論タスクを解決する並外れた能力を示しています。
ただし、すべてのタスクの生成可能空間が広大であることを考えると、事前トレーニングされたモデルが推論能力をどのように学習するかは未解決の問題のままです。
我々はまず、言語ベースの推論の生成されたシーケンスに対する固有の構造的制約 (これをテンプレートコンテンツ構造 (T-C 構造) と呼びます) が、LLM が限られた条件で多数の複雑な推論問題を解決できる理由を説明する鍵であることを最初に提案します。
この構造を示すことでデータをトレーニングすると、可能な空間を指数レベルから線形レベルに減らすことができます。
さらに、この構造を階層的なケースに一般化することで、モデルがタスクの合成を実現し、線形から対数への学習に必要なスペースをさらに削減し、それによって複数のステップを含む複雑な推論を効果的に学習できることを実証します。
T-C 構造の例と形式理論の両方を提供します。
また、一部の現在の LLM における T-C 構造の存在と推論に対するその有効性も実験的に検証します。

要約(オリジナル)

The pre-trained large language models (LLMs) have shown their extraordinary capacity to solve reasoning tasks, even on tasks that require a complex process involving multiple sub-steps. However, given the vast possible generation space of all the tasks, how the pretrained model learns the reasoning ability remains an open question. We firstly propose that an intrinsic structural constraint on the generated sequence of language-based reasoning — we called it template-content structure (T-C structure) — is the key to explain why LLMs can solve a large number of complex reasoning problems with limited training data by showing this structure can reduce the possible space from exponential level to linear level. Furthermore, by generalizing this structure to the hierarchical case, we demonstrate that models can achieve task composition, further reducing the space needed to learn from linear to logarithmic, thereby effectively learning on complex reasoning involving multiple steps. We provide both examples and formal theory of our T-C structure. We also experimentally validate the existence of the T-C structure in some current LLMs and its effectiveness for reasoning.

arxiv情報

著者 Haotong Yang,Fanxu Meng,Zhouchen Lin,Muhan Zhang
発行日 2024-04-05 08:07:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク