Transformer-Based Models Are Not Yet Perfect At Learning to Emulate Structural Recursion

要約

この論文では、例から構造再帰を学習するトランスフォーマーベースのモデルの機能を調査します。
再帰は、自然言語と形式言語の両方における普遍的な概念です。
構造再帰は、データ型間の意味論的関係の推論やプログラム動作のエミュレーションなど、現在シンボリック ツールがニューラル モデルを超えて優れているプログラミング言語および形式数学タスクの中心です。
プログラミング言語ドメインにおける構造再帰の抽象的な概念を、具体的なシーケンス モデリング問題や学習済みモデルの動作にうまく結び付ける一般的なフレームワークを紹介します。
このフレームワークには、構造再帰の一般的な \textit{構文} を捉える表現と、その \textit{セマンティクス} を理解するための 2 つの異なるフレームワークが含まれています。1 つはプログラミング言語の観点からより自然で、もう 1 つはその観点を橋渡しするのに役立ちます。
基礎となる変圧器アーキテクチャの機構を理解します。
私たちのフレームワークを強力な概念的ツールとして使用して、さまざまな設定の下でさまざまな問題を特定します。
再帰的計算をエミュレートするようにトレーニングされたモデルは、再帰を完全には捉えることができず、代わりにショートカット アルゴリズムに適合するため、トレーニング分布で過小評価されている特定のエッジ ケースを解決できません。
さらに、最先端の大規模言語モデル (LLM) では、コンテキスト内のデモンストレーションから再帰的なルールをマイニングすることは困難です。
一方、これらの LLM は、再帰関数のリダクション (段階的計算) をエミュレートするときに興味深い方法で失敗します。

要約(オリジナル)

This paper investigates the ability of transformer-based models to learn structural recursion from examples. Recursion is a universal concept in both natural and formal languages. Structural recursion is central to the programming language and formal mathematics tasks where symbolic tools currently excel beyond neural models, such as inferring semantic relations between datatypes and emulating program behavior. We introduce a general framework that nicely connects the abstract concepts of structural recursion in the programming language domain to concrete sequence modeling problems and learned models’ behavior. The framework includes a representation that captures the general \textit{syntax} of structural recursion, coupled with two different frameworks for understanding their \textit{semantics} — one that is more natural from a programming languages perspective and one that helps bridge that perspective with a mechanistic understanding of the underlying transformer architecture. With our framework as a powerful conceptual tool, we identify different issues under various set-ups. The models trained to emulate recursive computations cannot fully capture the recursion yet instead fit short-cut algorithms and thus cannot solve certain edge cases that are under-represented in the training distribution. In addition, it is difficult for state-of-the-art large language models (LLMs) to mine recursive rules from in-context demonstrations. Meanwhile, these LLMs fail in interesting ways when emulating reduction (step-wise computation) of the recursive function.

arxiv情報

著者 Dylan Zhang,Curt Tigges,Zory Zhang,Stella Biderman,Maxim Raginsky,Talia Ringer
発行日 2024-01-23 18:07:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.FL, cs.LO, cs.PL パーマリンク