The Mystery of the Pathological Path-star Task for Language Models

要約

最近導入されたパススター タスクは、言語モデルの能力の制限を例示するために設計された最小限のタスクです (Bachmann and Nagarajan、2024)。
これには、単一の開始ノードから複数のアームが放射状に広がり、各ノードが一意であるパススター グラフが含まれます。
開始ノードとアームを終了する指定されたターゲット ノードが与えられた場合、タスクはそのターゲット ノードを含むアームを生成することです。
これは人間にとっては簡単ですが、言語モデルにとっては驚くほど難しく、ランダムなベースラインを上回るパフォーマンスは得られませんでした。
著者らは、これは教師の強制と次のトークンの予測パラダイムの欠陥によるものであると仮説を立てました。
私たちは、別の設定で教師による強制を使用してタスクを学習可能であること、および問題の一部が表現によるものであることを実証します。
同じグラフでターゲット ノードが異なる構造化サンプルを使用した正則化手法を導入し、さまざまなモデル タイプにわたって結果を向上させます。
タスクが理論的に解決可能であることを示す RASP 証明を提供します。
最後に、エンコーダーのみのモデルが一貫してタスクを解決できる設定を見つけます。

要約(オリジナル)

The recently introduced path-star task is a minimal task designed to exemplify limitations to the abilities of language models (Bachmann and Nagarajan, 2024). It involves a path-star graph where multiple arms radiate from a single starting node and each node is unique. Given the start node and a specified target node that ends an arm, the task is to generate the arm containing that target node. This is straightforward for a human but surprisingly difficult for language models, which did not outperform the random baseline. The authors hypothesized this is due to a deficiency in teacher-forcing and the next-token prediction paradigm. We demonstrate the task is learnable using teacher-forcing in alternative settings and that the issue is partially due to representation. We introduce a regularization method using structured samples of the same graph but with differing target nodes, improving results across a variety of model types. We provide RASP proofs showing the task is theoretically solvable. Finally, we find settings where an encoder-only model can consistently solve the task.

arxiv情報

著者 Arvid Frydenlund
発行日 2024-10-17 17:18:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク