要約
大規模な言語モデルのゼロショット機能により、明示的なトレーニングなしでさまざまなタスクを解決できる強力なツールになります。
ただし、これらのモデルがどのようにしてそのようなパフォーマンスを達成するのか、またなぜ一部のタスクではゼロショットできるのに他のタスクではできないのかは不明のままです。
この論文では、言語モデルにおけるアルゴリズムの安定性、つまりタスク仕様の変更の結果としてモデルが採用する問題解決戦略の変化を定義および調査することで、この現象に光を当てました。
一般化のためにアルゴリズムの安定性が必要なタスク、つまり 2 オペランド演算に焦点を当てます。
驚くべきことに、Gemma-2-2b は密接に関連するサブタスク、つまり 4 桁加算と 8 桁加算などで実質的に異なる計算モデルを採用していることがわかりました。
私たちの調査結果は、言語モデルがさまざまな問題解決戦略を抽象化し、それらの間をスムーズに移行するのに苦労するため、アルゴリズムの不安定性が、特定の論理推論タスク全体でのゼロショット パフォーマンスの低下の一因となっている可能性があることを示唆しています。
要約(オリジナル)
Zero-shot capabilities of large language models make them powerful tools for solving a range of tasks without explicit training. It remains unclear, however, how these models achieve such performance, or why they can zero-shot some tasks but not others. In this paper, we shed some light on this phenomenon by defining and investigating algorithmic stability in language models — changes in problem-solving strategy employed by the model as a result of changes in task specification. We focus on a task where algorithmic stability is needed for generalization: two-operand arithmetic. Surprisingly, we find that Gemma-2-2b employs substantially different computational models on closely related subtasks, i.e. four-digit versus eight-digit addition. Our findings suggest that algorithmic instability may be a contributing factor to language models’ poor zero-shot performance across certain logical reasoning tasks, as they struggle to abstract different problem-solving strategies and smoothly transition between them.
arxiv情報
著者 | Alan Sun,Ethan Sun,Warren Shepard |
発行日 | 2024-12-10 10:32:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google