Relating the Seemingly Unrelated: Principled Understanding of Generalization for Generative Models in Arithmetic Reasoning Tasks

要約

大規模言語モデル (LLM) は、多数のタスクにわたって優れた多用途性を示していますが、その一般化機能はまだ十分に理解されていません。
これらの行動を調査するには、算術タスクが重要な場として機能します。
以前の研究では、一見無関係に見える謎がまだ存在しています。(1) 適切な位置埋め込みを備えたモデルは、加算などの長い目に見えない算術演算を正しく実行できますが、その有効性は乗算などのより複雑なタスクでは異なります。
(2) モデルは、使用される位置エンコーディングに関係なく、特定のモジュライ (例: モジュロ 100) の下でのモジュラー加算における長い目に見えないケースでは良好にパフォーマンスしますが、非常に近いモジュライ (例: モジュロ 101) では苦戦します。
これまでの研究では、根本的な原因に対処するのではなく、症状に対処してきたと考えられます。モデル コンポーネントの改善に過度の注意を払い、実際の要因である可能性のあるタスクの特性の違いが見落とされていました。
これは、さまざまな算術シナリオに対する統一された理論的枠組みによって確認されています。
たとえば、乗算とは異なり、デジタル加算タスクには、相対位置エンコーディングと自然に一致する変換不変性の特性があり、この組み合わせにより、目に見えないより長い領域への加算の一般化が成功します。
100 を法とする演算と 101 を法とする演算の不一致は、基底から生じます。
モジュロ 100 は 101 とは異なり、10 進法 (基数 10) と互換性があるため、単位の桁と十の位を超える桁の目に見えない情報は実際にはタスクに必要ありません。
GPT のようなモデルを使用した広範な実験により、理論的な予測が検証されました。
これらの発見により、一般化メカニズムについての理解が深まり、よりデータ効率の高いモデル トレーニングと目的指向の AI 調整が促進されます。

要約(オリジナル)

Large language models (LLMs) have demonstrated impressive versatility across numerous tasks, yet their generalization capabilities remain poorly understood. To investigate these behaviors, arithmetic tasks serve as important venues. In previous studies, seemingly unrelated mysteries still exist — (1) models with appropriate positional embeddings can correctly perform longer unseen arithmetic operations such as addition, but their effectiveness varies in more complex tasks like multiplication; (2) models perform well for longer unseen cases in modular addition under specific moduli (e.g., modulo 100) but struggle under very close moduli (e.g., modulo 101), regardless of the positional encoding used. We believe previous studies have been treating the symptoms rather than addressing the root cause — they have paid excessive attention to improving model components, while overlooking the differences in task properties that may be the real drivers. This is confirmed by our unified theoretical framework for different arithmetic scenarios. For example, unlike multiplication, the digital addition task has the property of translation invariance which naturally aligns with the relative positional encoding, and this combination leads to successful generalization of addition to unseen longer domains. The discrepancy in operations modulo 100 and 101 arises from the base. Modulo 100, unlike 101, is compatible with the decimal system (base 10), such that unseen information in digits beyond the units digit and the tens digit is actually not needed for the task. Extensive experiments with GPT-like models validate our theoretical predictions. These findings deepen our understanding of the generalization mechanisms, and facilitate more data-efficient model training and objective-oriented AI alignment.

arxiv情報

著者 Xingcheng Xu,Zibo Zhao,Haipeng Zhang,Yanqing Yang
発行日 2024-07-25 11:35:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク