Case-Based or Rule-Based: How Do Transformers Do the Math?

要約

最新の大規模言語モデル (LLM) は、さまざまな複雑なタスクで優れたパフォーマンスを発揮しますが、足し算など、人間にとって単純で直感的ないくつかの数学問題を扱うのに依然として困難を抱えています。
私たちは足し算の基本的なルールを簡単に学び、それを任意の長さの新しい問題に適用することができますが、LLM は同じことを行うのに苦労します。
代わりに、トレーニング コーパスにある同様の「ケース」に助けを求めることができます。
これら 2 つの異なる推論メカニズムを「ルールベースの推論」と「ケースベースの推論」として定義します。
規則に基づく推論は体系的な汎化能力を身につけるために不可欠であるため、変換者が数学の問題に対して規則に基づく推論を使用するか、ケースベースの推論を使用するかを正確に調査することを目的としています。
5 つの数学タスクに対する慎重に設計された介入実験を通じて、スクラッチパッドが使用されているかどうかに関係なく、トランスフォーマーがケースベースの推論を実行していることを確認します。これは、トランスフォーマーが推論にサブグラフ マッチング/ショートカット学習を使用するという以前の観察と一致します。
このような問題を軽減するために、変換器にルールベースの推論を実行するよう教えるルールフォローイング微調整 (RFFT) 手法を提案します。
具体的には、入力で明示的なルールを提供し、トランスフォーマーにそのルールを段階的に暗唱して従うように指示します。
RFFT を通じて、1 ~ 5 桁の加算で微調整された LLM を、スクラッチパッドより 40% 以上高い 95% 以上の精度で最大 12 桁の加算まで一般化できるようにすることに成功しました。
この大幅な改善は、LLM にルールを明示的に使用するように教えることで、ルールに基づいた推論を学習し、長さの点でより一般化できるようになることを示しています。

要約(オリジナル)

Despite the impressive performance in a variety of complex tasks, modern large language models (LLMs) still have trouble dealing with some math problems that are simple and intuitive for humans, such as addition. While we can easily learn basic rules of addition and apply them to new problems of any length, LLMs struggle to do the same. Instead, they may rely on similar ‘cases’ seen in the training corpus for help. We define these two different reasoning mechanisms as ‘rule-based reasoning’ and ‘case-based reasoning’. Since rule-based reasoning is essential for acquiring the systematic generalization ability, we aim to explore exactly whether transformers use rule-based or case-based reasoning for math problems. Through carefully designed intervention experiments on five math tasks, we confirm that transformers are performing case-based reasoning, no matter whether scratchpad is used, which aligns with the previous observations that transformers use subgraph matching/shortcut learning to reason. To mitigate such problems, we propose a Rule-Following Fine-Tuning (RFFT) technique to teach transformers to perform rule-based reasoning. Specifically, we provide explicit rules in the input and then instruct transformers to recite and follow the rules step by step. Through RFFT, we successfully enable LLMs fine-tuned on 1-5 digit addition to generalize to up to 12-digit addition with over 95% accuracy, which is over 40% higher than scratchpad. The significant improvement demonstrates that teaching LLMs to explicitly use rules helps them learn rule-based reasoning and generalize better in length.

arxiv情報

著者 Yi Hu,Xiaojuan Tang,Haotong Yang,Muhan Zhang
発行日 2024-02-27 17:41:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク