要約
最近の研究では、大規模な言語モデル(LLM)、特に小さな言語モデルは、多くの場合、推論に堅牢性を欠いていることが示されています。
つまり、数値変数や名目変数の変化や気晴らし条項の挿入など、分布シフトに直面した場合、パフォーマンスの低下を経験する傾向があります。
これに対処するための可能な戦略には、合成データを生成して、潜在的なバリエーションに関する推論の問題をさらに「インスタンス」することが含まれます。
対照的に、私たちのアプローチは、推論の問題を「抽象化」することに焦点を当てています。
これは、分布のシフトに対抗するだけでなく、ソリューションを導出するためのシンボリックツールとの接続を促進するのにも役立ちます。
この抽象化プロセスは、監視された微調整よりも強化学習(RL)を通じてよりよく獲得されることがわかります。
私たちの方法は、粒状抽象データでRLを使用してLLMSの抽象的な推論を促進する抽象化 – 最近のGSM摂動ベンチマークでのパフォーマンスの劣化を大幅に軽減します。
要約(オリジナル)
Recent studies have shown that large language models (LLMs), especially smaller ones, often lack robustness in their reasoning. I.e., they tend to experience performance drops when faced with distribution shifts, such as changes to numerical or nominal variables, or insertions of distracting clauses. A possible strategy to address this involves generating synthetic data to further ‘instantiate’ reasoning problems on potential variations. In contrast, our approach focuses on ‘abstracting’ reasoning problems. This not only helps counteract distribution shifts but also facilitates the connection to symbolic tools for deriving solutions. We find that this abstraction process is better acquired through reinforcement learning (RL) than just supervised fine-tuning, which often fails to produce faithful abstractions. Our method, AbstraL — which promotes abstract reasoning in LLMs using RL on granular abstraction data — significantly mitigates performance degradation on recent GSM perturbation benchmarks.
arxiv情報
著者 | Silin Gao,Antoine Bosselut,Samy Bengio,Emmanuel Abbe |
発行日 | 2025-06-09 13:34:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google