要約
大規模言語モデル (LLM) は、幅広いアプリケーションにわたって優れたパフォーマンスを実証しています。
しかし、彼らの推論能力を評価することは依然として大きな課題です。
この論文では、物理学や数学などの分野で重要な役割を果たしてきた群と対称性の原理に基づいたフレームワークを紹介し、その能力を評価する別の方法を提供します。
提案されたフレームワークは一般的ですが、これらのプロパティを採用する利点を示すために、算術推論に焦点を当て、閉包、恒等、逆、結合性という 4 つのグループ プロパティに関するこれらのモデルのパフォーマンスを調査します。
私たちの調査結果は、この研究で研究されたLLMが、異なるテスト体制間でグループの特性を維持するのに苦労していることを明らかにしました。
クロージャー テストでは、特定の出力に対するバイアスと、特定のシーケンス長の後にそのパフォーマンスが 100% から 0% に突然低下することが観察されます。
また、コンテキスト内で無関係な情報を追加することを表す同一性テストでもパフォーマンスが低く、否定に対するモデルの堅牢性を検査する逆テストを受けると感度が高くなります。
さらに、問題をより小さなステップに分割することが、私たちが実施した連想性テストにおいて LLM に役立つことを実証しました。
これらのテストをサポートするために、リリースされる合成データセットを開発しました。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated impressive performance across a wide range of applications; however, assessing their reasoning capabilities remains a significant challenge. In this paper, we introduce a framework grounded in group and symmetry principles, which have played a crucial role in fields such as physics and mathematics, and offer another way to evaluate their capabilities. While the proposed framework is general, to showcase the benefits of employing these properties, we focus on arithmetic reasoning and investigate the performance of these models on four group properties: closure, identity, inverse, and associativity. Our findings reveal that LLMs studied in this work struggle to preserve group properties across different test regimes. In the closure test, we observe biases towards specific outputs and an abrupt degradation in their performance from 100% to 0% after a specific sequence length. They also perform poorly in the identity test, which represents adding irrelevant information in the context, and show sensitivity when subjected to inverse test, which examines the robustness of the model with respect to negation. In addition, we demonstrate that breaking down problems into smaller steps helps LLMs in the associativity test that we have conducted. To support these tests we have developed a synthetic dataset which will be released.
arxiv情報
著者 | Shima Imani,Hamid Palangi |
発行日 | 2024-08-30 16:42:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google