要約
LLM は、類推推論能力をテストするベンチマークなど、いくつかの推論ベンチマークで良好なパフォーマンスを示しています。
ただし、一般的な抽象的な推論をどの程度実行しているのか、それとも、トレーニング前のデータとの類似性に過度に依存するなど、堅牢ではないプロセスを使用しているのかについては議論があります。
ここでは、Webb、Holyoak、Lu (2023) によって研究された 4 つの領域のうち 3 つ、つまり文字列の類似、数字行列、および物語の類似について、LLM について以前に主張されていた類似作成能力の堅牢性を調査します。
各ドメインについて、同じ抽象的な推論能力をテストするが、トレーニング前のデータのタスクとは異なる可能性が高い、元の類推問題の変形に対する堅牢性について、人間と GPT モデルをテストします。
堅牢な抽象推論を使用するシステムのパフォーマンスは、これらのバリアントで大幅に低下することはありません。
単純な文字列の類推で、テストした 2 種類のバリアントでは人間のパフォーマンスは依然として高いものの、GPT モデルのパフォーマンスは急激に低下することがわかります。
人間と GPT モデルの両方が、より複雑な類推を必要とする元の問題と変形した問題の両方でうまく機能しないため、これらの問題の複雑さが増すにつれて、このパターンは顕著ではなくなります。
数字行列の問題では、同様のパターンが見つかりましたが、テストした 2 種類のバリエーションのうちの 1 つでのみでした。
ストーリーベースのアナロジー問題では、人間とは異なり、GPT モデルのパフォーマンスは解答順序の影響を受けやすいこと、また GPT モデルは言い換えに対して人間よりも敏感である可能性があることがわかりました。
この研究は、LLM が人間によるゼロショットの類推作成の堅牢性に欠けていることが多く、テストしたほとんどのバリエーションで脆弱性を示しているという証拠を提供します。
より一般的には、この研究は、AI システムの認知能力をテストする際に、精度だけでなく堅牢性についても慎重に評価することの重要性を指摘しています。
要約(オリジナル)
LLMs have performed well on several reasoning benchmarks, including ones that test analogical reasoning abilities. However, there is debate on the extent to which they are performing general abstract reasoning versus employing non-robust processes, e.g., that overly rely on similarity to pre-training data. Here we investigate the robustness of analogy-making abilities previously claimed for LLMs on three of four domains studied by Webb, Holyoak, and Lu (2023): letter-string analogies, digit matrices, and story analogies. For each domain we test humans and GPT models on robustness to variants of the original analogy problems that test the same abstract reasoning abilities but are likely dissimilar from tasks in the pre-training data. The performance of a system that uses robust abstract reasoning should not decline substantially on these variants. On simple letter-string analogies, we find that while the performance of humans remains high for two types of variants we tested, the GPT models’ performance declines sharply. This pattern is less pronounced as the complexity of these problems is increased, as both humans and GPT models perform poorly on both the original and variant problems requiring more complex analogies. On digit-matrix problems, we find a similar pattern but only on one out of the two types of variants we tested. On story-based analogy problems, we find that, unlike humans, the performance of GPT models are susceptible to answer-order effects, and that GPT models also may be more sensitive than humans to paraphrasing. This work provides evidence that LLMs often lack the robustness of zero-shot human analogy-making, exhibiting brittleness on most of the variations we tested. More generally, this work points to the importance of carefully evaluating AI systems not only for accuracy but also robustness when testing their cognitive capabilities.
arxiv情報
著者 | Martha Lewis,Melanie Mitchell |
発行日 | 2024-11-21 15:25:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google