Impact of Noise on LLM-Models Performance in Abstraction and Reasoning Corpus (ARC) Tasks with Model Temperature Considerations

要約

大規模な言語モデル(LLMS)の最近の進歩により、特に抽象化とパターン認識を含むタスクに、構造化された推論能力に関心が高まっています。
抽象化と推論コーパス(ARC)ベンチマークは、AIモデルが新しい問題にどの程度一般化するかをテストすることにより、これらの機能を評価する上で重要な役割を果たします。
GPT-4oは、ゼロノイズ条件下ですべてのアークタスクを解決することで強力なパフォーマンスを示しますが、Deepseek R1やLlama 3.2などの他のモデルは解決に失敗し、単純なパターンマッチングを超えて推論する能力の制限を示唆しています。
このギャップを調査するために、さまざまなノイズレベルと温度設定でこれらのモデルを体系的に評価します。
我々の結果は、ノイズの導入がアーキテクチャに関係なく、モデルのパフォーマンスを一貫して損なうことを明らかにしています。
この減少は、共有された脆弱性を強調しています。現在のLLMは、抽象的な推論の兆候を示しているにもかかわらず、入力摂動に非常に敏感なままです。
このような脆弱性は、騒音と不確実性が一般的である現実世界の適用性について懸念を引き起こします。
さまざまなモデルアーキテクチャがこれらの課題にどのように対応するかを比較することにより、推論タスクにおける現代LLMの構造的な弱点に関する洞察を提供します。
この作業は、実際のシナリオに固有の曖昧さと変動性を処理できる、より堅牢で適応性のあるAIシステムを開発する必要性を強調しています。
私たちの調査結果は、モデルの一般化、堅牢性、および人間のような認知的柔軟性との連携を強化するための将来の研究を導くことを目的としています。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have generated growing interest in their structured reasoning capabilities, particularly in tasks involving abstraction and pattern recognition. The Abstraction and Reasoning Corpus (ARC) benchmark plays a crucial role in evaluating these capabilities by testing how well AI models generalize to novel problems. While GPT-4o demonstrates strong performance by solving all ARC tasks under zero-noise conditions, other models like DeepSeek R1 and LLaMA 3.2 fail to solve any, suggesting limitations in their ability to reason beyond simple pattern matching. To explore this gap, we systematically evaluate these models across different noise levels and temperature settings. Our results reveal that the introduction of noise consistently impairs model performance, regardless of architecture. This decline highlights a shared vulnerability: current LLMs, despite showing signs of abstract reasoning, remain highly sensitive to input perturbations. Such fragility raises concerns about their real-world applicability, where noise and uncertainty are common. By comparing how different model architectures respond to these challenges, we offer insights into the structural weaknesses of modern LLMs in reasoning tasks. This work underscores the need for developing more robust and adaptable AI systems capable of handling the ambiguity and variability inherent in real-world scenarios. Our findings aim to guide future research toward enhancing model generalization, robustness, and alignment with human-like cognitive flexibility.

arxiv情報

著者 Nikhil Khandalkar,Pavan Yadav,Krishna Shinde,Lokesh B. Ramegowda,Rajarshi Das
発行日 2025-04-22 13:43:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク