要約
大規模な言語モデルは静的ベンチマークで印象的なパフォーマンスを示していますが、動的環境での自己学習エージェントおよび推論エージェントとしての大規模な言語モデルの真の可能性は不明のままです。
この研究では、エージェントの適応能力をテストするための促す技術としての自己反省、ヒューリスティック変異、および計画の有効性を体系的に評価します。
動的環境でさまざまなオープンソース言語モデルを使用して実験を行い、一般に大きなモデルが小さなモデルよりも優れていることがわかりますが、戦略的プロンプトはこのパフォーマンスのギャップを埋めることができます。
第二に、長すぎるプロンプトは、基本的な反応タスクで小さなモデルに悪影響を与える可能性がありますが、より大きなモデルはより堅牢な動作を示します。
第三に、高度なプロンプトテクニックは主に複雑なゲームで小規模なモデルに利益をもたらしますが、すでに高性能な大手言語モデルの改善が少なくなります。
しかし、高度な推論方法は非常に多様な結果をもたらすことがわかります。推論と意思決定が一致するときにパフォーマンスを大幅に改善することができますが、不安定性も導入し、大きなパフォーマンスの低下につながる可能性があります。
人間のパフォーマンスと比較して、私たちの調査結果は、真の緊急推論の証拠をほとんど明らかにしていません。
代わりに、大規模な言語モデルのパフォーマンスは、計画、推論、空間的調整などの重要な分野で永続的な制限を示し、現在の世代の大規模な言語モデルが依然として基本的な欠点に苦しむことを示唆しています。
推論は多面的なタスクであり、一連の思考のような推論方法は数学の単語の問題の多段階的な推論を改善する一方で、動的ベンチマークを使用した調査結果は、一般的な推論能力の重要な欠点を強調し、静的ベンチマークを超えて推論の複雑さをキャプチャする必要性を示しています。
要約(オリジナル)
While large language models demonstrate impressive performance on static benchmarks, the true potential of large language models as self-learning and reasoning agents in dynamic environments remains unclear. This study systematically evaluates the efficacy of self-reflection, heuristic mutation, and planning as prompting techniques to test the adaptive capabilities of agents. We conduct experiments with various open-source language models in dynamic environments and find that larger models generally outperform smaller ones, but that strategic prompting can close this performance gap. Second, a too-long prompt can negatively impact smaller models on basic reactive tasks, while larger models show more robust behaviour. Third, advanced prompting techniques primarily benefit smaller models on complex games, but offer less improvement for already high-performing large language models. Yet, we find that advanced reasoning methods yield highly variable outcomes: while capable of significantly improving performance when reasoning and decision-making align, they also introduce instability and can lead to big performance drops. Compared to human performance, our findings reveal little evidence of true emergent reasoning. Instead, large language model performance exhibits persistent limitations in crucial areas such as planning, reasoning, and spatial coordination, suggesting that current-generation large language models still suffer fundamental shortcomings that may not be fully overcome through self-reflective prompting alone. Reasoning is a multi-faceted task, and while reasoning methods like Chain of thought improves multi-step reasoning on math word problems, our findings using dynamic benchmarks highlight important shortcomings in general reasoning capabilities, indicating a need to move beyond static benchmarks to capture the complexity of reasoning.
arxiv情報
著者 | Annie Wong,Thomas Bäck,Aske Plaat,Niki van Stein,Anna V. Kononova |
発行日 | 2025-05-15 17:53:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google