Correlated Errors in Large Language Models

要約

トレーニングデータ、アーキテクチャ、およびプロバイダーの多様性は、LLMSの均一性を緩和すると想定されています。
ただし、異なるLLMが有意義に異なるかどうかについての経験的証拠はありません。
2つの人気のあるリーダーボードと履歴書を画面化するタスクを使用して、全体で350を超えるLLMSで大規模な経験的評価を実施しています。
モデルエラーにかなりの相関関係があります。1つのリーダーボードデータセットでは、モデルは両方のモデルがエラーする時間の60%に同意します。
共有アーキテクチャやプロバイダーなど、モデルの相関を促進する要因を特定します。
ただし、重要なことに、より大きく、より正確なモデルには、明確なアーキテクチャやプロバイダーがあっても、エラーが高度に相関しています。
最後に、LLM-As-Judgeの評価と雇用の2つの下流タスクにおける相関の効果を示します。

要約(オリジナル)

Diversity in training data, architecture, and providers is assumed to mitigate homogeneity in LLMs. However, we lack empirical evidence on whether different LLMs differ meaningfully. We conduct a large-scale empirical evaluation on over 350 LLMs overall, using two popular leaderboards and a resume-screening task. We find substantial correlation in model errors — on one leaderboard dataset, models agree 60% of the time when both models err. We identify factors driving model correlation, including shared architectures and providers. Crucially, however, larger and more accurate models have highly correlated errors, even with distinct architectures and providers. Finally, we show the effects of correlation in two downstream tasks: LLM-as-judge evaluation and hiring — the latter reflecting theoretical predictions regarding algorithmic monoculture.

arxiv情報

著者 Elliot Kim,Avi Garg,Kenny Peng,Nikhil Garg
発行日 2025-06-09 17:37:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, stat.ML | Correlated Errors in Large Language Models はコメントを受け付けていません

Reliable Collaborative Conversational Agent System Based on LLMs and Answer Set Programming

要約

大規模な言語モデル駆動型(LLM駆動型)人工知能(AI)ボットが人気を博したため、人々はタスク指向の対話(TOD)における彼らの強い可能性に気付きました。
ただし、LLMSに完全に依存しているボットは知識において信頼できず、タスクの正しい結果を最終的に生成できるかどうかは保証されません。
これらのエージェント間のコラボレーションも依然として課題のままです。なぜなら、伝えるために必要な情報は不明であり、情報の転送はプロンプトによるものであるためです。信頼性が低く、悪意のある知識は簡単に注入できます。
回答セットプログラミング(ASP)などの知識表現と推論ツールの助けを借りて、会話エージェントは安全かつ確実に構築でき、エージェント間のコミュニケーションもより信頼性が高くなります。
ASP駆動型のボットが同じ知識ベースを共有し、割り当てられたタスクを独立して完成させるマネージャーカスタマーサービスのデュアルエージェントパラダイムを提案します。
エージェントは、知識ベースを通じて互いに通信し、一貫性を確保します。
伝えられる知識と情報は、カプセル化され、ユーザーには見えないものであり、情報伝達のセキュリティを確保します。
デュアルエージェントの会話パラダイムを説明するために、米国のTaco Bellなどのファーストフードレストランのドライブスルーウィンドウを管理するためのコラボレーションシステムであるAutomanagerを構築しました。
Automanagerでは、カスタマーサービスボットが顧客の注文を受け取り、マネージャーボットがメニューと食料供給を管理します。
Automanagerシステムを評価し、実際のTaco Bell Drive-Thru Ai Order Takerと比較しました。結果は、この方法がより信頼性が高いことを示しています。

要約(オリジナル)

As the Large-Language-Model-driven (LLM-driven) Artificial Intelligence (AI) bots became popular, people realized their strong potential in Task-Oriented Dialogue (TOD). However, bots relying wholly on LLMs are unreliable in their knowledge, and whether they can finally produce a correct outcome for the task is not guaranteed. The collaboration among these agents also remains a challenge, since the necessary information to convey is unclear, and the information transfer is by prompts: unreliable, and malicious knowledge is easy to inject. With the help of knowledge representation and reasoning tools such as Answer Set Programming (ASP), conversational agents can be built safely and reliably, and communication among the agents made more reliable as well. We propose a Manager-Customer-Service Dual-Agent paradigm, where ASP-driven bots share the same knowledge base and complete their assigned tasks independently. The agents communicate with each other through the knowledge base, ensuring consistency. The knowledge and information conveyed are encapsulated and invisible to the users, ensuring the security of information transmission. To illustrate the dual-agent conversational paradigm, we have constructed AutoManager, a collaboration system for managing the drive-through window of a fast-food restaurant such as Taco Bell in the US. In AutoManager, the customer service bot takes the customer’s order while the manager bot manages the menu and food supply. We evaluated our AutoManager system and compared it with the real-world Taco Bell Drive-Thru AI Order Taker, and the results show that our method is more reliable.

arxiv情報

著者 Yankai Zeng,Gopal Gupta
発行日 2025-06-09 17:41:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Reliable Collaborative Conversational Agent System Based on LLMs and Answer Set Programming はコメントを受け付けていません

MIB: A Mechanistic Interpretability Benchmark

要約

新しい機械的解釈可能性の方法が実際の改善を達成するかどうかをどのように知ることができますか?
永続的な評価基準を追求するために、4つのタスクと5つのモデルにまたがる2つのトラックを備えた機械的解釈可能性ベンチマークであるMIBを提案します。
MIBは、神経言語モデルの関連する因果経路または因果変数を正確かつ簡潔に回復する方法を好みます。
回路のローカリゼーショントラックは、モデルコンポーネントとそれらの間の接続を特定するメソッドを比較します – タスクを実行するために最も重要(属性パッチングや情報フロールートなど)。
因果変数ローカリゼーショントラックは、隠されたベクトルを特徴とするメソッド、たとえばスパース自動エンコーダー(SAE)または分散アライメント検索(DAS)を比較し、それらの機能をタスク関連の因果変数に合わせます。
MIBを使用して、アトリビューションとマスクの最適化方法は、回路のローカリゼーションに最適であることがわかります。
因果変数のローカリゼーションでは、監視されたDASメソッドが最適に機能することがわかりますが、SAE機能はニューロンよりも優れていないことがわかります。
これらの調査結果は、MIBが意味のある比較を可能にし、現場で本当の進歩があったという自信を高めることを示しています。

要約(オリジナル)

How can we know whether new mechanistic interpretability methods achieve real improvements? In pursuit of lasting evaluation standards, we propose MIB, a Mechanistic Interpretability Benchmark, with two tracks spanning four tasks and five models. MIB favors methods that precisely and concisely recover relevant causal pathways or causal variables in neural language models. The circuit localization track compares methods that locate the model components – and connections between them – most important for performing a task (e.g., attribution patching or information flow routes). The causal variable localization track compares methods that featurize a hidden vector, e.g., sparse autoencoders (SAEs) or distributed alignment search (DAS), and align those features to a task-relevant causal variable. Using MIB, we find that attribution and mask optimization methods perform best on circuit localization. For causal variable localization, we find that the supervised DAS method performs best, while SAE features are not better than neurons, i.e., non-featurized hidden vectors. These findings illustrate that MIB enables meaningful comparisons, and increases our confidence that there has been real progress in the field.

arxiv情報

著者 Aaron Mueller,Atticus Geiger,Sarah Wiegreffe,Dana Arad,Iván Arcuschin,Adam Belfki,Yik Siu Chan,Jaden Fiotto-Kaufman,Tal Haklay,Michael Hanna,Jing Huang,Rohan Gupta,Yaniv Nikankin,Hadas Orgad,Nikhil Prakash,Anja Reusch,Aruna Sankaranarayanan,Shun Shao,Alessandro Stolfo,Martin Tutek,Amir Zur,David Bau,Yonatan Belinkov
発行日 2025-06-09 17:44:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | MIB: A Mechanistic Interpretability Benchmark はコメントを受け付けていません

HeuriGym: An Agentic Benchmark for LLM-Crafted Heuristics in Combinatorial Optimization

要約

大規模な言語モデル(LLM)は推論とエージェントベースの問題解決において大きな進歩を実証していますが、現在の評価方法論は能力を適切に評価できません。既存のベンチマークは、飽和と記憶の傾向がある、または一貫性と厳格さを欠く主観的な比較に依存しています。
この作業では、明確に定義された目的と広大なソリューションスペースを特徴とする組み合わせ最適化問題のためにLLMによって生成されたヒューリスティックアルゴリズムを評価するために設計されたエージェントフレームワークであるHeurigymを紹介します。
Heurigymは、LLMSにヒューリスティックを提案し、コード実行を介して評価フィードバックを受け取り、ソリューションを繰り返し改善することができます。
コンピューターシステム、ロジスティクス、生物学などのドメイン全体の9つの問題に関する9つの最先端モデルを評価し、ツールの使用、計画、および適応的推論における持続的な制限を明らかにします。
パフォーマンスを定量化するために、ソリューションの合格率と品質の両方をキャプチャするメトリックであるQuality-Yield Index(QYI)を提案します。
GPT-O4-MINI-HIGHやGEMINI-2.5-PROのようなトップモデルでさえ、わずか0.6のQYIスコアを達成し、1の専門家のベースラインをはるかに下回っています。オープンソースベンチマークは、LLMの開発を科学的およびエンジニアリングドメインにおけるより効果的かつ現実的な問題解決に向けて導くことを目的としています。

要約(オリジナル)

While Large Language Models (LLMs) have demonstrated significant advancements in reasoning and agent-based problem-solving, current evaluation methodologies fail to adequately assess their capabilities: existing benchmarks either rely on closed-ended questions prone to saturation and memorization, or subjective comparisons that lack consistency and rigor. In this work, we introduce HeuriGym, an agentic framework designed for evaluating heuristic algorithms generated by LLMs for combinatorial optimization problems, characterized by clearly defined objectives and expansive solution spaces. HeuriGym empowers LLMs to propose heuristics, receive evaluative feedback via code execution, and iteratively refine their solutions. We evaluate nine state-of-the-art models on nine problems across domains such as computer systems, logistics, and biology, exposing persistent limitations in tool use, planning, and adaptive reasoning. To quantify performance, we propose the Quality-Yield Index (QYI), a metric that captures both solution pass rate and quality. Even top models like GPT-o4-mini-high and Gemini-2.5-Pro attain QYI scores of only 0.6, well below the expert baseline of 1. Our open-source benchmark aims to guide the development of LLMs toward more effective and realistic problem-solving in scientific and engineering domains.

arxiv情報

著者 Hongzheng Chen,Yingheng Wang,Yaohui Cai,Hins Hu,Jiajie Li,Shirley Huang,Chenhui Deng,Rongjian Liang,Shufeng Kong,Haoxing Ren,Samitha Samaranayake,Carla P. Gomes,Zhiru Zhang
発行日 2025-06-09 17:46:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | HeuriGym: An Agentic Benchmark for LLM-Crafted Heuristics in Combinatorial Optimization はコメントを受け付けていません

Intelligent Offloading in Vehicular Edge Computing: A Comprehensive Review of Deep Reinforcement Learning Approaches and Architectures

要約

インテリジェントな輸送システム(ITS)の複雑さの増加により、エッジサーバー、車両ノード、UAVなどの外部インフラストラクチャへの計算オフロードに大きな関心が寄せられています。
これらの動的で不均一な環境は、従来のオフロード戦略に課題をもたらし、適応的意思決定フレームワークとして強化学習(RL)とディープ補強学習(DRL)の調査を促します。
この調査では、車両エッジコンピューティング(VEC)のDRLベースのオフロードにおける最近の進歩に関する包括的なレビューを提示します。
学習パラダイム(シングルエージェント、マルチエージェントなど)、システムアーキテクチャ(たとえば、集中、分散、階層的)、および最適化目標(潜時、エネルギー、公平性など)に基づいて、既存の作業を分類および比較します。
さらに、マルコフ決定プロセス(MDP)の定式化がどのように適用されるかを分析し、報酬の設計、調整メカニズム、およびスケーラビリティの新たな傾向を強調します。
最後に、開かれた課題を特定し、将来の研究の方向性を概説して、次世代の堅牢でインテリジェントなオフロード戦略の開発を導きます。

要約(オリジナル)

The increasing complexity of Intelligent Transportation Systems (ITS) has led to significant interest in computational offloading to external infrastructures such as edge servers, vehicular nodes, and UAVs. These dynamic and heterogeneous environments pose challenges for traditional offloading strategies, prompting the exploration of Reinforcement Learning (RL) and Deep Reinforcement Learning (DRL) as adaptive decision-making frameworks. This survey presents a comprehensive review of recent advances in DRL-based offloading for vehicular edge computing (VEC). We classify and compare existing works based on learning paradigms (e.g., single-agent, multi-agent), system architectures (e.g., centralized, distributed, hierarchical), and optimization objectives (e.g., latency, energy, fairness). Furthermore, we analyze how Markov Decision Process (MDP) formulations are applied and highlight emerging trends in reward design, coordination mechanisms, and scalability. Finally, we identify open challenges and outline future research directions to guide the development of robust and intelligent offloading strategies for next-generation ITS.

arxiv情報

著者 Ashab Uddin,Ahmed Hamdi Sakr,Ning Zhang
発行日 2025-06-09 17:49:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG, cs.MA | Intelligent Offloading in Vehicular Edge Computing: A Comprehensive Review of Deep Reinforcement Learning Approaches and Architectures はコメントを受け付けていません

Automated Capability Discovery via Foundation Model Self-Exploration

要約

基礎モデルは汎用アシスタントになり、Webスケールデータのトレーニングを通じて多数のドメインにわたって多様な機能を示しています。
これらの能力と潜在的なリスクの全範囲のほんの一部を正確に特徴づけることは、新しいモデルの潜在的なリスクを正確に特徴付けることは困難なままです。
既存の評価アプローチは、多くの場合、かなりの人間の努力を必要とし、より能力のあるモデルにもっと困難な課題を設計するためにますます努力を払っています。
科学者として1つの基礎モデルを指定するフレームワークであるAutomated Capability Discovery(ACD)を導入し、主題モデル(潜在的にそれ自体)の能力を調査する自由回答形式のタスクを体系的に提案します。
フロンティアモデルをオープンエンドネスの分野からのアイデアと組み合わせることにより、ACDは、サブジェクトモデルの驚くべき能力と障害の多様なスペクトルを自動的かつ体系的に明らかにします。
さまざまなファンデーションモデル(GPT、Claude、およびLlamaシリーズを含む)にわたってACDを実証し、数千の異なるタスクを自動的に生成し、数十のより広範な機能エリアと障害モードを明らかにするようにクラスター化され、1つのチームが明らかにするために困難になります。
さらに、モデル生成と人間の評価との間の高い一致を観察し、広範な人間の調査でメソッドの自動スコアリングを検証します。
ファンデーションモデルのタスクを作成する能力と自己評価の両方を活用することにより、ACDは、新しいAIシステムのスケーラブルで自動化された評価に向けた重要なステップです。
すべてのコードと評価ログは、https://github.com/conglu1997/acdでオープンソースを受けています。

要約(オリジナル)

Foundation models have become general-purpose assistants, exhibiting diverse capabilities across numerous domains through training on web-scale data. It remains challenging to precisely characterize even a fraction of the full spectrum of these abilities and potential risks in any new model. Existing evaluation approaches often require significant human effort, and it is taking increasing effort to design ever harder challenges for more capable models. We introduce Automated Capability Discovery (ACD), a framework that designates one foundation model as a scientist to systematically propose open-ended tasks probing the abilities of a subject model (potentially itself). By combining frontier models with ideas from the field of open-endedness, ACD automatically and systematically uncovers a diverse spectrum of surprising capabilities and failures in the subject model. We demonstrate ACD across a range of foundation models (including the GPT, Claude, and Llama series), showing that it automatically generates thousands of distinct tasks, which are then clustered to reveal dozens of broader capability areas and failure modes, that would be challenging for any single team to uncover. We further validate our method’s automated scoring with extensive human surveys, observing high agreement between model-generated and human evaluations. By leveraging foundation models’ ability to both create tasks and self-evaluate, ACD is a significant step toward scalable, automated evaluation of novel AI systems. All code and evaluation logs are open-sourced at https://github.com/conglu1997/ACD.

arxiv情報

著者 Cong Lu,Shengran Hu,Jeff Clune
発行日 2025-06-09 17:49:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Automated Capability Discovery via Foundation Model Self-Exploration はコメントを受け付けていません

Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction

要約

テスト時間スケーリングの現在のパラダイムは、応答を生成する前に、長い推論トレース(「考えている」)を生成することに依存しています。
相互作用を必要とするエージェントの問題では、これは世界で行動する前に思考の痕跡を生成することによって行うことができます。
ただし、このプロセスでは、エージェントが環境から新しい情報を取得したり、時間の経過とともに行動を適応させることはできません。
この作業では、テスト時間の相互作用をスケーリングすることを提案します。これは、テスト時間スケーリングの未開発の次元であり、エージェントの相互作用ホライズンを増加させて、1回のロールアウト内での探索、バックトラッキング、動的な再プランニングなどのリッチな行動を実行できるようにします。
このスケーリングディメンションの約束を示すために、Webエージェントの領域を研究します。
最初に、トレーニングなしでプロンプトベースのインタラクションスケーリングでさえ、Webベンチマークでのタスクの成功を不可欠で改善できることを示しています。
これに基づいて、カリキュラムベースのオンライン強化学習(RL)アプローチであるTTI(テスト時間インタラクション)を紹介します。
Gemma 3 12Bモデルを使用して、TTIは、WebVoyagerおよびWebArenaベンチマークで最先端のオープンソース、オープンデータWebエージェントを生成します。
さらに、TTIがエージェントが探索と搾取の適応的にバランスをとることができることを示します。
私たちの結果は、ステップあたりのコンピューティングスケーリングへの強力で相補的な軸としての相互作用スケーリングを確立し、適応エージェントをトレーニングするための新しい手段を提供します。

要約(オリジナル)

The current paradigm of test-time scaling relies on generating long reasoning traces (‘thinking’ more) before producing a response. In agent problems that require interaction, this can be done by generating thinking traces before acting in the world. However, this process does not allow agents to acquire new information from the environment or adapt their behavior over time. In this work, we propose to scale test-time interaction, an untapped dimension of test-time scaling that increases the agent’s interaction horizon to enable running rich behaviors such as exploration, backtracking, and dynamic re-planning within a single rollout. To demonstrate the promise of this scaling dimension, we study the domain of web agents. We first show that even prompting-based interaction scaling without any training can improve task success on web benchmarks non-trivially. Building on this, we introduce TTI (Test-Time Interaction), a curriculum-based online reinforcement learning (RL) approach that trains agents by adaptively adjusting their rollout lengths. Using a Gemma 3 12B model, TTI produces state-of-the-art open-source, open-data web agents on WebVoyager and WebArena benchmarks. We further show that TTI enables agents to balance exploration and exploitation adaptively. Our results establish interaction scaling as a powerful, complementary axis to scaling per-step compute, offering new avenues for training adaptive agents.

arxiv情報

著者 Junhong Shen,Hao Bai,Lunjun Zhang,Yifei Zhou,Amrith Setlur,Shengbang Tong,Diego Caples,Nan Jiang,Tong Zhang,Ameet Talwalkar,Aviral Kumar
発行日 2025-06-09 17:50:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction はコメントを受け付けていません

Bipartite Ranking From Multiple Labels: On Loss Versus Label Aggregation

要約

Bipartiteランキングは、単一のバイナリターゲットラベルに対してROC曲線(AUC)の下の最大領域(AUC)のインスタンスにランキングを学習することを目標に、基本的な監視された学習問題です。
ただし、明確なヒトアノテーターから、複数のバイナリターゲットラベル、たとえば複数のバイナリターゲットラベルが観察される場合があります。
このようなラベルを単一のコヒーレントランキングにどのように合成できますか?
この作業では、ベイズ最適なソリューションを特徴付けることにより、この問題に対する2つのアプローチ(損失集約とラベル集計)に対する2つのアプローチを正式に分析します。
どちらのアプローチもパレート最適なソリューションをもたらすことができるが、損失集約はラベル独裁を示すことができることを示しています。
これは、ラベルの集約が損失集約よりも好ましいことを示唆しており、これを経験的に検証します。

要約(オリジナル)

Bipartite ranking is a fundamental supervised learning problem, with the goal of learning a ranking over instances with maximal Area Under the ROC Curve (AUC) against a single binary target label. However, one may often observe multiple binary target labels, e.g., from distinct human annotators. How can one synthesize such labels into a single coherent ranking? In this work, we formally analyze two approaches to this problem — loss aggregation and label aggregation — by characterizing their Bayes-optimal solutions. We show that while both approaches can yield Pareto-optimal solutions, loss aggregation can exhibit label dictatorship: one can inadvertently (and undesirably) favor one label over others. This suggests that label aggregation can be preferable to loss aggregation, which we empirically verify.

arxiv情報

著者 Michal Lukasik,Lin Chen,Harikrishna Narasimhan,Aditya Krishna Menon,Wittawat Jitkrittum,Felix X. Yu,Sashank J. Reddi,Gang Fu,Mohammadhossein Bateni,Sanjiv Kumar
発行日 2025-06-09 17:51:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG, stat.ML | Bipartite Ranking From Multiple Labels: On Loss Versus Label Aggregation はコメントを受け付けていません

$τ^2$-Bench: Evaluating Conversational Agents in a Dual-Control Environment

要約

会話型AIエージェントの既存のベンチマークは、AIエージェントのみがツールを使用して世界と対話できる一方で、ユーザーはパッシブ情報プロバイダーのままである単一制御環境をシミュレートします。
これは、ユーザーが(共有)世界の状態の変更に積極的に参加する必要があるテクニカルサポートのような実際のシナリオとは異なります。
このギャップに対処するために、4つの重要な貢献を備えた$ \ tau^2 $ -benchを導入します。1)dec-pomdpとしてモデル化された新しいテレコムデュアルコントロールドメイン。
カバレッジと複雑さの制御、3)環境と密接に結合した信頼できるユーザーシミュレーターは、その動作がツールと観察可能な状態によって制約され、シミュレーションの忠実度を改善し、4)推論対コミュニケーション/調整から生じるエラーの分離を含む複数のアブレーションによるエージェントパフォーマンスの細かい分析。
特に、私たちの実験では、エージェントがユーザーからデュアルコントロールに移行し、ユーザーを導く課題を強調したときに、大幅なパフォーマンス低下が示されます。
全体として、$ \ tau^2 $ -benchは、効果的に理由とユーザーアクションを導く必要があるエージェント向けの制御されたテストベンチを提供します。

要約(オリジナル)

Existing benchmarks for conversational AI agents simulate single-control environments, where only the AI agent can use tools to interact with the world, while the user remains a passive information provider. This differs from real-world scenarios like technical support, where users need to actively participate in modifying the state of the (shared) world. In order to address this gap, we introduce $\tau^2$-bench, with four key contributions: 1) A novel Telecom dual-control domain modeled as a Dec-POMDP, where both agent and user make use of tools to act in a shared, dynamic environment that tests both agent coordination and communication, 2) A compositional task generator that programmatically creates diverse, verifiable tasks from atomic components, ensuring domain coverage and controlled complexity, 3) A reliable user simulator tightly coupled with the environment, whose behavior is constrained by tools and observable states, improving simulation fidelity, 4) Fine-grained analysis of agent performance through multiple ablations including separating errors arising from reasoning vs communication/coordination. In particular, our experiments show significant performance drops when agents shift from no-user to dual-control, highlighting the challenges of guiding users. Overall, $\tau^2$-bench provides a controlled testbed for agents that must both reason effectively and guide user actions.

arxiv情報

著者 Victor Barres,Honghua Dong,Soham Ray,Xujie Si,Karthik Narasimhan
発行日 2025-06-09 17:52:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | $τ^2$-Bench: Evaluating Conversational Agents in a Dual-Control Environment はコメントを受け付けていません

When Two LLMs Debate, Both Think They’ll Win

要約

LLMSは反対に直面したときに自信を正確に調整できますか?
静的な事実ベースの質問タスクに関するキャリブレーションを測定する以前の研究に基づいて、ダイナミックで敵対的な議論の設定で大きな言語モデル(LLM)を評価し、2つの現実的な要因をユニークに組み合わせます。
私たちは、10の最先端のLLMの間で60の3ラウンドの政策討論を組織しました。モデルは、各ラウンドの後に勝つことで自信(0-100)を個人的に評価しました。
パターンに関する5つのパターンを観察しました。(1)体系的な自信:モデルは、合理的な50%のベースラインと合理的な50%のベースラインの平均初期信頼性で議論を開始しました。
(2)信頼のエスカレーション:議論が進むにつれて自信を減らすのではなく、討論者は勝利の確率を増やし、最終ラウンドで平均83%になりました。
(3)相互過大評価:議論の61.7%で、双方は同時に> = 75%の勝利の確率、論理的不可能性を主張した。
(4)永続的な自己脱線バイアス:同一のコピーを議論するモデルは、64.1%から75.2%に信頼性を高めました。
勝利の可能性を明示的に通知したとしても、正確に50%であったとしても、自信はまだ上昇しました(50.0%から57.1%)。
(5)プライベートな推論の誤ったもの:モデルのプライベートスクラッチパッド思考は、一般の信頼評価とは異なる場合があり、考え方の推論の忠実さについて懸念を引き起こしました。
これらの結果は、LLMが動的なマルチターンタスクに対する信念を正確に評価または更新する能力を欠いていることを示唆しています。
LLMSとしての大きな懸念は、アシスタントおよびエージェントの役割で慎重にレビューすることなく、ますます展開されています。
実験用のコードは、https://github.com/pradyuprasad/llms_overconfidenceで入手できます

要約(オリジナル)

Can LLMs accurately adjust their confidence when facing opposition? Building on previous studies measuring calibration on static fact-based question-answering tasks, we evaluate Large Language Models (LLMs) in a dynamic, adversarial debate setting, uniquely combining two realistic factors: (a) a multi-turn format requiring models to update beliefs as new information emerges, and (b) a zero-sum structure to control for task-related uncertainty, since mutual high-confidence claims imply systematic overconfidence. We organized 60 three-round policy debates among ten state-of-the-art LLMs, with models privately rating their confidence (0-100) in winning after each round. We observed five concerning patterns: (1) Systematic overconfidence: models began debates with average initial confidence of 72.9% vs. a rational 50% baseline. (2) Confidence escalation: rather than reducing confidence as debates progressed, debaters increased their win probabilities, averaging 83% by the final round. (3) Mutual overestimation: in 61.7% of debates, both sides simultaneously claimed >=75% probability of victory, a logical impossibility. (4) Persistent self-debate bias: models debating identical copies increased confidence from 64.1% to 75.2%; even when explicitly informed their chance of winning was exactly 50%, confidence still rose (from 50.0% to 57.1%). (5) Misaligned private reasoning: models’ private scratchpad thoughts sometimes differed from their public confidence ratings, raising concerns about faithfulness of chain-of-thought reasoning. These results suggest LLMs lack the ability to accurately self-assess or update their beliefs in dynamic, multi-turn tasks; a major concern as LLMs are now increasingly deployed without careful review in assistant and agentic roles. Code for our experiments is available at https://github.com/pradyuprasad/llms_overconfidence

arxiv情報

著者 Pradyumna Shyama Prasad,Minh Nhat Nguyen
発行日 2025-06-09 17:54:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | When Two LLMs Debate, Both Think They’ll Win はコメントを受け付けていません