AutoL2S: Auto Long-Short Reasoning for Efficient Large Language Models

要約

推論対応の大規模な言語モデル(LLMS)は、複雑な推論タスクで強力なパフォーマンスを示していますが、しばしば考え過ぎに苦しみ、不必要に長い考え方(COT)の推論パスを生成して、推論コストと遅延が増加します。
最近のアプローチは、長いまたは短い推論をいつ適用するかを手動で決定することにより、この課題に対処しようとします。
ただし、質問の複雑さに基づいて動的にコットの長さを適応させる柔軟性がありません。
このホワイトペーパーでは、LLMが推論質問の複雑さに基づいて生成された推論パスを動的に圧縮できるようにする動的でモデルに依存しないフレームワークであるAuto Long-Short Reasoning(Autol2s)を提案します。
Autol2sは、LLM自体がより長い推論が必要な時期と十分な場合に十分な場合に、長いCOTパスと短いCOTパスと特別なトークンの両方を含む提案された方法で注釈されたデータをトレーニングすることにより、学習したパラダイムを有効にします。
次に、トークンを使用して、モデルがいつ長いコットの推論を生成できるかをスキップできるかを示します。
この提案された注釈戦略は、トレーニング後の品質が向上した短いCOT推論パスを生成するLLMSの能力を高めることができます。
広範な評価結果は、AUTOL2Sがパフォーマンスを損なうことなく、推論生成の長さを最大57%削減し、スケーラブルで効率的なLLM推論に対するAUTOL2の有効性を示していることを示しています。

要約(オリジナル)

The reasoning-capable large language models (LLMs) demonstrate strong performance on complex reasoning tasks but often suffer from overthinking, generating unnecessarily long chain-of-thought (CoT) reasoning paths for easy reasoning questions, thereby increasing inference cost and latency. Recent approaches attempt to address this challenge by manually deciding when to apply long or short reasoning. However, they lack the flexibility to adapt CoT length dynamically based on question complexity. In this paper, we propose Auto Long-Short Reasoning (AutoL2S), a dynamic and model-agnostic framework that enables LLMs to dynamically compress their generated reasoning path based on the complexity of the reasoning question. AutoL2S enables a learned paradigm, in which LLMs themselves can decide when longer reasoning is necessary and when shorter reasoning suffices, by training on data annotated with our proposed method, which includes both long and short CoT paths and a special token. We then use token to indicate when the model can skip generating lengthy CoT reasoning. This proposed annotation strategy can enhance the LLMs’ ability to generate shorter CoT reasoning paths with improved quality after training. Extensive evaluation results show that AutoL2S reduces the length of reasoning generation by up to 57% without compromising performance, demonstrating the effectiveness of AutoL2S for scalable and efficient LLM reasoning.

arxiv情報

著者 Feng Luo,Yu-Neng Chuang,Guanchu Wang,Hoang Anh Duy Le,Shaochen Zhong,Hongyi Liu,Jiayi Yuan,Yang Sui,Vladimir Braverman,Vipin Chaudhary,Xia Hu
発行日 2025-05-28 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | AutoL2S: Auto Long-Short Reasoning for Efficient Large Language Models はコメントを受け付けていません

How Do LLMs Perform Two-Hop Reasoning in Context?

要約

「ソクラテスは人間です。
すべての人間は致命的です。
したがって、ソクラテスは致命的です。」この形式の議論は、2ホップの推論の典型的なパターンを示しています。
正式には、2ホップの推論とは、最終的な結論が両方のステップの統合に依存するように、2つの論理的なステップを作成することにより、結論を推測するプロセスを指します。
これは、人間の推論の最も基本的な要素の1つであり、正式な論理と日常の意思決定の両方において重要な役割を果たしています。
大規模な言語モデル(LLMS)の最近の進歩にもかかわらず、驚くべきことに、ディストラクタが存在するときに簡単な2ホップ推論の問題を解決することに失敗する可能性があることがわかりました。
合成データセットでは、事前に訓練されたLLMSがしばしばすべてのもっともらしい結論の中でランダムな推測に頼ることがあることを観察します。
ただし、微調整の数段階の後、モデルはほぼ完璧な精度を実現し、強い長さの一般化を示します。
基礎となるメカニズムを理解するために、合成2ホップの推論タスクで3層トランスをゼロから訓練し、内部情報フローをリバースエンジニアリングします。
トレーニング中の注意ロジッツの明確な進行を観察します。
これは、ランダム推測の初期段階から構造化されたシーケンシャルクエリメカニズムの出現への鋭い位相遷移を描いています。ここでは、モデルが最初に前のレイヤーの前の概念とブリッジの概念を最初に取得し、次に最終回答を推測します。
最後に、これらのダイナミクスは、最小限の3パラメーターの注意のみネットワークによってキャプチャできることを示します。

要約(オリジナル)

“Socrates is human. All humans are mortal. Therefore, Socrates is mortal.” This form of argument illustrates a typical pattern of two-hop reasoning. Formally, two-hop reasoning refers to the process of inferring a conclusion by making two logical steps, each connecting adjacent concepts, such that the final conclusion depends on the integration of both steps. It is one of the most fundamental components of human reasoning and plays a crucial role in both formal logic and everyday decision-making. Despite recent progress in large language models (LLMs), we surprisingly find that they can fail at solving simple two-hop reasoning problems when distractors are present. We observe on a synthetic dataset that pre-trained LLMs often resort to random guessing among all plausible conclusions. However, after few steps of fine-tuning, models achieve near-perfect accuracy and exhibit strong length generalization. To understand the underlying mechanisms, we train a 3-layer Transformer from scratch on a synthetic two-hop reasoning task and reverse-engineer its internal information flow. We observe a clear progression in the attention logits throughout training. This pictures a sharp phase transition from an initial stage of random guessing to the emergence of a structured sequential query mechanism, where the model first retrieves the preceding and the bridge concepts in the early layers and then uses them to infer the final answer. Finally, we show that these dynamics can be captured by a minimal three-parameter attention-only network.

arxiv情報

著者 Tianyu Guo,Hanlin Zhu,Ruiqi Zhang,Jiantao Jiao,Song Mei,Michael I. Jordan,Stuart Russell
発行日 2025-05-28 15:25:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | How Do LLMs Perform Two-Hop Reasoning in Context? はコメントを受け付けていません

Human-Centered Human-AI Collaboration (HCHAC)

要約

インテリジェントな時代において、人間とインテリジェントシステムとの相互作用には、基本的に自律的なインテリジェントエージェントとのコラボレーションが含まれます。
Human-AIコラボレーション(HAC)は、AIテクノロジーを備えた自律的なインテリジェントマシンによって促進される新しいタイプのヒューマシン関係を表しています。
このパラダイムでは、AIエージェントは補助ツールとしてだけでなく、活発なチームメイトとしても役立ち、人間と提携して協調してタスクを達成します。
人間中心のAI(HCAI)は、人間がコラボレーションにおいて批判的なリーダーシップの役割を果たすことを強調しています。
この人間主導のコラボレーションは、HACによって提起されたユニークな課題に対処するために、革新的な研究の観点、パラダイム、アジェンダを必要とする人間の関係に新しい次元を与えます。
この章では、人間中心の視点からHACの本質を掘り下げ、そのコア概念と際立った特徴を概説します。
HCAIの観点からHAC分野内の現在の研究方法論と研究アジェンダをレビューし、進歩と進行中の研究を強調しています。
さらに、これらのレビューと分析を統合することにより、人間中心のHAC(HCHAC)のフレームワークが提案されています。
自動運転車のコンテキストでのHACのケーススタディが提供され、実用的な用途と人間とAIのエージェント間の相乗的相互作用を示しています。
最後に、多様なドメインにおける人間中心のHACシステムの有効性、信頼性、倫理的統合を強化することを目的とした潜在的な将来の研究方向を特定します。

要約(オリジナル)

In the intelligent era, the interaction between humans and intelligent systems fundamentally involves collaboration with autonomous intelligent agents. Human-AI Collaboration (HAC) represents a novel type of human-machine relationship facilitated by autonomous intelligent machines equipped with AI technologies. In this paradigm, AI agents serve not only as auxiliary tools but also as active teammates, partnering with humans to accomplish tasks collaboratively. Human-centered AI (HCAI) emphasizes that humans play critical leadership roles in the collaboration. This human-led collaboration imparts new dimensions to the human-machine relationship, necessitating innovative research perspectives, paradigms, and agenda to address the unique challenges posed by HAC. This chapter delves into the essence of HAC from the human-centered perspective, outlining its core concepts and distinguishing features. It reviews the current research methodologies and research agenda within the HAC field from the HCAI perspective, highlighting advancements and ongoing studies. Furthermore, a framework for human-centered HAC (HCHAC) is proposed by integrating these reviews and analyses. A case study of HAC in the context of autonomous vehicles is provided, illustrating practical applications and the synergistic interactions between humans and AI agents. Finally, it identifies potential future research directions aimed at enhancing the effectiveness, reliability, and ethical integration of human-centered HAC systems in diverse domains.

arxiv情報

著者 Qi Gao,Wei Xu,Hanxi Pan,Mowei Shen,Zaifeng Gao
発行日 2025-05-28 15:27:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC | Human-Centered Human-AI Collaboration (HCHAC) はコメントを受け付けていません

Position: Don’t Use the CLT in LLM Evals With Fewer Than a Few Hundred Datapoints

要約

有効なエラーバーや有意性テストを含む、大規模な言語モデル(LLM)の厳密な統計的評価は、意味のある信頼性の高いパフォーマンス評価に不可欠です。
現在、そのような統計的測定が報告されている場合、それらは通常、中央の限界定理(CLT)に依存しています。
このポジションペーパーでは、ベンチマークが何千もの例で構成されている場合、CLTベースの不確実性の定量化方法が適切であるが、小規模で高度に専門化されたベンチマークに依存するLLM評価に適切な不確実性の推定値を提供できないと主張します。
これらの小さなデータ設定では、CLTベースのメソッドは非常に不十分に機能し、通常は劇的に不確実性を過小評価していることが示されています(つまり、小さすぎるエラーバーの生成)。
これらのますます一般的なシナリオで、実装が容易であり、より適切な代替の頻繁なメソッドとベイジアンの方法に関する推奨事項を提供します。
https://github.com/sambowyer/bayes_evalsでこれらのベイジアンメソッド用のシンプルなPythonライブラリを提供します。

要約(オリジナル)

Rigorous statistical evaluations of large language models (LLMs), including valid error bars and significance testing, are essential for meaningful and reliable performance assessment. Currently, when such statistical measures are reported, they typically rely on the Central Limit Theorem (CLT). In this position paper, we argue that while CLT-based methods for uncertainty quantification are appropriate when benchmarks consist of thousands of examples, they fail to provide adequate uncertainty estimates for LLM evaluations that rely on smaller, highly specialized benchmarks. In these small-data settings, we demonstrate that CLT-based methods perform very poorly, usually dramatically underestimating uncertainty (i.e. producing error bars that are too small). We give recommendations for alternative frequentist and Bayesian methods that are both easy to implement and more appropriate in these increasingly common scenarios. We provide a simple Python library for these Bayesian methods at https://github.com/sambowyer/bayes_evals .

arxiv情報

著者 Sam Bowyer,Laurence Aitchison,Desi R. Ivanova
発行日 2025-05-28 15:29:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Position: Don’t Use the CLT in LLM Evals With Fewer Than a Few Hundred Datapoints はコメントを受け付けていません

Learned Collusion

要約

Qラーニングは、利用可能な各アクションに関連付けられた継続値の推定値(Q値)を提供し、ほとんど常に最高のQ値でアクションを選択するナイーブポリシーに従う汎用オートマトンとして説明できます。
Q値に基づいたオートマトンファミリーを検討します。Q値は、たとえば協力を支持するバイアスを通じて、他のアクションよりも体系的に支持する可能性があります。
安定した平衡バイアスを探します。これは、バイアスよりも収束するロジット/ベスト応答ダイナミクスの下で簡単に学習し、暗黙の合意を必要としません。
これらのバイアスは、初期Q値とは無関係に、ペイオフおよび監視構造の豊富な配列にわたって共謀または協力を強く促進します。

要約(オリジナル)

Q-learning can be described as an all-purpose automaton that provides estimates (Q-values) of the continuation values associated with each available action and follows the naive policy of almost always choosing the action with highest Q-value. We consider a family of automata based on Q-values, whose policy may systematically favor some actions over others, for example through a bias that favors cooperation. We look for stable equilibrium biases, easily learned under converging logit/best-response dynamics over biases, not requiring any tacit agreement. These biases strongly foster collusion or cooperation across a rich array of payoff and monitoring structures, independently of initial Q-values.

arxiv情報

著者 Olivier Compte
発行日 2025-05-28 15:32:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, econ.TH | Learned Collusion はコメントを受け付けていません

On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling

要約

大規模なビジョンモデルと言語モデルをトレーニングするための主要なパラダイムは、HE初期化と単一のグローバル学習率(\ TextIT {Standard Parameterization}、SP)です。
その実際的な成功にもかかわらず、標準的なパラメーター化は理論的な観点からはあまり理解されていません。既存の無限幅の理論は、大規模な学習率の下での不安定性と安定した学習率の下での機能学習の消失を予測します。
ただし、経験的に最適な学習率は、理論的に予測されたよりもはるかに遅く崩壊します。
ニューラルネットワークトレーニングのダイナミクスを慎重に研究することにより、この矛盾は、カタパルト効果や重量と着信活性化の間の整合の欠如などの有限幅の現象によって完全には説明されていないことを実証します。
代わりに、見かけの矛盾が損失関数を考慮することで根本的に解決できることを示します。平均四角誤差(MSE)損失とは対照的に、交差エントロピー(CE)損失の下で、中間\ textIT {制御された分岐}レジームが現れます。
大規模な学習レート下での安定したトレーニングにより、すべての隠れた層で規模の永続的な機能の進化が可能になります。これは、SPの実際的な成功に重要です。
オプティマイザー(SGD、ADAM)、アーキテクチャ(MLP、GPT)、およびデータモダリティ(ビジョン、言語)を介した実験では、MSE損失の下ではなく、この制御された分岐制度でニューラルネットワークが動作することを検証します。
私たちの経験的証拠は、経験的に最適な学習速度指数を予測するのに幅を拡大する考慮事項が驚くほど有用であることを示唆しています。
最後に、分析は、標準の初期化のために最近提案された層状学習率のスケーリングの有効性と制限を明確にします。

要約(オリジナル)

The dominant paradigm for training large-scale vision and language models is He initialization and a single global learning rate (\textit{standard parameterization}, SP). Despite its practical success, standard parametrization remains poorly understood from a theoretical perspective: Existing infinite-width theory would predict instability under large learning rates and vanishing feature learning under stable learning rates. However, empirically optimal learning rates consistently decay much slower than theoretically predicted. By carefully studying neural network training dynamics, we demonstrate that this discrepancy is not fully explained by finite-width phenomena such as catapult effects or a lack of alignment between weights and incoming activations. We instead show that the apparent contradiction can be fundamentally resolved by taking the loss function into account: In contrast to Mean Squared Error (MSE) loss, we prove that under cross-entropy (CE) loss, an intermediate \textit{controlled divergence} regime emerges, where logits diverge but loss, gradients, and activations remain stable. Stable training under large learning rates enables persistent feature evolution at scale in all hidden layers, which is crucial for the practical success of SP. In experiments across optimizers (SGD, Adam), architectures (MLPs, GPT) and data modalities (vision, language), we validate that neural networks operate in this controlled divergence regime under CE loss but not under MSE loss. Our empirical evidence suggests that width-scaling considerations are surprisingly useful for predicting empirically optimal learning rate exponents. Finally, our analysis clarifies the effectiveness and limitations of recently proposed layerwise learning rate scalings for standard initialization.

arxiv情報

著者 Moritz Haas,Sebastian Bordt,Ulrike von Luxburg,Leena Chennuru Vankadara
発行日 2025-05-28 15:40:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling はコメントを受け付けていません

Demystifying the Paradox of Importance Sampling with an Estimated History-Dependent Behavior Policy in Off-Policy Evaluation

要約

このホワイトペーパーでは、重要性サンプリングの行動ポリシーの推定に焦点を当てた強化学習におけるオフポリシー評価(OPE)を研究します。
以前の研究では、履歴依存の行動ポリシーを推定すると、真の行動ポリシーがマルコビアンであっても、平均平方エラー(MSE)が低くなる可能性があることが経験的に示されています。
ただし、なぜ歴史の使用がMSEを下げるのかという問題は、開いたままです。
この論文では、通常の重要性サンプリング(IS)推定量のMSEのバイアス分散分解を導出することにより、このパラドックスを理論的に分析し、履歴依存の行動政策推定が漸近的変異を減少させながら有限サンプルバイアスを増加させることを示しています。
さらに、より長い履歴に関する推定行動政策条件として、分散の一貫した減少を示します。
これらの発見は、シーケンシャルIS推定器、二重堅牢性推定器、および疎外されたIS推定器を含む他のさまざまなOPE推定器に拡張し、行動ポリシーはパラメトリックまたはノンパラメトリックで推定されます。

要約(オリジナル)

This paper studies off-policy evaluation (OPE) in reinforcement learning with a focus on behavior policy estimation for importance sampling. Prior work has shown empirically that estimating a history-dependent behavior policy can lead to lower mean squared error (MSE) even when the true behavior policy is Markovian. However, the question of why the use of history should lower MSE remains open. In this paper, we theoretically demystify this paradox by deriving a bias-variance decomposition of the MSE of ordinary importance sampling (IS) estimators, demonstrating that history-dependent behavior policy estimation decreases their asymptotic variances while increasing their finite-sample biases. Additionally, as the estimated behavior policy conditions on a longer history, we show a consistent decrease in variance. We extend these findings to a range of other OPE estimators, including the sequential IS estimator, the doubly robust estimator and the marginalized IS estimator, with the behavior policy estimated either parametrically or non-parametrically.

arxiv情報

著者 Hongyi Zhou,Josiah P. Hanna,Jin Zhu,Ying Yang,Chengchun Shi
発行日 2025-05-28 15:42:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Demystifying the Paradox of Importance Sampling with an Estimated History-Dependent Behavior Policy in Off-Policy Evaluation はコメントを受け付けていません

Novelty Detection in Reinforcement Learning with World Models

要約

世界モデルを使用した補強学習(RL)は、最近の大幅な成功を発見しています。
ただし、世界の仕組みやプロパティの突然の変化が発生すると、エージェントのパフォーマンスと信頼性が劇的に低下する可能性があります。
視覚的特性の突然の変化または状態の移行を斬新と呼びます。
生成された世界モデルフレームワーク内でノベルティ検出を実装することは、展開時にエージェントを保護するための重要なタスクです。
この論文では、世界モデルの幻覚状態と真の観察された状態の不整合を異常スコアとして利用することにより、世界モデルRLエージェントに斬新な検出を組み込むための簡単な境界アプローチを提案します。
世界モデルのエージェントによって学習した遷移の分布におけるノベルティを検出するための効果的なアプローチを提供します。
最後に、従来の機械学習のノベルティ検出方法と、現在受け入れられているRL焦点の斬新な検出アルゴリズムと比較して、新しい環境での仕事の利点を示しています。

要約(オリジナル)

Reinforcement learning (RL) using world models has found significant recent successes. However, when a sudden change to world mechanics or properties occurs then agent performance and reliability can dramatically decline. We refer to the sudden change in visual properties or state transitions as novelties. Implementing novelty detection within generated world model frameworks is a crucial task for protecting the agent when deployed. In this paper, we propose straightforward bounding approaches to incorporate novelty detection into world model RL agents, by utilizing the misalignment of the world model’s hallucinated states and the true observed states as an anomaly score. We provide effective approaches to detecting novelties in a distribution of transitions learned by an agent in a world model. Finally, we show the advantage of our work in a novel environment compared to traditional machine learning novelty detection methods as well as currently accepted RL focused novelty detection algorithms.

arxiv情報

著者 Geigh Zollicoffer,Kenneth Eaton,Jonathan Balloch,Julia Kim,Wei Zhou,Robert Wright,Mark O. Riedl
発行日 2025-05-28 15:48:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY | Novelty Detection in Reinforcement Learning with World Models はコメントを受け付けていません

From Strangers to Assistants: Fast Desire Alignment for Embodied Agent-User Adaptation

要約

具体化されたエージェントは複雑な物理的タスクの実行に大きな進歩を遂げていますが、実際のアプリケーションは純粋なタスクの実行よりも多くを必要とします。
エージェントは、なじみのないエージェントや人間のユーザーと協力する必要があります。その目標は、しばしばあいまいで暗黙的です。
このような設定では、曖昧な指示を解釈し、根本的な欲求を明らかにすることが、効果的な支援のために不可欠です。
したがって、高速かつ正確な欲求アライメントは、具体化されたエージェントにとって重要な能力になります。
この作業では、最初に、現実的な価値駆動型の目標の選択とコミュニケーションを示すLLM主導のヒューマンユーザーエージェントを統合するホームアシスタンスシミュレーション環境を開発します。
自我エージェントは、このプロキシユーザーと対話して、ユーザーの潜在的な欲求を推測して適応させる必要があります。
これを達成するために、私たちは、ユーザーの意図を特定し、欲望と傍観的なアクションをフィルタリングするための欲求に基づいた精神的推論メカニズムを導入する、速い欲望の整合性のための新しいフレームワークfamerを提示します。
さらに、リフレクションベースの通信モジュールを設計し、冗長な問い合わせを減らし、メモリの持続性を備えた目標関連の情報抽出を組み込み、情報の再利用を改善し、不必要な探索を減らします。
広範な実験は、このフレームワークがタスクの実行と通信効率の両方を大幅に向上させ、具体化されたエージェントが複雑な具体化された環境でユーザー固有の欲求に迅速に適応できるようにすることを示しています。

要約(オリジナル)

While embodied agents have made significant progress in performing complex physical tasks, real-world applications demand more than pure task execution. The agents must collaborate with unfamiliar agents and human users, whose goals are often vague and implicit. In such settings, interpreting ambiguous instructions and uncovering underlying desires is essential for effective assistance. Therefore, fast and accurate desire alignment becomes a critical capability for embodied agents. In this work, we first develop a home assistance simulation environment HA-Desire that integrates an LLM-driven human user agent exhibiting realistic value-driven goal selection and communication. The ego agent must interact with this proxy user to infer and adapt to the user’s latent desires. To achieve this, we present a novel framework FAMER for fast desire alignment, which introduces a desire-based mental reasoning mechanism to identify user intent and filter desire-irrelevant actions. We further design a reflection-based communication module that reduces redundant inquiries, and incorporate goal-relevant information extraction with memory persistence to improve information reuse and reduce unnecessary exploration. Extensive experiments demonstrate that our framework significantly enhances both task execution and communication efficiency, enabling embodied agents to quickly adapt to user-specific desires in complex embodied environments.

arxiv情報

著者 Yuanfei Wang,Xinju Huang,Fangwei Zhong,Yaodong Yang,Yizhou Wang,Yuanpei Chen,Hao Dong
発行日 2025-05-28 15:51:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO | From Strangers to Assistants: Fast Desire Alignment for Embodied Agent-User Adaptation はコメントを受け付けていません

Overcoming the Machine Penalty with Imperfectly Fair AI Agents

要約

急速な技術の進歩にもかかわらず、効果的な人間マシンの協力は依然として大きな課題です。
人間は、機械のペナルティとして知られる現象である仲間の人間よりも機械と協力する傾向があります。
ここでは、大規模な言語モデルを搭載した人工知能(AI)エージェントが、コミュニケーションで社会的ジレンマゲームでこのペナルティを克服できることを示しています。
1,152人の参加者との事前に登録された実験では、利己的、協力的、公正な3つの異なるペルソナを示すAIエージェントを展開します。
ただし、公正なエージェントのみが、人間の相互作用に匹敵する料金で人間の協力を引き出します。
分析により、人間の参加者と同様に、公正なエージェントが試合前の協力の約束を時々破ることがあるが、それでも社会的規範として効果的に協力を確立することが明らかになった。
これらの結果は、利他的なアシスタントまたは合理的な俳優としての従来の機械の知恵に挑戦します。
代わりに、私たちの研究は、人間の社会的行動の微妙な複雑さを反映したAIエージェントの重要性を強調しています。

要約(オリジナル)

Despite rapid technological progress, effective human-machine cooperation remains a significant challenge. Humans tend to cooperate less with machines than with fellow humans, a phenomenon known as the machine penalty. Here, we show that artificial intelligence (AI) agents powered by large language models can overcome this penalty in social dilemma games with communication. In a pre-registered experiment with 1,152 participants, we deploy AI agents exhibiting three distinct personas: selfish, cooperative, and fair. However, only fair agents elicit human cooperation at rates comparable to human-human interactions. Analysis reveals that fair agents, similar to human participants, occasionally break pre-game cooperation promises, but nonetheless effectively establish cooperation as a social norm. These results challenge the conventional wisdom of machines as altruistic assistants or rational actors. Instead, our study highlights the importance of AI agents reflecting the nuanced complexity of human social behaviors — imperfect yet driven by deeper social cognitive processes.

arxiv情報

著者 Zhen Wang,Ruiqi Song,Chen Shen,Shiya Yin,Zhao Song,Balaraju Battu,Lei Shi,Danyang Jia,Talal Rahwan,Shuyue Hu
発行日 2025-05-28 16:01:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.HC, econ.GN, q-fin.EC | Overcoming the Machine Penalty with Imperfectly Fair AI Agents はコメントを受け付けていません