The Influence of Human-inspired Agentic Sophistication in LLM-driven Strategic Reasoners

要約

大規模な言語モデル(LLMS)の急速な上昇は、人工知能(AI)の研究をエージェントシステムに向けてシフトし、エージェンシーのより弱く柔軟な概念の使用を動機付けました。
ただし、このシフトは、LLMベースのエージェントが、特にゲーム理論の設定で、人間の戦略的推論を複製する程度について重要な疑問を提起します。
これに関連して、3つのエージェントデザインを評価することにより、人工的な推論者のパフォーマンスを形作る際のエージェントの洗練度の役割を調べます:単純なゲーム理論モデル、エージェントとしての非構造化されたLLM-AS-A-ASENTモデル、および従来のエージェントフレームワークに統合されたLLM。
Guessing Gamesをテストベッドとして使用して、一般的な推論パターンと個々の役割ベースの目標を越えて、これらのエージェントを人間の参加者に対してベンチマークしました。
さらに、トレーニング分布を超えて一般化するエージェントの能力を評価するために、難読化されたゲームシナリオを導入しました。
25のエージェント構成にわたって2000を超える推論サンプルをカバーする分析は、人間に触発された認知構造が、人間の戦略的行動とのLLMエージェントの整合性を高めることができることを示しています。
それでも、エージェントの設計の複雑さと人間の責任との関係は非線形であり、基礎となるLLM機能への重要な依存を強調し、単純なアーキテクチャ増強の制限を示唆しています。

要約(オリジナル)

The rapid rise of large language models (LLMs) has shifted artificial intelligence (AI) research toward agentic systems, motivating the use of weaker and more flexible notions of agency. However, this shift raises key questions about the extent to which LLM-based agents replicate human strategic reasoning, particularly in game-theoretic settings. In this context, we examine the role of agentic sophistication in shaping artificial reasoners’ performance by evaluating three agent designs: a simple game-theoretic model, an unstructured LLM-as-agent model, and an LLM integrated into a traditional agentic framework. Using guessing games as a testbed, we benchmarked these agents against human participants across general reasoning patterns and individual role-based objectives. Furthermore, we introduced obfuscated game scenarios to assess agents’ ability to generalise beyond training distributions. Our analysis, covering over 2000 reasoning samples across 25 agent configurations, shows that human-inspired cognitive structures can enhance LLM agents’ alignment with human strategic behaviour. Still, the relationship between agentic design complexity and human-likeness is non-linear, highlighting a critical dependence on underlying LLM capabilities and suggesting limits to simple architectural augmentation.

arxiv情報

著者 Vince Trencsenyi,Agnieszka Mensfelt,Kostas Stathis
発行日 2025-05-14 13:51:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | The Influence of Human-inspired Agentic Sophistication in LLM-driven Strategic Reasoners はコメントを受け付けていません

PSPO*: An Effective Process-supervised Policy Optimization for Reasoning Alignment

要約

プロセス監督は、考え方の推論の各段階でフィードバックを提供することにより、推論タスクにおける大規模な言語モデルのパフォーマンスを向上させます。
ただし、効果的なプロセス監督方法がないため、高度な大規模な言語モデルでさえ、論理的なエラーと冗長な推論が発生しやすくなります。
プロセス監督の有効性は、推論チェーンの精度と長さの両方に大きく依存すると主張しています。
さらに、これらの要因は、推論プロセスの全体的な報酬スコアと非線形関係を示すことを特定します。
これらの洞察に触発されて、私たちは、報酬モデルのトレーニングからポリシーの最適化までのワークフローを体系的に概説し、プロセス監督における非線形報酬の重要性を強調する新しいプロセス監督パラダイムPSPO*を提案します。
PSPO*に基づいて、PSPO-WRSを開発します。これは、報酬スコアを決定する際の推論ステップの数を考慮し、非線形報酬形状に調整されたワイブル分布を利用します。
6つの数学的推論データセットの実験結果は、PSPO-WRが現在の主流モデルを常に上回ることを示しています。

要約(オリジナル)

Process supervision enhances the performance of large language models in reasoning tasks by providing feedback at each step of chain-of-thought reasoning. However, due to the lack of effective process supervision methods, even advanced large language models are prone to logical errors and redundant reasoning. We claim that the effectiveness of process supervision significantly depends on both the accuracy and the length of reasoning chains. Moreover, we identify that these factors exhibit a nonlinear relationship with the overall reward score of the reasoning process. Inspired by these insights, we propose a novel process supervision paradigm, PSPO*, which systematically outlines the workflow from reward model training to policy optimization, and highlights the importance of nonlinear rewards in process supervision. Based on PSPO*, we develop the PSPO-WRS, which considers the number of reasoning steps in determining reward scores and utilizes an adjusted Weibull distribution for nonlinear reward shaping. Experimental results on six mathematical reasoning datasets demonstrate that PSPO-WRS consistently outperforms current mainstream models.

arxiv情報

著者 Jiawei Li,Xinyue Liang,Junlong Zhang,Yizhe Yang,Chong Feng,Yang Gao
発行日 2025-05-14 14:01:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | PSPO*: An Effective Process-supervised Policy Optimization for Reasoning Alignment はコメントを受け付けていません

Multilingual Machine Translation with Quantum Encoder Decoder Attention-based Convolutional Variational Circuits

要約

Google TranslateやMicrosoft Translatorなどのクラウドベースの多言語翻訳サービスは、最先端の翻訳機能を達成しています。
これらのサービスは、GRU、LSTM、BERT、GPT、T5、またはバックボーンとしての注意メカニズムを備えた同様のエンコーダデコダーアーキテクチャなどの大規模な多言語モデルを本質的に使用します。
また、たとえばChatGptやDeepSeekなど、New Age Natural Language Systemsは、自然言語処理の複数のタスクに大きな可能性を確立しています。
同時に、彼らはまた、優れた多言語翻訳機能を持っています。
ただし、これらのモデルは、クラシックコンピューティングの領域をバックエンドとして使用します。
QEDACVC(Quantum Encoder Decoder Atternessベースの畳み込み変動回路)は、多言語の機械翻訳を研究および実証するために、古典的なコンピューティング領域の代わりに量子コンピューティングの領域を探求する代替ソリューションです。
QEDACVCは、ソフトウェアの変更として、量子畳み込み、量子プーリング、量子変動回路、量子の注意を介して、量子コンピューティングハードウェアをシミュレートして実行する量子エンコーダデコーダーアーキテクチャを導入します。
QEDACVCは、英語、フランス語、ドイツ語、ヒンディー語のcorporaについてOpusデータセットで訓練された場合、多言語翻訳のために82%の精度を達成します。

要約(オリジナル)

Cloud-based multilingual translation services like Google Translate and Microsoft Translator achieve state-of-the-art translation capabilities. These services inherently use large multilingual language models such as GRU, LSTM, BERT, GPT, T5, or similar encoder-decoder architectures with attention mechanisms as the backbone. Also, new age natural language systems, for instance ChatGPT and DeepSeek, have established huge potential in multiple tasks in natural language processing. At the same time, they also possess outstanding multilingual translation capabilities. However, these models use the classical computing realm as a backend. QEDACVC (Quantum Encoder Decoder Attention-based Convolutional Variational Circuits) is an alternate solution that explores the quantum computing realm instead of the classical computing realm to study and demonstrate multilingual machine translation. QEDACVC introduces the quantum encoder-decoder architecture that simulates and runs on quantum computing hardware via quantum convolution, quantum pooling, quantum variational circuit, and quantum attention as software alterations. QEDACVC achieves an Accuracy of 82% when trained on the OPUS dataset for English, French, German, and Hindi corpora for multilingual translations.

arxiv情報

著者 Subrit Dikshit,Ritu Tiwari,Priyank Jain
発行日 2025-05-14 14:04:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.ET | Multilingual Machine Translation with Quantum Encoder Decoder Attention-based Convolutional Variational Circuits はコメントを受け付けていません

Counterfactual Strategies for Markov Decision Processes

要約

反事実はAIで広く使用されており、モデルの入力の最小限の変更が異なる出力につながる可能性があることを説明します。
ただし、反事実を計算するための確立された方法は、通常、1段階の意思決定に焦点を当てており、順次の意思決定タスクに直接適用できません。
このペーパーでは、マルコフ決定プロセス(MDP)の反事実的戦略を導入することにより、このギャップを埋めます。
MDPの実行中、戦略は、次に実行する有効なアクション(既知の確率的効果を持つ)を決定します。
制限を上回る確率で望ましくない結果に達する初期戦略を考えると、その確率を制限以下に減らすための初期戦略の最小限の変更を特定します。
非線形最適化問題の解決策などの反事実的戦略をエンコードし、さらにエンコードを拡張して、多様な反事実戦略を合成します。
4つの実際のデータセットでアプローチを評価し、洗練された順次意思決定タスクにおけるその実用的な実行可能性を実証します。

要約(オリジナル)

Counterfactuals are widely used in AI to explain how minimal changes to a model’s input can lead to a different output. However, established methods for computing counterfactuals typically focus on one-step decision-making, and are not directly applicable to sequential decision-making tasks. This paper fills this gap by introducing counterfactual strategies for Markov Decision Processes (MDPs). During MDP execution, a strategy decides which of the enabled actions (with known probabilistic effects) to execute next. Given an initial strategy that reaches an undesired outcome with a probability above some limit, we identify minimal changes to the initial strategy to reduce that probability below the limit. We encode such counterfactual strategies as solutions to non-linear optimization problems, and further extend our encoding to synthesize diverse counterfactual strategies. We evaluate our approach on four real-world datasets and demonstrate its practical viability in sophisticated sequential decision-making tasks.

arxiv情報

著者 Paul Kobialka,Lina Gerlach,Francesco Leofante,Erika Ábrahám,Silvia Lizeth Tapia Tarifa,Einar Broch Johnsen
発行日 2025-05-14 14:07:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, I.2.m | Counterfactual Strategies for Markov Decision Processes はコメントを受け付けていません

CAT Merging: A Training-Free Approach for Resolving Conflicts in Model Merging

要約

マルチタスクモデルの合併は、複数のエキスパートモデルを追加のトレーニングなしで統一モデルに統合するための有望なパラダイムを提供します。
タスク算術やそのバリアントなどの既存の最先端の手法は、タスクベクトルを蓄積することによりモデルをマージします。
ただし、タスクベクトルの蓄積は、しばしば知識の競合によって妨げられ、パフォーマンスの劣化につながります。
この課題に対処するために、競合するタスクの合併(CAT合併)を提案します。これは、タスクベクターから競合が発生しやすいコンポーネントを選択的にトリミングする新しいトレーニングフリーフレームワークです。
CATの合併は、線形重みの投影や正規化層のスケーリングおよびシフトパラメーターのマスキングなど、いくつかのパラメーター固有の戦略を導入します。
視覚、言語、視覚言語のタスクに関する広範な実験は、CATの合併が知識の競合を効果的に抑制し、最大の最先端の方法よりも最大2.5%(VIT-B/32)および2.0%(VIT-L/14)の平均精度の改善を達成することを示しています。

要約(オリジナル)

Multi-task model merging offers a promising paradigm for integrating multiple expert models into a unified model without additional training. Existing state-of-the-art techniques, such as Task Arithmetic and its variants, merge models by accumulating task vectors — the parameter differences between pretrained and finetuned models. However, task vector accumulation is often hindered by knowledge conflicts, leading to performance degradation. To address this challenge, we propose Conflict-Aware Task Merging (CAT Merging), a novel training-free framework that selectively trims conflict-prone components from the task vectors. CAT Merging introduces several parameter-specific strategies, including projection for linear weights and masking for scaling and shifting parameters in normalization layers. Extensive experiments on vision, language, and vision-language tasks demonstrate that CAT Merging effectively suppresses knowledge conflicts, achieving average accuracy improvements of up to 2.5% (ViT-B/32) and 2.0% (ViT-L/14) over state-of-the-art methods.

arxiv情報

著者 Wenju Sun,Qingyong Li,Yangli-ao Geng,Boyang Li
発行日 2025-05-14 14:11:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | CAT Merging: A Training-Free Approach for Resolving Conflicts in Model Merging はコメントを受け付けていません

Rethinking Time Encoding via Learnable Transformation Functions

要約

時間情報を効果的にモデル化し、それを時系列に発生するイベントを含むアプリケーションまたはモデルに組み込むことが重要です。
現実世界のシナリオには、多くの場合、多様で複雑な時間パターンが含まれ、時間エンコーディング方法に大きな課題をもたらします。
以前の方法は時間パターンのキャプチャに焦点を当てていますが、多くは、期間性をモデル化するために三角関数を使用するなど、特定の誘導バイアスに依存しています。
単一パターンモデリングに焦点を当てたこの狭い焦点は、実際の時間パターンの多様性と複雑さの処理において効果が低下します。
この論文では、既存の一般的に使用される時間エンコーディング方法を改善し、学習可能な変換ベースの一般化時間エンコード(LETE)を導入するために調査します。
深い関数学習手法を使用して、時間エンコーディングで非線形変換をパラメーター化し、多様で複雑な時間的ダイナミクスを含む一般化された時間パターンをモデル化できるようにすることを提案します。
学習可能な変換を可能にすることにより、Leteは以前の方法を特定のケースとして含め、幅広いタスクにシームレスな統合を可能にします。
多様なドメインを越えた広範な実験を通じて、Leteの汎用性と有効性を実証します。

要約(オリジナル)

Effectively modeling time information and incorporating it into applications or models involving chronologically occurring events is crucial. Real-world scenarios often involve diverse and complex time patterns, which pose significant challenges for time encoding methods. While previous methods focus on capturing time patterns, many rely on specific inductive biases, such as using trigonometric functions to model periodicity. This narrow focus on single-pattern modeling makes them less effective in handling the diversity and complexities of real-world time patterns. In this paper, we investigate to improve the existing commonly used time encoding methods and introduce Learnable Transformation-based Generalized Time Encoding (LeTE). We propose using deep function learning techniques to parameterize non-linear transformations in time encoding, making them learnable and capable of modeling generalized time patterns, including diverse and complex temporal dynamics. By enabling learnable transformations, LeTE encompasses previous methods as specific cases and allows seamless integration into a wide range of tasks. Through extensive experiments across diverse domains, we demonstrate the versatility and effectiveness of LeTE.

arxiv情報

著者 Xi Chen,Yateng Tang,Jiarong Xu,Jiawei Zhang,Siwei Zhang,Sijia Peng,Xuehao Zheng,Yun Xiong
発行日 2025-05-14 14:30:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Rethinking Time Encoding via Learnable Transformation Functions はコメントを受け付けていません

CXMArena: Unified Dataset to benchmark performance in realistic CXM Scenarios

要約

大規模な言語モデル(LLMS)は、特に接触センターの運用において、カスタマーエクスペリエンス管理(CXM)に革命をもたらすための計り知れない可能性を秘めています。
ただし、複雑な運用環境での実用的なユーティリティを評価することは、データ不足(プライバシーの懸念による)と現在のベンチマークの制限によって妨げられています。
既存のベンチマークには、多くの場合、リアリズムが欠けており、ディープナレッジベース(KB)統合、現実世界のノイズ、または会話の流encyさを超えた重要な運用タスクを組み込むことができません。
このギャップを埋めるために、操作上のCXMコンテキストでAIを評価するために特別に設計された新規で大規模な合成ベンチマークデータセットであるCXMarenaを紹介します。
可能性のあるコンタクトセンター機能の多様性を考えると、製品仕様、発行分類、コンタクトセンターの変換などの知識記事など、データセットなどの基盤を形成するブランドのCXMエンティティをシミュレートするスケーラブルなLLM駆動パイプラインを開発しました。
エンティティは、制御されたノイズインジェクション(ドメインの専門家から通知)と厳密な自動検証のために、実際の分布を密接に表しています。
これに基づいて、CXMARENEをリリースします。これは、知識ベースの洗練、意図予測、エージェントの品質アドヒアランス、記事検索、統合ツールを使用したマルチターンRAGの5つの重要な運用タスクを対象とした専用のベンチマークを提供します。
私たちのベースライン実験では、ベンチマークの難易度を強調しています。最先端の埋め込みモデルと生成モデルでさえ、記事検索で68%の精度しか得られませんが、標準の埋め込み方法は、知識ベースの洗練のために0.3の低いF1スコアを生成し、現在のモデルの重要な課題を強調しています。

要約(オリジナル)

Large Language Models (LLMs) hold immense potential for revolutionizing Customer Experience Management (CXM), particularly in contact center operations. However, evaluating their practical utility in complex operational environments is hindered by data scarcity (due to privacy concerns) and the limitations of current benchmarks. Existing benchmarks often lack realism, failing to incorporate deep knowledge base (KB) integration, real-world noise, or critical operational tasks beyond conversational fluency. To bridge this gap, we introduce CXMArena, a novel, large-scale synthetic benchmark dataset specifically designed for evaluating AI in operational CXM contexts. Given the diversity in possible contact center features, we have developed a scalable LLM-powered pipeline that simulates the brand’s CXM entities that form the foundation of our datasets-such as knowledge articles including product specifications, issue taxonomies, and contact center conversations. The entities closely represent real-world distribution because of controlled noise injection (informed by domain experts) and rigorous automated validation. Building on this, we release CXMArena, which provides dedicated benchmarks targeting five important operational tasks: Knowledge Base Refinement, Intent Prediction, Agent Quality Adherence, Article Search, and Multi-turn RAG with Integrated Tools. Our baseline experiments underscore the benchmark’s difficulty: even state of the art embedding and generation models achieve only 68% accuracy on article search, while standard embedding methods yield a low F1 score of 0.3 for knowledge base refinement, highlighting significant challenges for current models necessitating complex pipelines and solutions over conventional techniques.

arxiv情報

著者 Raghav Garg,Kapil Sharma,Karan Gupta
発行日 2025-05-14 14:44:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | CXMArena: Unified Dataset to benchmark performance in realistic CXM Scenarios はコメントを受け付けていません

Evaluating GPT- and Reasoning-based Large Language Models on Physics Olympiad Problems: Surpassing Human Performance and Implications for Educational Assessment

要約

大規模な言語モデル(LLM)は広くアクセス可能であり、すべての教育レベルで学習者に到達しています。
この開発は、それらの使用が重要な学習プロセスを回避し、確立された評価形式の完全性を損なう可能性があるという懸念を提起しました。
したがって、問題解決が指導と評価において中心的な役割を果たす物理教育では、LLMの物理学固有の問題解決能力を理解することが不可欠です。
このような理解は、LLMを指導と評価に統合するための責任ある、教育的に健全なアプローチを通知するための鍵です。
したがって、この研究では、汎用LLM(GPT-4O、さまざまなプロンプトテクニックを使用)の問題解決パフォーマンスと、明確に定義されたオリンピアドの問題のセットに基づいて、ドイツの物理オリンピアードの参加者の参加者と推論最適化モデル(O1-Preview)を比較しています。
生成されたソリューションの正しさを評価することに加えて、この研究はLLM生成ソリューションの特徴的な強さと制限を分析します。
この研究の発見は、テストしたLLMS(GPT-4OとO1-PREVIEW)の両方が、オリンピック型の物理学の問題に関する高度な問題解決能力を実証し、平均して人間の参加者を上回ることを示しています。
プロンプトテクニックはGPT-4Oのパフォーマンスにほとんど影響を与えませんでしたが、O1-PreviewはGPT-4Oと人間のベンチマークの両方をほぼ一貫して上回りました。
これらの調査結果に基づいて、この研究では、物理学教育における総合的および形成的評価の設計への影響について説明します。

要約(オリジナル)

Large language models (LLMs) are now widely accessible, reaching learners at all educational levels. This development has raised concerns that their use may circumvent essential learning processes and compromise the integrity of established assessment formats. In physics education, where problem solving plays a central role in instruction and assessment, it is therefore essential to understand the physics-specific problem-solving capabilities of LLMs. Such understanding is key to informing responsible and pedagogically sound approaches to integrating LLMs into instruction and assessment. This study therefore compares the problem-solving performance of a general-purpose LLM (GPT-4o, using varying prompting techniques) and a reasoning-optimized model (o1-preview) with that of participants of the German Physics Olympiad, based on a set of well-defined Olympiad problems. In addition to evaluating the correctness of the generated solutions, the study analyzes characteristic strengths and limitations of LLM-generated solutions. The findings of this study indicate that both tested LLMs (GPT-4o and o1-preview) demonstrate advanced problem-solving capabilities on Olympiad-type physics problems, on average outperforming the human participants. Prompting techniques had little effect on GPT-4o’s performance, while o1-preview almost consistently outperformed both GPT-4o and the human benchmark. Based on these findings, the study discusses implications for the design of summative and formative assessment in physics education, including how to uphold assessment integrity and support students in critically engaging with LLMs.

arxiv情報

著者 Paul Tschisgale,Holger Maus,Fabian Kieser,Ben Kroehs,Stefan Petersen,Peter Wulff
発行日 2025-05-14 14:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, physics.ed-ph | Evaluating GPT- and Reasoning-based Large Language Models on Physics Olympiad Problems: Surpassing Human Performance and Implications for Educational Assessment はコメントを受け付けていません

Learning Autonomy: Off-Road Navigation Enhanced by Human Input

要約

自律運転のエリアでは、オフロード地形のナビゲートは、草や土などの予測不可能な表面から茂みや水たまりなどの予期しない障害まで、一連の課題を提示します。
この作業では、単眼カメラのみを使用して、実際のデモンストレーションから人間の運転ニュアンスを直接捉えることにより、これらの課題に対処する新しい学習ベースのローカルプランナーを紹介します。
プランナーの主な特徴は、さまざまな地形タイプとその高速学習能力を備えた挑戦的なオフロード環境でナビゲートできることです。
最小限の人間のデモデータ(5〜10分)を利用することにより、幅広いオフロード条件でナビゲートすることをすぐに学びます。
ローカルプランナーは、人間の運転の好みを学ぶために必要な現実世界のデータを大幅に削減します。
これにより、プランナーは、手動で微調整する必要なく、学習行動を実際のシナリオに適用し、オフロードの自律運転技術の迅速な調整と適応性を実証することができます。

要約(オリジナル)

In the area of autonomous driving, navigating off-road terrains presents a unique set of challenges, from unpredictable surfaces like grass and dirt to unexpected obstacles such as bushes and puddles. In this work, we present a novel learning-based local planner that addresses these challenges by directly capturing human driving nuances from real-world demonstrations using only a monocular camera. The key features of our planner are its ability to navigate in challenging off-road environments with various terrain types and its fast learning capabilities. By utilizing minimal human demonstration data (5-10 mins), it quickly learns to navigate in a wide array of off-road conditions. The local planner significantly reduces the real world data required to learn human driving preferences. This allows the planner to apply learned behaviors to real-world scenarios without the need for manual fine-tuning, demonstrating quick adjustment and adaptability in off-road autonomous driving technology.

arxiv情報

著者 Akhil Nagariya,Dimitar Filev,Srikanth Saripalli,Gaurav Pandey
発行日 2025-05-14 14:47:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Learning Autonomy: Off-Road Navigation Enhanced by Human Input はコメントを受け付けていません

Quantum state-agnostic work extraction (almost) without dissipation

要約

未知の純粋なqubit状態の$ n $コピーへのシーケンシャルアクセスを使用して、可能な最大エネルギーをバッテリーに伝達するように設計された作業抽出プロトコルを調査します。
コアの課題は、2つの競合する目標のバランスを最適にバランスさせるための相互作用を設計することです。バッテリーの手元に最適に充電し、その後のラウンドでのエネルギー収穫を改善するためにQubitによってより多くの情報を取得することです。
ここでは、強化学習における探査と爆発のトレードオフを活用して、$ n $でポリロガリズム的にのみスケーリングするエネルギー散逸を達成する適応戦略を開発します。
これは、完全な状態断層撮影に基づく現在のプロトコルに対する指数関数的な改善を表しています。

要約(オリジナル)

We investigate work extraction protocols designed to transfer the maximum possible energy to a battery using sequential access to $N$ copies of an unknown pure qubit state. The core challenge is designing interactions to optimally balance two competing goals: charging of the battery optimally using the qubit in hand, and acquiring more information by qubit to improve energy harvesting in subsequent rounds. Here, we leverage exploration-exploitation trade-off in reinforcement learning to develop adaptive strategies achieving energy dissipation that scales only poly-logarithmically in $N$. This represents an exponential improvement over current protocols based on full state tomography.

arxiv情報

著者 Josep Lumbreras,Ruo Cheng Huang,Yanglin Hu,Mile Gu,Marco Tomamichel
発行日 2025-05-14 15:07:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, quant-ph | Quantum state-agnostic work extraction (almost) without dissipation はコメントを受け付けていません