SVRPBench: A Realistic Benchmark for Stochastic Vehicle Routing Problem

要約

不確実性の下での堅牢なルーティングは、実際の物流の中心ですが、ほとんどのベンチマークは静的で理想化された設定を想定しています。
都市規模での車両ルーティングで高忠実度の確率的ダイナミクスをキャプチャする最初のオープンベンチマークであるSVRPBenchを紹介します。
最大1000人の顧客を抱える500を超えるインスタンスにまたがって、現実的な配信条件をシミュレートします。時間依存の混雑、対数通常の遅延、確率的事故、および住宅および商業クライアント向けの経験的に根拠のある時間窓です。
パイプラインは、マルチデポットやマルチビークルのセットアップなど、多様で制約豊富なシナリオを生成します。
ベンチマークは、POMOやAMのような最先端のRLソルバーが分布シフトで20%以上劣化していることを明らかにしていますが、古典的およびメタヒューリスティックな方法は堅調なままです。
再現可能な研究を可能にするために、データセットと評価スイートをリリースします。
SVRPBenchは、合成の仮定を超えて一般化し、現実世界の不確実性に適応するソルバーを設計するようコミュニティに挑戦しています。

要約(オリジナル)

Robust routing under uncertainty is central to real-world logistics, yet most benchmarks assume static, idealized settings. We present SVRPBench, the first open benchmark to capture high-fidelity stochastic dynamics in vehicle routing at urban scale. Spanning more than 500 instances with up to 1000 customers, it simulates realistic delivery conditions: time-dependent congestion, log-normal delays, probabilistic accidents, and empirically grounded time windows for residential and commercial clients. Our pipeline generates diverse, constraint-rich scenarios, including multi-depot and multi-vehicle setups. Benchmarking reveals that state-of-the-art RL solvers like POMO and AM degrade by over 20% under distributional shift, while classical and metaheuristic methods remain robust. To enable reproducible research, we release the dataset and evaluation suite. SVRPBench challenges the community to design solvers that generalize beyond synthetic assumptions and adapt to real-world uncertainty.

arxiv情報

著者 Ahmed Heakl,Yahia Salaheldin Shaaban,Martin Takac,Salem Lahlou,Zangir Iklassov
発行日 2025-05-29 17:17:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.LG | SVRPBench: A Realistic Benchmark for Stochastic Vehicle Routing Problem はコメントを受け付けていません

Unifying Perspectives: Plausible Counterfactual Explanations on Global, Group-wise, and Local Levels

要約

AIシステムの複雑さの高まりにより、説明可能なAI(XAI)を通じて透明性の必要性が強化されました。
反事実的な説明(CFS)は、3つのレベルで実用的な「What-if」シナリオを提供します。インスタンス固有の洞察を提供するローカルCF、より広範なトレンドに対処するグローバルCFS、およびグループごとのCFS(GWCF)は、バランスを取り、結束群内のパターンを明らかにします。
各粒度レベルのメソッドが可用性にもかかわらず、フィールドにはこれらの補完的なアプローチを統合する統合された方法がありません。
統一された方法でローカル、グローバル、およびグループごとの反事実的な説明を生成する微分可能モデルの勾配ベースの最適化方法を提案することにより、この制限に対処します。
インスタンスのグループ化と反事実的生成を単一の効率的なプロセスに組み合わせて、従来の2段階の方法に置き換えることにより、特にGWCF生成を強化します。
さらに、信頼性を確保するために、妥当性基準のGWCFドメインへの統合を革新的に導入し、有効かつ現実的な説明を作成します。
我々の結果は、実用的なユースケースを通じて実用的なユーティリティを検証しながら、グループの粒度を最適化しながら、妥当性、近接性、および妥当性のバランスをとる方法の有効性を示しています。

要約(オリジナル)

The growing complexity of AI systems has intensified the need for transparency through Explainable AI (XAI). Counterfactual explanations (CFs) offer actionable ‘what-if’ scenarios on three levels: Local CFs providing instance-specific insights, Global CFs addressing broader trends, and Group-wise CFs (GWCFs) striking a balance and revealing patterns within cohesive groups. Despite the availability of methods for each granularity level, the field lacks a unified method that integrates these complementary approaches. We address this limitation by proposing a gradient-based optimization method for differentiable models that generates Local, Global, and Group-wise Counterfactual Explanations in a unified manner. We especially enhance GWCF generation by combining instance grouping and counterfactual generation into a single efficient process, replacing traditional two-step methods. Moreover, to ensure trustworthiness, we innovatively introduce the integration of plausibility criteria into the GWCF domain, making explanations both valid and realistic. Our results demonstrate the method’s effectiveness in balancing validity, proximity, and plausibility while optimizing group granularity, with practical utility validated through practical use cases.

arxiv情報

著者 Oleksii Furman,Patryk Wielopolski,Łukasz Lenkiewicz,Jerzy Stefanowski,Maciej Zięba
発行日 2025-05-29 17:23:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ME | Unifying Perspectives: Plausible Counterfactual Explanations on Global, Group-wise, and Local Levels はコメントを受け付けていません

ROTATE: Regret-driven Open-ended Training for Ad Hoc Teamwork

要約

以前に見えないパートナーと協力できるAIエージェントの開発は、アドホックチームワーク(AHT)として知られるマルチエージェント学習における基本的な一般化課題です。
既存のAHTアプローチは通常、2段階のパイプラインを採用します。最初に、チームメイトの固定集団が展開時間に見られるチームメイトの代表であるべきだという考えで生成され、第二に、AHTエージェントは人口のエージェントとよく協力するように訓練されています。
これまで、研究コミュニティは、各段階の個別のアルゴリズムの設計に焦点を当ててきました。
この分離は、可能性のある動作のカバレッジが限られているチームメイトプールを生成するアルゴリズムにつながり、生成されたチームメイトがAHTエージェントのために簡単に学ぶことができるかどうかを無視します。
さらに、AHTエージェントをトレーニングするためのアルゴリズムは通常、トレーニングチームメイトのセットを静的として扱うため、トレーニングチームメイトの配布を制御することなく、以前に見えなかったパートナーエージェントに一般化しようとします。
このホワイトペーパーでは、ADHOCエージェントと敵対チームメイトジェネレーターの間の自由回答形式の学習プロセスとして問題を再定式化することにより、AHTの統一されたフレームワークを紹介します。
AHTエージェントの改善とその欠陥を調査するチームメイトを生成することとを交互にする、後悔したオープンエンドのトレーニングアルゴリズムであるRotateを紹介します。
多様なAHT環境にわたる広範な実験は、目に見えない評価チームメイトに一般化することでベースラインを大幅に上回ることを示しており、したがって、堅牢で一般化可能なチームワークの新しい基準を確立します。

要約(オリジナル)

Developing AI agents capable of collaborating with previously unseen partners is a fundamental generalization challenge in multi-agent learning, known as Ad Hoc Teamwork (AHT). Existing AHT approaches typically adopt a two-stage pipeline, where first, a fixed population of teammates is generated with the idea that they should be representative of the teammates that will be seen at deployment time, and second, an AHT agent is trained to collaborate well with agents in the population. To date, the research community has focused on designing separate algorithms for each stage. This separation has led to algorithms that generate teammate pools with limited coverage of possible behaviors, and that ignore whether the generated teammates are easy to learn from for the AHT agent. Furthermore, algorithms for training AHT agents typically treat the set of training teammates as static, thus attempting to generalize to previously unseen partner agents without assuming any control over the distribution of training teammates. In this paper, we present a unified framework for AHT by reformulating the problem as an open-ended learning process between an ad hoc agent and an adversarial teammate generator. We introduce ROTATE, a regret-driven, open-ended training algorithm that alternates between improving the AHT agent and generating teammates that probe its deficiencies. Extensive experiments across diverse AHT environments demonstrate that ROTATE significantly outperforms baselines at generalizing to an unseen set of evaluation teammates, thus establishing a new standard for robust and generalizable teamwork.

arxiv情報

著者 Caroline Wang,Arrasy Rahman,Jiaxun Cui,Yoonchang Sung,Peter Stone
発行日 2025-05-29 17:24:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, I.2.1 | ROTATE: Regret-driven Open-ended Training for Ad Hoc Teamwork はコメントを受け付けていません

Data-to-Dashboard: Multi-Agent LLM Framework for Insightful Visualization in Enterprise Analytics

要約

LLMSの急速な進歩により、データ分析における多様なエージェントシステムの作成につながり、LLMSの機能を利用して洞察の生成と視覚化を改善しました。
このホワイトペーパーでは、ドメイン検出、概念抽出、マルチパリスペクト分析生成、および反復自己反省が可能なモジュラーLLMエージェントを介して、データからダッシュボードのパイプラインを自動化するエージェントシステムを提示します。
既存のチャートQAシステムとは異なり、当社のフレームワークは、ドメイン関連の知識を取得し、閉じたオントロジーや質問テンプレートに依存せずに多様なデータセットに適応することにより、ビジネスアナリストの分析的推論プロセスをシミュレートします。
さまざまなドメインの3つのデータセットでシステムを評価します。
シングルプロムプトベースラインでGPT-4Oに対してベンチマークされたこのアプローチは、カスタマイズされた評価メトリックと定性的な人間の評価で測定されるように、洞察力、ドメインの関連性、分析の深さの改善を示しています。
この作業は、生データから視覚化へのパスを橋渡しするための新しいモジュラーパイプラインに貢献し、ビジネス分析のドメイン専門家によるループ内検証の新しい機会を開きます。
すべてのコードは、https://github.com/77luvc/d2d_data2dashboardにあります

要約(オリジナル)

The rapid advancement of LLMs has led to the creation of diverse agentic systems in data analysis, utilizing LLMs’ capabilities to improve insight generation and visualization. In this paper, we present an agentic system that automates the data-to-dashboard pipeline through modular LLM agents capable of domain detection, concept extraction, multi-perspective analysis generation, and iterative self-reflection. Unlike existing chart QA systems, our framework simulates the analytical reasoning process of business analysts by retrieving domain-relevant knowledge and adapting to diverse datasets without relying on closed ontologies or question templates. We evaluate our system on three datasets across different domains. Benchmarked against GPT-4o with a single-prompt baseline, our approach shows improved insightfulness, domain relevance, and analytical depth, as measured by tailored evaluation metrics and qualitative human assessment. This work contributes a novel modular pipeline to bridge the path from raw data to visualization, and opens new opportunities for human-in-the-loop validation by domain experts in business analytics. All code can be found here: https://github.com/77luvC/D2D_Data2Dashboard

arxiv情報

著者 Ran Zhang,Mohannad Elhamod
発行日 2025-05-29 17:32:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Data-to-Dashboard: Multi-Agent LLM Framework for Insightful Visualization in Enterprise Analytics はコメントを受け付けていません

ReAgent: Reversible Multi-Agent Reasoning for Knowledge-Enhanced Multi-Hop QA

要約

大規模な言語モデル(LLMS)の最近の進歩により、直接的なチェーン(COT)推論を通じて、マルチホップの質問回答(QA)が大幅に改善されました。
ただし、COTの不可逆的な性質はエラーの蓄積につながり、マルチホップの推論で間違いを修正することが困難になります。
このホワイトペーパーでは、試薬を紹介します。明示的なバックトラッキングメカニズムで増強された可逆的なマルチエージェントコラボレーションフレームワークを紹介し、可逆的なマルチホップ推論を可能にします。
テキストベースの検索、情報の集約、および検証を組み込むことにより、システムは季節の途中でエラーを検出して修正し、より堅牢で解釈可能なQAの結果につながります。
フレームワークと実験は、エラートレラントQAシステムに関する将来の作業の基盤として機能します。
3つのベンチマークにわたる経験的評価は、試薬の有効性を示しており、ベースラインモデルに対する平均約6 \%の改善をもたらします。

要約(オリジナル)

Recent advances in large language models (LLMs) have significantly improved multi-hop question answering (QA) through direct Chain-of-Thought (CoT) reasoning. However, the irreversible nature of CoT leads to error accumulation, making it challenging to correct mistakes in multi-hop reasoning. This paper introduces ReAgent: a Reversible multi-Agent collaborative framework augmented with explicit backtracking mechanisms, enabling reversible multi-hop reasoning. By incorporating text-based retrieval, information aggregation and validation, our system can detect and correct errors mid-reasoning, leading to more robust and interpretable QA outcomes. The framework and experiments serve as a foundation for future work on error-tolerant QA systems. Empirical evaluations across three benchmarks indicate ReAgent’s efficacy, yielding average about 6\% improvements against baseline models.

arxiv情報

著者 Xinjie Zhao,Fan Gao,Xingyu Song,Yingjian Chen,Rui Yang,Yanran Fu,Yuyang Wang,Yusuke Iwasawa,Yutaka Matsuo,Irene Li
発行日 2025-05-29 17:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | ReAgent: Reversible Multi-Agent Reasoning for Knowledge-Enhanced Multi-Hop QA はコメントを受け付けていません

Let’s Reason Formally: Natural-Formal Hybrid Reasoning Enhances LLM’s Math Capability

要約

LLMSの数学的推論能力を高めることは、数学とコンピューターサイエンスの両方のコミュニティで大きな注目を集めています。
最近の作品は、ベースモデルの純粋な強化学習(RL)方法の可能性を活用することにより、自然言語(NL)推論と正式な言語(FL)の推論の両方で大きな進歩を遂げています。
ただし、RLは、基本モデルに提示されていない新しい機能を伝えるために苦労しており、FLなどのより多くの知識をNL Mathの推論に効果的に統合する必要性を強調しています。
しかし、この統合は、NLとFLの間の問題構造と推論形式に固有の格差のために困難です。
これらの課題に対処するために、FLの専門家をNL Mathの問題解決に組み込むために設計されたエンドツーエンドのフレームワークである** NL-FL Hybridreasoning **を紹介します。
NLおよびFL入力形式のギャップを橋渡しするために、FLの存在定理としてのNLの質問回答(QA)問題を再定式化する * NL-FL問題アライメント *メソッドを提案します。
その後、私たちが提供する *混合問題入力 *手法により、FLの推論はQAと存在の問題の両方を同時に処理できます。
最後に、LLMベースの *回答抽出 *メカニズムを介した推論におけるNLおよびFL出力形式のギャップを軽減します。
包括的な実験では、**ハイブリッドフリーダーの**フレームワークが** 89.80%**および** 84.34%** Math-500およびAMCベンチマークの精度率を達成し、それぞれNLベースラインを4.60%および4.82%上回ることが実証されています。
特に、私たちのフレームワークによって解決されたいくつかの問題は、より多くの試験でもNLベースラインモデルによって未解決のままです。

要約(オリジナル)

Enhancing the mathematical reasoning capabilities of LLMs has garnered significant attention in both the mathematical and computer science communities. Recent works have made substantial progress in both Natural Language (NL) reasoning and Formal Language (FL) reasoning by leveraging the potential of pure Reinforcement Learning (RL) methods on base models. However, RL approaches struggle to impart new capabilities not presented in the base model, highlighting the need to integrate more knowledge like FL into NL math reasoning effectively. Yet, this integration is challenging due to inherent disparities in problem structure and reasoning format between NL and FL. To address these challenges, we introduce **NL-FL HybridReasoning**, an end-to-end framework designed to incorporate the FL expert into NL math problem-solving. To bridge the NL and FL input format gap, we propose the *NL-FL Problem Alignment* method, which reformulates the Question-Answering (QA) problems in NL as existence theorems in FL. Subsequently, the *Mixed Problem Input* technique we provide enables the FL reasoner to handle both QA and existence problems concurrently. Lastly, we mitigate the NL and FL output format gap in reasoning through an LLM-based *Answer Extraction* mechanism. Comprehensive experiments demonstrate that the **HybridReasoning** framework achieves **89.80%** and **84.34%** accuracy rates on the MATH-500 and the AMC benchmarks, surpassing the NL baseline by 4.60% and 4.82%, respectively. Notably, some problems resolved by our framework remain unsolved by the NL baseline model even under a larger number of trials.

arxiv情報

著者 Ruida Wang,Yuxin Li,Yi R.,Fung,Tong Zhang
発行日 2025-05-29 17:39:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Let’s Reason Formally: Natural-Formal Hybrid Reasoning Enhances LLM’s Math Capability はコメントを受け付けていません

Distributed Federated Learning for Vehicular Network Security: Anomaly Detection Benefits and Multi-Domain Attack Threats

要約

接続された自動運転車および自律型車両では、安全なメッセージ分類のための機械学習が悪意のあるまたは異常な挙動を検出するために重要になっています。
ただし、大規模、高可動性、および車両間ネットワークに固有の不均一なデータ分布により、集中化されたデータ収集または純粋にローカルなトレーニングに依存している従来のアプローチは、顔の制限です。
これらの課題を克服するために、このペーパーでは、分散型フェデレーションラーニング(DFL)を探索します。これにより、1ホップの隣人間でモデルの更新を交換し、複数のホップでモデルを伝播することにより、車両がディープラーニングモデルを協力して協力して訓練します。
車両の参照Misbehavior(Veremi)拡張データセットを使用して、DFLがローカルデータで厳密に学習することと比較して、すべての車両の分類精度を大幅に改善できることを示します。
特に、個人の精度が低い車両は、DFLを通じてかなりの精度の向上を見て、ネットワーク全体で知識共有の利点を示しています。
さらに、ローカルトレーニングデータサイズと時変ネットワーク接続がモデルの全体的な精度と強く相関することを示します。
DFLの回復力と脆弱性を複数のドメインで攻撃していること、つまりワイヤレス妨害およびトレーニングデータ中毒攻撃を調査します。
私たちの結果は、マルチドメイン攻撃に直面したときのDFLの脆弱性に関する重要な洞察を明らかにし、車両ネットワークでDFLを保護するためのより強力な戦略の必要性を強調しています。

要約(オリジナル)

In connected and autonomous vehicles, machine learning for safety message classification has become critical for detecting malicious or anomalous behavior. However, conventional approaches that rely on centralized data collection or purely local training face limitations due to the large scale, high mobility, and heterogeneous data distributions inherent in inter-vehicle networks. To overcome these challenges, this paper explores Distributed Federated Learning (DFL), whereby vehicles collaboratively train deep learning models by exchanging model updates among one-hop neighbors and propagating models over multiple hops. Using the Vehicular Reference Misbehavior (VeReMi) Extension Dataset, we show that DFL can significantly improve classification accuracy across all vehicles compared to learning strictly with local data. Notably, vehicles with low individual accuracy see substantial accuracy gains through DFL, illustrating the benefit of knowledge sharing across the network. We further show that local training data size and time-varying network connectivity correlate strongly with the model’s overall accuracy. We investigate DFL’s resilience and vulnerabilities under attacks in multiple domains, namely wireless jamming and training data poisoning attacks. Our results reveal important insights into the vulnerabilities of DFL when confronted with multi-domain attacks, underlining the need for more robust strategies to secure DFL in vehicular networks.

arxiv情報

著者 Utku Demir,Yalin E. Sagduyu,Tugba Erpek,Hossein Jafari,Sastry Kompella,Mengran Xue
発行日 2025-05-29 17:41:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.IT, cs.NI, eess.SP, math.IT | Distributed Federated Learning for Vehicular Network Security: Anomaly Detection Benefits and Multi-Domain Attack Threats はコメントを受け付けていません

From Connectivity to Autonomy: The Dawn of Self-Evolving Communication Systems

要約

この論文は、6Gが自己進化するテレコムエコシステムとして想定しています。このエコシステムでは、AI駆動型のインテリジェンスが静的接続を超えた動的な適応を可能にします。
再構成可能なインフラストラクチャ、適応性のあるミドルウェア、およびインテリジェントなネットワーク関数にまたがる自律通信システムの主要なイネーブラーと、分散意思決定のためのマルチエージェントコラボレーションとともに調査します。
これらの方法論が新たな産業用IoTフレームワークとどのように整合するかを探り、デジタル製造プロセス内のシームレスな統合を確保します。
私たちの調査結果は、リアルタイムの意思決定の改善、効率の最適化、ネットワーク制御システムの遅延の削減の可能性を強調しています。
この議論は、倫理的な課題、研究の方向性、標準化の取り組みに取り組んでおり、将来の開発を導くためのテクノロジースタックロードマップで締めくくります。
最先端の6Gネットワ​​ーク管理手法を活用することにより、この研究は次世代のインテリジェントオートメーションソリューションに貢献し、理論的進歩と現実世界の産業用途とのギャップを埋めます。

要約(オリジナル)

This paper envisions 6G as a self-evolving telecom ecosystem, where AI-driven intelligence enables dynamic adaptation beyond static connectivity. We explore the key enablers of autonomous communication systems, spanning reconfigurable infrastructure, adaptive middleware, and intelligent network functions, alongside multi-agent collaboration for distributed decision-making. We explore how these methodologies align with emerging industrial IoT frameworks, ensuring seamless integration within digital manufacturing processes. Our findings emphasize the potential for improved real-time decision-making, optimizing efficiency, and reducing latency in networked control systems. The discussion addresses ethical challenges, research directions, and standardization efforts, concluding with a technology stack roadmap to guide future developments. By leveraging state-of-the-art 6G network management techniques, this research contributes to the next generation of intelligent automation solutions, bridging the gap between theoretical advancements and real-world industrial applications.

arxiv情報

著者 Zeinab Nezami,Syed Danial Ali Shah,Maryam Hafeez,Karim Djemame,Syed Ali Raza Zaidi
発行日 2025-05-29 17:45:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.ET, cs.SY, eess.SY | From Connectivity to Autonomy: The Dawn of Self-Evolving Communication Systems はコメントを受け付けていません

SenWiCh: Sense-Annotation of Low-Resource Languages for WiC using Hybrid Methods

要約

このペーパーでは、低リソース言語の高品質の評価データセットの重要なニーズに対処し、横断的な転送を進めます。
横断的な転送は、言語技術を拡張して類型的に多様な言語に拡張するために多言語の事前トレーニングを活用するための重要な戦略を提供しますが、その有効性は品質と適切なベンチマークに依存しています。
多様な言語ファミリやスクリプトにわたって9つの低リソース言語にまたがるポリシーワードを含む文の新しい感覚解釈データセットをリリースします。
データセットの作成を容易にするために、この論文は、明らかに有益な半自動アノテーション法を示します。
データセットのユーティリティは、これらの低リソース言語での転送を評価するWord-in-context(WIC)形式の実験を通じて実証されています。
結果は、低リソースの設定と転送研究における効果的な多さの曖昧性を除去するためのターゲットを絞ったデータセットの作成と評価の重要性を強調しています。
リリースされたデータセットとコードは、公正で堅牢で、真に多言語NLPのさらなる研究をサポートすることを目的としています。

要約(オリジナル)

This paper addresses the critical need for high-quality evaluation datasets in low-resource languages to advance cross-lingual transfer. While cross-lingual transfer offers a key strategy for leveraging multilingual pretraining to expand language technologies to understudied and typologically diverse languages, its effectiveness is dependent on quality and suitable benchmarks. We release new sense-annotated datasets of sentences containing polysemous words, spanning nine low-resource languages across diverse language families and scripts. To facilitate dataset creation, the paper presents a demonstrably beneficial semi-automatic annotation method. The utility of the datasets is demonstrated through Word-in-Context (WiC) formatted experiments that evaluate transfer on these low-resource languages. Results highlight the importance of targeted dataset creation and evaluation for effective polysemy disambiguation in low-resource settings and transfer studies. The released datasets and code aim to support further research into fair, robust, and truly multilingual NLP.

arxiv情報

著者 Roksana Goworek,Harpal Karlcut,Muhammad Shezad,Nijaguna Darshana,Abhishek Mane,Syam Bondada,Raghav Sikka,Ulvi Mammadov,Rauf Allahverdiyev,Sriram Purighella,Paridhi Gupta,Muhinyia Ndegwa,Haim Dubossarsky
発行日 2025-05-29 17:48:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SenWiCh: Sense-Annotation of Low-Resource Languages for WiC using Hybrid Methods はコメントを受け付けていません

COBRA: Contextual Bandit Algorithm for Ensuring Truthful Strategic Agents

要約

このペーパーでは、学習者がコンテキストとエージェントの報告された腕を順次観察し、システム全体の報酬を最大化するアームを選択する複数のエージェントを含むコンテキスト盗賊問題を考慮します。
文脈的盗賊の既存の作業は、エージェントが多くの現実のアプリケーションで非現実的であることを誠実に報告することを前提としています。
たとえば、複数の売り手を持つオンラインプラットフォームを検討してください。
一部の売り手は、プラットフォームがオンラインユーザーに製品を優先的に推奨するなど、利点を獲得するために製品の品質を誤って伝えている場合があります。
この課題に対処するために、私たちは、金銭的インセンティブを使用せずに戦略的行動を除去する戦略的エージェントを含む文脈上の盗賊の問題について、アルゴリズムであるCobraを提案します。
実験結果は、提案されたアルゴリズムのさまざまなパフォーマンスの側面も検証します。

要約(オリジナル)

This paper considers a contextual bandit problem involving multiple agents, where a learner sequentially observes the contexts and the agent’s reported arms, and then selects the arm that maximizes the system’s overall reward. Existing work in contextual bandits assumes that agents truthfully report their arms, which is unrealistic in many real-life applications. For instance, consider an online platform with multiple sellers; some sellers may misrepresent product quality to gain an advantage, such as having the platform preferentially recommend their products to online users. To address this challenge, we propose an algorithm, COBRA, for contextual bandit problems involving strategic agents that disincentivize their strategic behavior without using any monetary incentives, while having incentive compatibility and a sub-linear regret guarantee. Our experimental results also validate the different performance aspects of our proposed algorithm.

arxiv情報

著者 Arun Verma,Indrajit Saha,Makoto Yokoo,Bryan Kian Hsiang Low
発行日 2025-05-29 17:53:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | COBRA: Contextual Bandit Algorithm for Ensuring Truthful Strategic Agents はコメントを受け付けていません