Risk-Aware Continuous Control with Neural Contextual Bandits

要約

学習技術の最近の進歩は、現実世界のさまざまな逐次意思決定問題への適用可能性で注目を集めています。
しかし、実際のアプリケーションの多くには、実際の環境での動作に関して重大な制約があります。
ほとんどの学習ソリューションでは、これらの制約を満たせないリスクが無視され、現実世界の状況での実装が妨げられることがよくあります。
この論文では、コンテキストバンディット問題、制約および継続的なアクションスペースへの対応のための、リスクを意識した意思決定フレームワークを提案します。
私たちのアプローチは、アクターのマルチクリティカル アーキテクチャを採用しており、各クリティカルがパフォーマンスと制約メトリクスの分布を特徴付けます。
当社のフレームワークは、さまざまなリスク レベルに対応し、制約を満たすこととパフォーマンスのバランスを効果的にとれるように設計されています。
私たちのアプローチの有効性を実証するために、まず合成環境における最先端のベースライン手法と比較し、さまざまなリスク構成にわたる固有の環境ノイズの影響を強調します。
最後に、5G モバイル ネットワークを含む実際のユースケースでフレームワークを評価します。この場合、私たちのアプローチだけが、わずかなパフォーマンス負担 (消費電力の 8.5% 増加) でシステム制約 (信号処理の信頼性目標) を一貫して満たしています。

要約(オリジナル)

Recent advances in learning techniques have garnered attention for their applicability to a diverse range of real-world sequential decision-making problems. Yet, many practical applications have critical constraints for operation in real environments. Most learning solutions often neglect the risk of failing to meet these constraints, hindering their implementation in real-world contexts. In this paper, we propose a risk-aware decision-making framework for contextual bandit problems, accommodating constraints and continuous action spaces. Our approach employs an actor multi-critic architecture, with each critic characterizing the distribution of performance and constraint metrics. Our framework is designed to cater to various risk levels, effectively balancing constraint satisfaction against performance. To demonstrate the effectiveness of our approach, we first compare it against state-of-the-art baseline methods in a synthetic environment, highlighting the impact of intrinsic environmental noise across different risk configurations. Finally, we evaluate our framework in a real-world use case involving a 5G mobile network where only our approach consistently satisfies the system constraint (a signal processing reliability target) with a small performance toll (8.5% increase in power consumption).

arxiv情報

著者 Jose A. Ayala-Romero,Andres Garcia-Saavedra,Xavier Costa-Perez
発行日 2023-12-15 17:16:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP, stat.ML パーマリンク