要約
個別に訓練または設計されたロボットが共有環境に展開される場合、それらの組み合わせ動作により、意図しないマイナスの副作用 (NSE) が発生する可能性があります。
安全で効率的な運用を確保するために、ロボットは、NSE に関連するペナルティを最小限に抑えながらタスクのパフォーマンスを最適化し、個々の目標と全体的な影響のバランスを取る必要があります。
我々は、協調的なマルチエージェントシステムにおける NSE を軽減する問題を、双目的辞書編集的分散マルコフ決定プロセスとしてモデル化します。
ロボットのタスクに関する遷移と報酬は独立していると仮定しますが、この設定では共同 NSE ペナルティによって依存関係が生じます。
スケーラビリティを向上させるために、共同 NSE ペナルティは、クレジット割り当てを使用して各ロボットの個別のペナルティに分解され、分散ポリシーの計算が容易になります。
私たちは、モバイル ロボットを使用し、シミュレーションで、NSE を軽減するアプローチの有効性と拡張性を実証します。
要約(オリジナル)
When independently trained or designed robots are deployed in a shared environment, their combined actions can lead to unintended negative side effects (NSEs). To ensure safe and efficient operation, robots must optimize task performance while minimizing the penalties associated with NSEs, balancing individual objectives with collective impact. We model the problem of mitigating NSEs in a cooperative multi-agent system as a bi-objective lexicographic decentralized Markov decision process. We assume independence of transitions and rewards with respect to the robots’ tasks, but the joint NSE penalty creates a form of dependence in this setting. To improve scalability, the joint NSE penalty is decomposed into individual penalties for each robot using credit assignment, which facilitates decentralized policy computation. We empirically demonstrate, using mobile robots and in simulation, the effectiveness and scalability of our approach in mitigating NSEs.
arxiv情報
著者 | Pulkit Rustagi,Sandhya Saisubramanian |
発行日 | 2024-12-18 19:46:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google