Inverse Risk-sensitive Multi-Robot Task Allocation

要約

マルチロボット タスク割り当て問題の新しい変形である、逆リスク敏感マルチロボット タスク割り当て (IR-MRTA) を検討します。
「フォワード」MRTA – 報酬 (コスト) 関連パラメータが与えられたタスクをどのロボットが実行するかを決定するプロセスは、マルチロボットの文献で広く研究されています。
この設定では、報酬 (コスト) 関連のパラメーターは既知であると想定されます。パラメーターは最初にドメインの専門家によってオフラインで修正され、次にオンラインでロボットを調整します。
新しい状況に適応するために、タスク中にロボットを監督する専門家ではない人間の監督者によってこれらのパラメーターを調整する必要がある場合はどうなるでしょうか?
私たちは、割り当てリスクに対する人間の監督者の認識が変化し、MRTA アルゴリズムからの割り当てと比較してロボットに対して異なる割り当てを提案する可能性があるケースに興味があります。
このような場合、ロボットは、進化する人間の好みに基づいて割り当て問題のパラメータを変更する必要があります。
私たちは、このような問題を、逆タスク割り当て、つまり、問題に対する解決策が与えられたパラメータを見つけるプロセスのレンズを通して研究します。
具体的には、新しい定式化 IR-MRTA を提案します。この定式化では、現在の MRTA パラメータからの逸脱を最小限に抑え、貪欲なタスク割り当てアルゴリズムがロボット リソースをロボット リソースに割り当てることができる、人間の行動リスク モデルの新しいパラメータ セットを見つけることを目指しています。
人間が提案したもの。
単純な場合であっても、そのような問題は非凸最適化問題であることを示します。
このような問題を解決するために、Branch $\&$ Bound アルゴリズム (BB-IR-MRTA) を提案します。
マルチロボットターゲット捕捉のケーススタディの数値シミュレーションでは、BB-IR-MRTA の使用方法を実証し、提案されたアルゴリズムが総当たりベースラインと比較して実行時間とピークメモリ使用量において大きな利点を達成することを示します。

要約(オリジナル)

We consider a new variant of the multi-robot task allocation problem – Inverse Risk-sensitive Multi-Robot Task Allocation (IR-MRTA). ‘Forward’ MRTA – the process of deciding which robot should perform a task given the reward (cost)-related parameters, is widely studied in the multi-robot literature. In this setting, the reward (cost)-related parameters are assumed to be already known: parameters are first fixed offline by domain experts, followed by coordinating robots online. What if we need these parameters to be adjusted by non-expert human supervisors who oversee the robots during tasks to adapt to new situations? We are interested in the case where the human supervisor’s perception of the allocation risk may change and suggest different allocations for robots compared to that from the MRTA algorithm. In such cases, the robots need to change the parameters of the allocation problem based on evolving human preferences. We study such problems through the lens of inverse task allocation, i.e., the process of finding parameters given solutions to the problem. Specifically, we propose a new formulation IR-MRTA, in which we aim to find a new set of parameters of the human behavioral risk model that minimally deviates from the current MRTA parameters and can make a greedy task allocation algorithm allocate robot resources in line with those suggested by humans. We show that even in the simple case such a problem is a non-convex optimization problem. We propose a Branch $\&$ Bound algorithm (BB-IR-MRTA) to solve such problems. In numerical simulations of a case study on multi-robot target capture, we demonstrate how to use BB-IR-MRTA and we show that the proposed algorithm achieves significant advantages in running time and peak memory usage compared to a brute-force baseline.

arxiv情報

著者 Guangyao Shi,Gaurav S. Sukhatme
発行日 2024-06-14 17:32:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク