要約
ランダムかつ継続的に到着するロボットのセットに対して、安全で最適な軌道を取得しようとする、最適な無信号交差点管理の問題を検討します。
この問題には、さまざまなパラメーターを使用して混合整数プログラム (ロボットの加速軌道を決定変数として使用) を繰り返し解くことが含まれます。単純な最適化アルゴリズムを使用した計算時間は、ロボットとレーンの数に応じて指数関数的に増加します。
したがって、このようなアプローチはリアルタイムの実装には適していません。
この論文では、学習と逐次最適化を組み合わせたソリューション フレームワークを提案します。
特に、交通状況情報を考慮してロボットの通過順序を決定する共有ポリシーを学習するアルゴリズムを提案します。
次に、その交差順序に従ってロボットの軌道を順次最適化します。
このアプローチは本質的に常に安全を保証します。
私たちは広範なシミュレーションを使用してこのアプローチのパフォーマンスを検証し、$9$ の異なるシミュレーション設定における文献からの $5$ の異なるヒューリスティックと私たちのアプローチを比較します。
私たちのアプローチは、平均して、目的関数、交差時間の加重平均、計算時間などのさまざまな指標において、文献によるヒューリスティックよりも大幅に優れています。
たとえば、一部のシナリオでは、私たちのアプローチにより、先着順ヒューリスティックよりも目標値が最大 $150\%$ 向上することが観察されています。
トレーニングされていないシナリオであっても、私たちのアプローチは、検討中のすべてのヒューリスティックと比較して、一貫して $30\%$ 以上の (客観的価値の) 改善を示しています。
また、シミュレーションを通じて、このアプローチの計算時間がロボットの数に比例して増加することも示します (他のすべての要素が一定であると仮定します)。
学習されたポリシーは、現実世界の課題に対処するためにわずかに変更されたフレームワークを備えた物理ロボットに実装されます。
要約(オリジナル)
We consider the problem of optimal unsignalized intersection management, wherein we seek to obtain safe and optimal trajectories, for a set of robots that arrive randomly and continually. This problem involves repeatedly solving a mixed integer program (with robot acceleration trajectories as decision variables) with different parameters, for which the computation time using a naive optimization algorithm scales exponentially with the number of robots and lanes. Hence, such an approach is not suitable for real-time implementation. In this paper, we propose a solution framework that combines learning and sequential optimization. In particular, we propose an algorithm for learning a shared policy that given the traffic state information, determines the crossing order of the robots. Then, we optimize the trajectories of the robots sequentially according to that crossing order. This approach inherently guarantees safety at all times. We validate the performance of this approach using extensive simulations and compare our approach against $5$ different heuristics from the literature in $9$ different simulation settings. Our approach, on average, significantly outperforms the heuristics from the literature in various metrics like objective function, weighted average of crossing times and computation time. For example, in some scenarios, we have observed that our approach offers up to $150\%$ improvement in objective value over the first come first serve heuristic. Even on untrained scenarios, our approach shows a consistent improvement (in objective value) of more than $30\%$ over all heuristics under consideration. We also show through simulations that the computation time for our approach scales linearly with the number of robots (assuming all other factors are constant). Learnt policies are implemented on physical robots with slightly modified framework to address real-world challenges.
arxiv情報
| 著者 | Nishchal Hoysal G.,Pavankumar Tallapragada |
| 発行日 | 2024-08-07 02:08:27+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google