要約
この論文では、指定されたタスク ポイントの近隣を通過する非ホロノミック車両のツアーを迅速に作成するための、近隣を伴う Dubins Traveling Salesman 問題 (DTSP) (DTSPN) の新しい学習アプローチを紹介します。
この方法には 2 つの学習フェーズが含まれます。最初に、モデルフリーの強化学習アプローチが特権情報を利用して、LinKernighan ヒューリスティック (LKH) アルゴリズムによって生成された専門家の軌跡から知識を抽出します。
続いて、教師あり学習フェーズで、特権情報に関係なく問題を解決できるように適応ネットワークをトレーニングします。
最初の学習フェーズの前に、トレーニング効率を高めるためにデモンストレーション データを使用したパラメータ初期化手法も考案されました。
提案された学習方法は、LKH よりも約 50 倍速く解を生成し、他の模倣学習やデモンストレーション スキームを使用した RL よりも大幅に優れたパフォーマンスを示しますが、そのほとんどはすべてのタスク ポイントを感知できません。
要約(オリジナル)
This paper presents a novel learning approach for Dubins Traveling Salesman Problems(DTSP) with Neighborhood (DTSPN) to quickly produce a tour of a non-holonomic vehicle passing through neighborhoods of given task points. The method involves two learning phases: initially, a model-free reinforcement learning approach leverages privileged information to distill knowledge from expert trajectories generated by the LinKernighan heuristic (LKH) algorithm. Subsequently, a supervised learning phase trains an adaptation network to solve problems independently of privileged information. Before the first learning phase, a parameter initialization technique using the demonstration data was also devised to enhance training efficiency. The proposed learning method produces a solution about 50 times faster than LKH and substantially outperforms other imitation learning and RL with demonstration schemes, most of which fail to sense all the task points.
arxiv情報
著者 | Min Kyu Shin,Su-Jeong Park,Seung-Keol Ryu,Heeyeon Kim,Han-Lim Choi |
発行日 | 2024-04-25 16:33:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google