要約
多くの自動計画アプリケーションでは、アクションコストを指定するのが難しい場合があります。
たとえば、特定の道路セグメントを通過するのに必要な時間は、現在の気象条件などの多くの要因によって決まります。
この問題に対処する自然な方法は、入力特徴 (天気予報など) に基づいてこれらのパラメーターを予測する方法を学び、予測されたアクション コストをその後の自動計画に使用することです。
意思決定集中学習 (DFL) は、予測の品質ではなくソリューションの品質を最適化する方法で、組み合わせ最適化問題のパラメーターを予測する学習に成功しています。
このアプローチでは、予測と最適化を別個のタスクとして扱うよりも良い結果が得られます。
このペーパーでは、アクション コストの予測方法を学ぶために、自動計画のために DFL を実装する際の課題を初めて調査します。
克服すべき主な課題が 2 つあります。(1) 計画システムは、計画ではサポートされていない負のアクション コストを伴う計画問題を解決するために、勾配降下学習中に呼び出されます。
この問題を回避するために、勾配計算の新しい方法を提案します。
(2) DFL ではトレーニング中にプランナー呼び出しを繰り返す必要があるため、メソッドのスケーラビリティが制限される可能性があります。
私たちは、最適な計画に近似するさまざまな方法と、学習プロセスを高速化するための実装が簡単なキャッシュ メカニズムを実験します。
自動計画のための DFL に取り組んだ最初の研究として、提案された勾配計算が、予測誤差を最小限に抑えることを目的とした予測よりも一貫して大幅に優れた計画を生み出すことを実証します。
そして、キャッシュによって計算要件が緩和される可能性があります。
要約(オリジナル)
In many automated planning applications, action costs can be hard to specify. An example is the time needed to travel through a certain road segment, which depends on many factors, such as the current weather conditions. A natural way to address this issue is to learn to predict these parameters based on input features (e.g., weather forecasts) and use the predicted action costs in automated planning afterward. Decision-Focused Learning (DFL) has been successful in learning to predict the parameters of combinatorial optimization problems in a way that optimizes solution quality rather than prediction quality. This approach yields better results than treating prediction and optimization as separate tasks. In this paper, we investigate for the first time the challenges of implementing DFL for automated planning in order to learn to predict the action costs. There are two main challenges to overcome: (1) planning systems are called during gradient descent learning, to solve planning problems with negative action costs, which are not supported in planning. We propose novel methods for gradient computation to avoid this issue. (2) DFL requires repeated planner calls during training, which can limit the scalability of the method. We experiment with different methods approximating the optimal plan as well as an easy-to-implement caching mechanism to speed up the learning process. As the first work that addresses DFL for automated planning, we demonstrate that the proposed gradient computation consistently yields significantly better plans than predictions aimed at minimizing prediction error; and that caching can temper the computation requirements.
arxiv情報
著者 | Jayanta Mandi,Marco Foschini,Daniel Holler,Sylvie Thiebaux,Jorg Hoffmann,Tias Guns |
発行日 | 2024-08-26 11:29:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google