Optimizing pre-scheduled, intermittently-observed MDPs

要約

ロボット工学の問題という難しいカテゴリーは、センシングに多大なコストがかかる場合に発生します。
この論文では、たとえば、エネルギー管理、ステルス、または暗黙的な調整などの特定の考慮事項によって動機付けられ、ロボットが状態の観察を制限したい設定について検討します。
ロボットの観察が断続的であるものの、そのタイミングは事前に宣言されたスケジュールによってわかっている場合、不確実性の下での計画の問題を定式化します。
このような設定に対する最適なポリシーの適切な概念を確立した後、割引の下で期待される累積実行コストと状態観測数の共同最適化の問題に取り組みます。
この多目的最適化問題にアプローチするために、割引設定で有利なスケジュールのクラスのパレート フロントを特定できるアルゴリズムを導入します。
アルゴリズムは累積的に進行し、スケジュールの作業セットに追加を先頭に追加してから、値関数への増分変更を計算します。
中規模の問題では完全な網羅的構築は計算的に法外なものになるため、ワーキング セットを除去するためのフィルタリング アプローチを提案します。
経験的な結果は、このフィルタリングが計算量の削減に効果的である一方、品質の低下は無視できる程度であることを示しています。
調査結果を要約するにあたり、実行時間と品質のトレードオフの特徴を示します。

要約(オリジナル)

A challenging category of robotics problems arises when sensing incurs substantial costs. This paper examines settings in which a robot wishes to limit its observations of state, for instance, motivated by specific considerations of energy management, stealth, or implicit coordination. We formulate the problem of planning under uncertainty when the robot’s observations are intermittent but their timing is known via a pre-declared schedule. After having established the appropriate notion of an optimal policy for such settings, we tackle the problem of joint optimization of the cumulative execution cost and the number of state observations, both in expectation under discounts. To approach this multi-objective optimization problem, we introduce an algorithm that can identify the Pareto front for a class of schedules that are advantageous in the discounted setting. The algorithm proceeds in an accumulative fashion, prepending additions to a working set of schedules and then computing incremental changes to the value functions. Because full exhaustive construction becomes computationally prohibitive for moderate-sized problems, we propose a filtering approach to prune the working set. Empirical results demonstrate that this filtering is effective at reducing computation while incurring only negligible reduction in quality. In summarizing our findings, we provide a characterization of the run-time vs quality trade-off involved.

arxiv情報

著者 Patrick Zhong,Federico Rossi,Dylan A. Shell
発行日 2023-09-13 00:25:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク