要約
私たちの目標は、特定のタスクに対してロボットのセンサーによって課されるパフォーマンスの基本的な制限を確立するための理論とアルゴリズムを開発することです。
これを達成するために、センサーによって提供されるタスク関連情報の量を捕捉する量を定義します。
情報理論から一般化されたファノ不等式の新しいバージョンを使用して、この量がワンステップの意思決定タスクで達成可能な最高の期待報酬の上限を提供することを示します。
次に、動的プログラミング アプローチを使用して、これを複数ステップの問題に拡張します。
結果として得られる境界を数値的に計算するためのアルゴリズムを提示し、次の 3 つの例に対するアプローチを示します: (i) 部分的に観察可能なマルコフ決定プロセスに関する文献からの溶岩問題、(ii) ロボットがキャッチすることに対応する連続状態と観察空間の例
自由落下物体、および (iii) 非ガウス ノイズを備えた深度センサーを使用した障害物回避。
上限と達成可能な下限 (具体的な制御ポリシーを合成または学習することで計算) を比較することにより、これらの問題に対して達成可能なパフォーマンスに強力な制限を設定するアプローチの能力を実証します。
要約(オリジナル)
Our goal is to develop theory and algorithms for establishing fundamental limits on performance imposed by a robot’s sensors for a given task. In order to achieve this, we define a quantity that captures the amount of task-relevant information provided by a sensor. Using a novel version of the generalized Fano inequality from information theory, we demonstrate that this quantity provides an upper bound on the highest achievable expected reward for one-step decision making tasks. We then extend this bound to multi-step problems via a dynamic programming approach. We present algorithms for numerically computing the resulting bounds, and demonstrate our approach on three examples: (i) the lava problem from the literature on partially observable Markov decision processes, (ii) an example with continuous state and observation spaces corresponding to a robot catching a freely-falling object, and (iii) obstacle avoidance using a depth sensor with non-Gaussian noise. We demonstrate the ability of our approach to establish strong limits on achievable performance for these problems by comparing our upper bounds with achievable lower bounds (computed by synthesizing or learning concrete control policies).
arxiv情報
著者 | Anirudha Majumdar,Zhiting Mei,Vincent Pacelli |
発行日 | 2023-07-12 02:51:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google