Deep reinforcement learning for the olfactory search POMDP: a quantitative benchmark

要約

嗅覚探索 POMDP (部分的に観察可能なマルコフ決定過程) は、乱気流中の匂いの源を探す昆虫が直面するタスクを模倣するように設計された逐次的な意思決定問題であり、その解決策はロボットの探知に応用できます。
正確な解は手の届かないところにあるため、計算コストを妥当に保ちながら、可能な限り最良の近似解を見つけることが課題となります。
従来の POMDP 近似ソルバーに対する深層強化学習に基づくソルバーの定量的ベンチマークを提供します。
特にロボットに適した軽量のポリシーを生成するために、深層強化学習が標準的な方法に代わる競争力のある代替手段であることを示します。

要約(オリジナル)

The olfactory search POMDP (partially observable Markov decision process) is a sequential decision-making problem designed to mimic the task faced by insects searching for a source of odor in turbulence, and its solutions have applications to sniffer robots. As exact solutions are out of reach, the challenge consists in finding the best possible approximate solutions while keeping the computational cost reasonable. We provide a quantitative benchmarking of a solver based on deep reinforcement learning against traditional POMDP approximate solvers. We show that deep reinforcement learning is a competitive alternative to standard methods, in particular to generate lightweight policies suitable for robots.

arxiv情報

著者 Aurore Loisy,Robin A. Heinonen
発行日 2023-03-20 11:55:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, physics.bio-ph, physics.flu-dyn パーマリンク