Q-Learning to navigate turbulence without a map

要約

乱流環境における嗅覚検索の問題を考察します。
私たちは、空間認識や匂いの位置に関する事前情報にアクセスせず、匂い刺激のみに反応する薬剤に焦点を当てています。
私たちは、ターゲットへのナビゲーション戦略が逐次的な意思決定フレームワーク内で確実に学習できるかどうかを尋ねます。
私たちは、解釈可能な嗅覚状態の小さなセットを使用して強化学習アルゴリズムを開発し、現実的な乱流の匂いの手がかりでそれをトレーニングします。
時間的記憶を導入することにより、いくつかの嗅覚状態で離散化された匂い痕跡の 2 つの顕著な特徴が、現実的な匂いプルーム内でのナビゲーションを学習するのに十分であることを実証します。
パフォーマンスは乱流プルームのまばらな性質によって決まります。
プルーム内の空白を無視し、プルームの外側で回復戦略をアクティブにする最適なメモリが存在します。
エージェントに回復戦略を学習させ、飛行する昆虫で観察される行動と同様に、主に横風が吹いていることを示すことで最高のパフォーマンスが得られます。
最適な戦略は臭気プルームの大幅な変化に対して堅牢であり、異なる環境に適応するにはマイナーなパラメーター調整で十分である可能性があることを示唆しています。

要約(オリジナル)

We consider the problem of olfactory searches in a turbulent environment. We focus on agents that respond solely to odor stimuli, with no access to spatial perception nor prior information about the odor location. We ask whether navigation strategies to a target can be learned robustly within a sequential decision making framework. We develop a reinforcement learning algorithm using a small set of interpretable olfactory states and train it with realistic turbulent odor cues. By introducing a temporal memory, we demonstrate that two salient features of odor traces, discretized in few olfactory states, are sufficient to learn navigation in a realistic odor plume. Performance is dictated by the sparse nature of turbulent plumes. An optimal memory exists which ignores blanks within the plume and activates a recovery strategy outside the plume. We obtain the best performance by letting agents learn their recovery strategy and show that it is mostly casting cross wind, similar to behavior observed in flying insects. The optimal strategy is robust to substantial changes in the odor plumes, suggesting minor parameter tuning may be sufficient to adapt to different environments.

arxiv情報

著者 Marco Rando,Martin James,Alessandro Verri,Lorenzo Rosasco,Agnese Seminara
発行日 2024-04-26 15:51:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.bio-ph パーマリンク