要約
能動的視覚探索(Active Visual Exploration: AVE)は、観察(垣間見)を動的に選択するタスクであり、環境内での理解やナビゲーションを容易にするために重要である。最新のAVE手法は素晴らしい性能を実証しているが、硬直したグリッドからの固定スケールのグリップに制約されている。対照的に、光学ズーム機能を備えた既存のモバイル・プラットフォームは、任意の位置とスケールのグリップをキャプチャすることができる。このソフトウェアとハードウェアの性能のギャップを解決するために、我々はAdaGlimpseを紹介する。AdaGlimpseは、探索タスク用に調整された強化学習アルゴリズムであるSoft Actor-Criticを使用し、任意の位置とスケールのチラ見を選択する。このアプローチにより、我々のモデルは、詳細な分析のためにズームインする前に、環境の一般的な認識を迅速に確立することができる。実験結果は、AdaGlimpseが現実的なAVEシナリオにおいてより高い適用性を維持しながら、様々な視覚タスクにおいて従来の手法を凌駕することを示している。
要約(オリジナル)
Active Visual Exploration (AVE) is a task that involves dynamically selecting observations (glimpses), which is critical to facilitate comprehension and navigation within an environment. While modern AVE methods have demonstrated impressive performance, they are constrained to fixed-scale glimpses from rigid grids. In contrast, existing mobile platforms equipped with optical zoom capabilities can capture glimpses of arbitrary positions and scales. To address this gap between software and hardware capabilities, we introduce AdaGlimpse. It uses Soft Actor-Critic, a reinforcement learning algorithm tailored for exploration tasks, to select glimpses of arbitrary position and scale. This approach enables our model to rapidly establish a general awareness of the environment before zooming in for detailed analysis. Experimental results demonstrate that AdaGlimpse surpasses previous methods across various visual tasks while maintaining greater applicability in realistic AVE scenarios.
arxiv情報
著者 | Adam Pardyl,Michał Wronka,Maciej Wołczyk,Kamil Adamczewski,Tomasz Trzciński,Bartosz Zieliński |
発行日 | 2024-04-04 14:35:49+00:00 |
arxivサイト | arxiv_id(pdf) |