AdaGlimpse: Active Visual Exploration with Arbitrary Glimpse Position and Scale

要約

Active Visual Exploration (AVE) は、観察 (ちらっと見る) を動的に選択するタスクであり、環境内の理解とナビゲーションを容易にするために重要です。
最新の AVE 手法は優れたパフォーマンスを実証していますが、厳密なグリッドからの固定スケールの垣間見ることに制約されています。
対照的に、光学ズーム機能を備えた既存のモバイル プラットフォームでは、任意の位置とスケールを垣間見ることができます。
ソフトウェアとハ​​ードウェアの機能間のこのギャップに対処するために、AdaGlimpse を導入します。
探索タスク向けに調整された強化学習アルゴリズムである Soft Actor-Critic を使用して、任意の位置とスケールの片鱗を選択します。
このアプローチにより、モデルは詳細な分析にズームインする前に、環境に関する一般的な認識を迅速に確立できます。
実験結果は、AdaGlimpse が現実的な AVE シナリオでの高い適用性を維持しながら、さまざまな視覚タスクにわたって以前の方法を上回っていることを示しています。

要約(オリジナル)

Active Visual Exploration (AVE) is a task that involves dynamically selecting observations (glimpses), which is critical to facilitate comprehension and navigation within an environment. While modern AVE methods have demonstrated impressive performance, they are constrained to fixed-scale glimpses from rigid grids. In contrast, existing mobile platforms equipped with optical zoom capabilities can capture glimpses of arbitrary positions and scales. To address this gap between software and hardware capabilities, we introduce AdaGlimpse. It uses Soft Actor-Critic, a reinforcement learning algorithm tailored for exploration tasks, to select glimpses of arbitrary position and scale. This approach enables our model to rapidly establish a general awareness of the environment before zooming in for detailed analysis. Experimental results demonstrate that AdaGlimpse surpasses previous methods across various visual tasks while maintaining greater applicability in realistic AVE scenarios.

arxiv情報

著者 Adam Pardyl,Michał Wronka,Maciej Wołczyk,Kamil Adamczewski,Tomasz Trzciński,Bartosz Zieliński
発行日 2024-07-11 16:00:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク