FindView: Precise Target View Localization Task for Look Around Agents

要約

サービス ロボットと自動検査の需要が高まる中、エージェントは周囲の環境にローカライズして、共有コンテキストによって人間とのより自然なコミュニケーションを実現する必要があります。
この作業では、FindView タスクと呼ばれるルックアラウンド エージェントの正確なターゲット ビュー ローカリゼーションの斬新で簡単なタスクを提案します。
このタスクは、360 度メディアの PTZ カメラまたはユーザー インターフェイスの動きを模倣します。観察者は、ターゲットに正確に一致するビューを見つけるために「周りを見回す」必要があります。
この課題を解決するために、最適なビューを発見的に見つけるルールベースのエージェントと、強化学習を使用して 360 度のシーンと対話して学習するポリシー学習エージェントを導入します。
広範な評価とベンチマークを通じて、学習した方法には多くの利点があり、特に正確なローカリゼーションは破損に対して堅牢であり、新しいシーンに簡単に展開できると結論付けています。

要約(オリジナル)

With the increase in demands for service robots and automated inspection, agents need to localize in its surrounding environment to achieve more natural communication with humans by shared contexts. In this work, we propose a novel but straightforward task of precise target view localization for look around agents called the FindView task. This task imitates the movements of PTZ cameras or user interfaces for 360 degree mediums, where the observer must ‘look around’ to find a view that exactly matches the target. To solve this task, we introduce a rule-based agent that heuristically finds the optimal view and a policy learning agent that employs reinforcement learning to learn by interacting with the 360 degree scene. Through extensive evaluations and benchmarks, we conclude that learned methods have many advantages, in particular precise localization that is robust to corruption and can be easily deployed in novel scenes.

arxiv情報

著者 Haruya Ishikawa,Yoshimitsu Aoki
発行日 2023-03-16 03:00:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク