Language-Based Augmentation to Address Shortcut Learning in Object Goal Navigation

要約

深層強化学習 (DRL) は、ロボットが家庭や学校などの環境で特定の物体を見つけられるようにする (例: 「冷蔵庫を見つける」) という大きな可能性を示しています。
このタスクは、オブジェクト – ゴール ナビゲーション (ObjectNav) として知られています。
DRL 手法は主に環境シミュレーターを使用してトレーニングおよび評価されます。
DRL は優れた結果を示していますが、シミュレータには偏りがあるか、制限されている可能性があります。
これにより、ショートカット学習、つまりトレーニング環境の特定の視覚的詳細に合わせたポリシーの学習のリスクが生じます。
私たちは、ObjectNav でのショートカット学習とその意味について理解を深め、解決策を提案することを目的としています。
トレーニング環境の外観にショートカットバイアスを挿入する実験を設計します。
概念実証として、部屋のタイプを特定の壁の色 (緑色の壁のある寝室など) に関連付け、これが適切でない環境では、最先端 (SOTA) ObjectNav メソッドの一般化が不十分であることを観察しました。
ケース (例: 青い壁の寝室)。
ショートカットの学習が根本原因であることがわかりました。エージェントは、ターゲット オブジェクトの部屋の関連する壁の色を検索するだけで、ターゲット オブジェクトに移動する方法を学習します。
これを解決するために、私たちは言語ベース (L-B) 拡張を提案します。
私たちの重要な洞察は、視覚言語モデル (VLM) のマルチモーダル機能空間を活用して、シミュレーターに変更を加える必要がなく、モデルに 1 つのレイヤーを追加するだけで、機能レベルで視覚表現を直接拡張できるということです。
SOTA ObjectNav メソッドの成功率は 69% 低下しますが、私たちの提案では 23% の低下しかありません。

要約(オリジナル)

Deep Reinforcement Learning (DRL) has shown great potential in enabling robots to find certain objects (e.g., `find a fridge’) in environments like homes or schools. This task is known as Object-Goal Navigation (ObjectNav). DRL methods are predominantly trained and evaluated using environment simulators. Although DRL has shown impressive results, the simulators may be biased or limited. This creates a risk of shortcut learning, i.e., learning a policy tailored to specific visual details of training environments. We aim to deepen our understanding of shortcut learning in ObjectNav, its implications and propose a solution. We design an experiment for inserting a shortcut bias in the appearance of training environments. As a proof-of-concept, we associate room types to specific wall colors (e.g., bedrooms with green walls), and observe poor generalization of a state-of-the-art (SOTA) ObjectNav method to environments where this is not the case (e.g., bedrooms with blue walls). We find that shortcut learning is the root cause: the agent learns to navigate to target objects, by simply searching for the associated wall color of the target object’s room. To solve this, we propose Language-Based (L-B) augmentation. Our key insight is that we can leverage the multimodal feature space of a Vision-Language Model (VLM) to augment visual representations directly at the feature-level, requiring no changes to the simulator, and only an addition of one layer to the model. Where the SOTA ObjectNav method’s success rate drops 69%, our proposal has only a drop of 23%.

arxiv情報

著者 Dennis Hoftijzer,Gertjan Burghouts,Luuk Spreeuwers
発行日 2024-02-07 18:44:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク