Incorporating simulated spatial context information improves the effectiveness of contrastive learning models

要約

視覚的な学習は多くの場合、特定のコンテキストで行われ、エージェントは一貫した環境でその位置を探索および追跡することでスキルを習得します。
エージェントの歴史的な空間コンテキストは、自己教師あり対比学習のための類似性シグナルを提供します。
我々は、既存の対照学習法を補完する、環境空間類似性 (ESS) と呼ばれる独自のアプローチを提案します。
実験設定としてシミュレートされたフォトリアリスティックな環境からの画像を使用して、ESS が従来のインスタンス識別アプローチよりも優れていることを実証します。
さらに、同じ環境から追加データをサンプリングすると、精度が大幅に向上し、新たな拡張が可能になります。
ESS を使用すると、特に不慣れな環境において、部屋の分類と空間予測タスクにおいて顕著な習熟が可能になります。
この学習パラダイムは、独自の視覚特性を持つ新しい環境で活動するエージェントの迅速な視覚学習を可能にする可能性があります。
変革をもたらす可能性のあるアプリケーションは、ロボット工学から宇宙探査まで多岐にわたります。
私たちの概念実証では、広範で分断されたデータセットに依存する方法と比べて効率が向上していることを実証しています。

要約(オリジナル)

Visual learning often occurs in a specific context, where an agent acquires skills through exploration and tracking of its location in a consistent environment. The historical spatial context of the agent provides a similarity signal for self-supervised contrastive learning. We present a unique approach, termed Environmental Spatial Similarity (ESS), that complements existing contrastive learning methods. Using images from simulated, photorealistic environments as an experimental setting, we demonstrate that ESS outperforms traditional instance discrimination approaches. Moreover, sampling additional data from the same environment substantially improves accuracy and provides new augmentations. ESS allows remarkable proficiency in room classification and spatial prediction tasks, especially in unfamiliar environments. This learning paradigm has the potential to enable rapid visual learning in agents operating in new environments with unique visual characteristics. Potentially transformative applications span from robotics to space exploration. Our proof of concept demonstrates improved efficiency over methods that rely on extensive, disconnected datasets.

arxiv情報

著者 Lizhen Zhu,James Z. Wang,Wonseuk Lee,Brad Wyble
発行日 2024-03-27 15:49:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク