MOSAIC: Learning Unified Multi-Sensory Object Property Representations for Robot Perception

要約

多様な感覚モダリティ (視覚、聴覚、触覚など) にわたるオブジェクトのプロパティを総合的に理解することは、オブジェクトの分類から複雑な操作に至るまでのタスクに不可欠です。
人間の知覚における多感覚の統合の重要性を強調する認知科学の研究からインスピレーションを得て、統合された複数の感覚の学習を促進するように設計された新しいフレームワークである MOSAIC (自己注意と統合的理解によるマルチモーダル オブジェクト プロパティ学習) を紹介します。
感覚オブジェクトのプロパティ表現。
視覚情報が重要な役割を果たすことは否定できませんが、多くの基本的な物体の特性が視覚領域を超えて、テクスチャ、質量分布、音などの属性を包含し、それらが私たちが物体とどのように対話するかに大きな影響を与えることを私たちは認識しています。
MOSAIC では、事前にトレーニングされた広範な対照言語画像事前トレーニング (CLIP) モデルから知識を抽出することでこの深い洞察を活用し、これらの表現を視覚だけでなく触覚および聴覚の感覚モダリティ全体にも調整します。
ヒューマノイド ロボットが 10 の探索行動にわたって 100 のオブジェクトと対話するデータセットでの広範な実験を通じて、オブジェクトの分類タスクとオブジェクトのフェッチ タスクという 2 つのタスク ファミリにおける MOSAIC の多用途性を実証しました。
私たちの結果は、MOSAIC の統一表現の有効性を強調しており、シンプルな線形プローブ設定によるカテゴリ認識で競争力のあるパフォーマンスを示し、ゼロショット転送条件下でのオブジェクトのフェッチタスクで優れています。
この研究は、ロボット工学における CLIP ベースの感覚接地の応用の先駆者であり、自律システムの多感覚認識能力の大幅な飛躍を約束します。
コード、データセット、追加の結果をリリースしました: https://github.com/gtatiya/MOSAIC。

要約(オリジナル)

A holistic understanding of object properties across diverse sensory modalities (e.g., visual, audio, and haptic) is essential for tasks ranging from object categorization to complex manipulation. Drawing inspiration from cognitive science studies that emphasize the significance of multi-sensory integration in human perception, we introduce MOSAIC (Multi-modal Object property learning with Self-Attention and Integrated Comprehension), a novel framework designed to facilitate the learning of unified multi-sensory object property representations. While it is undeniable that visual information plays a prominent role, we acknowledge that many fundamental object properties extend beyond the visual domain to encompass attributes like texture, mass distribution, or sounds, which significantly influence how we interact with objects. In MOSAIC, we leverage this profound insight by distilling knowledge from the extensive pre-trained Contrastive Language-Image Pre-training (CLIP) model, aligning these representations not only across vision but also haptic and auditory sensory modalities. Through extensive experiments on a dataset where a humanoid robot interacts with 100 objects across 10 exploratory behaviors, we demonstrate the versatility of MOSAIC in two task families: object categorization and object-fetching tasks. Our results underscore the efficacy of MOSAIC’s unified representations, showing competitive performance in category recognition through a simple linear probe setup and excelling in the fetch object task under zero-shot transfer conditions. This work pioneers the application of CLIP-based sensory grounding in robotics, promising a significant leap in multi-sensory perception capabilities for autonomous systems. We have released the code, datasets, and additional results: https://github.com/gtatiya/MOSAIC.

arxiv情報

著者 Gyan Tatiya,Jonathan Francis,Ho-Hsiang Wu,Yonatan Bisk,Jivko Sinapov
発行日 2023-09-15 16:11:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク