要約
多様な感覚モダリティ (視覚、聴覚、触覚など) にわたるオブジェクトのプロパティを総合的に理解することは、オブジェクトの分類から複雑な操作に至るまでのタスクに不可欠です。
人間の知覚における多感覚統合の重要性を強調する認知科学の研究からインスピレーションを得て、統合された多感覚オブジェクトの学習を促進するように設計された新しいフレームワークである MOSAIC (Multimodal Object property learning with Self-tention and Interactive Comprehension) を紹介します。
プロパティの表現。
視覚情報が重要な役割を果たすことは否定できませんが、多くの基本的な物体の特性が視覚領域を超えて、テクスチャ、質量分布、音などの属性を包含し、それらが私たちが物体とどのように対話するかに大きな影響を与えることを私たちは認識しています。
MOSAIC では、マルチモーダル基礎モデルから知識を抽出し、視覚だけでなく触覚や聴覚の感覚モダリティ全体にわたってこれらの表現を調整することで、この深い洞察を活用します。
ヒューマノイド ロボットが 10 の探索行動にわたって 100 のオブジェクトと対話するデータセットでの広範な実験を通じて、オブジェクトの分類タスクとオブジェクトのフェッチ タスクという 2 つのタスク ファミリにおける MOSAIC の多用途性を実証しました。
私たちの結果は、MOSAIC の統一表現の有効性を強調しており、シンプルな線形プローブ設定によるカテゴリ認識で競争力のあるパフォーマンスを示し、ゼロショット転送条件下でのオブジェクトのフェッチタスクで優れています。
この研究は、ロボット工学の基礎モデルにおける感覚接地の応用の先駆者であり、自律システムの多感覚認識能力の大幅な飛躍を約束します。
コード、データセット、追加の結果をリリースしました: https://github.com/gtatiya/MOSAIC。
要約(オリジナル)
A holistic understanding of object properties across diverse sensory modalities (e.g., visual, audio, and haptic) is essential for tasks ranging from object categorization to complex manipulation. Drawing inspiration from cognitive science studies that emphasize the significance of multi-sensory integration in human perception, we introduce MOSAIC (Multimodal Object property learning with Self-Attention and Interactive Comprehension), a novel framework designed to facilitate the learning of unified multi-sensory object property representations. While it is undeniable that visual information plays a prominent role, we acknowledge that many fundamental object properties extend beyond the visual domain to encompass attributes like texture, mass distribution, or sounds, which significantly influence how we interact with objects. In MOSAIC, we leverage this profound insight by distilling knowledge from multimodal foundation models and aligning these representations not only across vision but also haptic and auditory sensory modalities. Through extensive experiments on a dataset where a humanoid robot interacts with 100 objects across 10 exploratory behaviors, we demonstrate the versatility of MOSAIC in two task families: object categorization and object-fetching tasks. Our results underscore the efficacy of MOSAIC’s unified representations, showing competitive performance in category recognition through a simple linear probe setup and excelling in the fetch object task under zero-shot transfer conditions. This work pioneers the application of sensory grounding in foundation models for robotics, promising a significant leap in multi-sensory perception capabilities for autonomous systems. We have released the code, datasets, and additional results: https://github.com/gtatiya/MOSAIC.
arxiv情報
著者 | Gyan Tatiya,Jonathan Francis,Ho-Hsiang Wu,Yonatan Bisk,Jivko Sinapov |
発行日 | 2024-02-22 20:33:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google