要約
複数の感覚モダリティを通して物体を理解することは、人間の知覚の基本であり、感覚を横断的に統合し、より豊かな理解を可能にする。AIやロボットシステムがこの能力を再現するためには、多様で高品質な多感覚データへのアクセスが不可欠です。既存のデータセットは、制御された環境、シミュレートされた物体、または限定されたモダリティの組み合わせに焦点を当てているため、しばしば制限されています。X-Captureは、実世界の多感覚データ収集のための、オープンソースで、ポータブルで、費用対効果の高いデバイスであり、相関するRGBD画像、触覚測定値、衝撃音声をキャプチャすることができる。X-Captureは1,000ドル以下のコストで、マルチセンサリー・データセットの作成を民主化します。X-Captureを使用して、多様な実世界の環境から500の日常的なオブジェクトの合計3,000点のサンプルデータセットを作成し、豊かさと多様性の両方を提供する。我々の実験は、感覚横断的な検索や再構築のようなオブジェクト中心のタスクのためのマルチモーダル表現の事前訓練と微調整の両方に、データの量と感覚の幅の両方の価値を実証している。X-Captureは、スケーラビリティ、アクセシビリティ、実世界での適用可能性を重視し、AIにおける人間のような感覚表現を進歩させるための基礎を築く。
要約(オリジナル)
Understanding objects through multiple sensory modalities is fundamental to human perception, enabling cross-sensory integration and richer comprehension. For AI and robotic systems to replicate this ability, access to diverse, high-quality multi-sensory data is critical. Existing datasets are often limited by their focus on controlled environments, simulated objects, or restricted modality pairings. We introduce X-Capture, an open-source, portable, and cost-effective device for real-world multi-sensory data collection, capable of capturing correlated RGBD images, tactile readings, and impact audio. With a build cost under $1,000, X-Capture democratizes the creation of multi-sensory datasets, requiring only consumer-grade tools for assembly. Using X-Capture, we curate a sample dataset of 3,000 total points on 500 everyday objects from diverse, real-world environments, offering both richness and variety. Our experiments demonstrate the value of both the quantity and the sensory breadth of our data for both pretraining and fine-tuning multi-modal representations for object-centric tasks such as cross-sensory retrieval and reconstruction. X-Capture lays the groundwork for advancing human-like sensory representations in AI, emphasizing scalability, accessibility, and real-world applicability.
arxiv情報
| 著者 | Samuel Clarke,Suzannah Wistreich,Yanjie Ze,Jiajun Wu |
| 発行日 | 2025-04-03 06:44:25+00:00 |
| arxivサイト | arxiv_id(pdf) |