The ObjectFolder Benchmark: Multisensory Learning with Neural and Real Objects

要約

ObjectFolder Benchmark は、視覚、聴覚、触覚によるオブジェクトの認識、再構成、操作を中心とした、多感覚オブジェクト中心学習のための 10 タスクからなるベンチマーク スイートです。
また、実世界の家庭用物品 100 個の多感覚測定を含む ObjectFolder Real データセットも紹介します。これは、実世界の物体の 3D メッシュ、ビデオ、衝撃音、触覚読み取り値を収集するために新しく設計されたパイプラインに基づいて構築されています。
私たちは、ObjectFolder からの 1,000 個の多感覚ニューラル オブジェクトと、ObjectFolder Real からの実際の多感覚データの両方に対して体系的なベンチマークを実行します。
私たちの結果は、多感覚知覚の重要性を実証し、さまざまなオブジェクト中心の学習タスクにおける視覚、聴覚、触覚のそれぞれの役割を明らかにしています。
データセットとベンチマーク スイートを一般公開することで、コンピューター ビジョン、ロボット工学などにおける多感覚オブジェクト中心学習の新しい研究を促進し、可能にしたいと考えています。
プロジェクトページ: https://objectfolder.stanford.edu

要約(オリジナル)

We introduce the ObjectFolder Benchmark, a benchmark suite of 10 tasks for multisensory object-centric learning, centered around object recognition, reconstruction, and manipulation with sight, sound, and touch. We also introduce the ObjectFolder Real dataset, including the multisensory measurements for 100 real-world household objects, building upon a newly designed pipeline for collecting the 3D meshes, videos, impact sounds, and tactile readings of real-world objects. We conduct systematic benchmarking on both the 1,000 multisensory neural objects from ObjectFolder, and the real multisensory data from ObjectFolder Real. Our results demonstrate the importance of multisensory perception and reveal the respective roles of vision, audio, and touch for different object-centric learning tasks. By publicly releasing our dataset and benchmark suite, we hope to catalyze and enable new research in multisensory object-centric learning in computer vision, robotics, and beyond. Project page: https://objectfolder.stanford.edu

arxiv情報

著者 Ruohan Gao,Yiming Dou,Hao Li,Tanmay Agarwal,Jeannette Bohg,Yunzhu Li,Li Fei-Fei,Jiajun Wu
発行日 2023-06-01 17:51:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.HC, cs.RO パーマリンク