EFM3D: A Benchmark for Measuring Progress Towards 3D Egocentric Foundation Models

要約

ウェアラブル コンピューターの出現により、自己中心的なセンサー データに埋め込まれた AI の新しいコンテキスト ソースが可能になります。
この新しい自己中心的なデータには、きめ細かい 3D 位置情報が装備されているため、3D 空間に根ざした新しいクラスの空間基礎モデルの機会が提供されます。
私たちが自己中心的基盤モデル (EFM) と呼ぶものの進歩を測定するために、2 つのコア 3D 自己中心的認識タスクを備えたベンチマークである EFM3D を確立します。
EFM3D は、Project Aria の高品質の注釈付き自己中心データに対する 3D オブジェクト検出と表面回帰のための最初のベンチマークです。
私たちは、3D EFM のベースラインである Egocentric Voxel Lifting (EVL) を提案します。
EVL は、利用可能な自己中心的なモダリティをすべて活用し、2D 基盤モデルから基本機能を継承します。
このモデルは、大規模なシミュレートされたデータセットでトレーニングされ、EFM3D ベンチマークで既存の手法を上回ります。

要約(オリジナル)

The advent of wearable computers enables a new source of context for AI that is embedded in egocentric sensor data. This new egocentric data comes equipped with fine-grained 3D location information and thus presents the opportunity for a novel class of spatial foundation models that are rooted in 3D space. To measure progress on what we term Egocentric Foundation Models (EFMs) we establish EFM3D, a benchmark with two core 3D egocentric perception tasks. EFM3D is the first benchmark for 3D object detection and surface regression on high quality annotated egocentric data of Project Aria. We propose Egocentric Voxel Lifting (EVL), a baseline for 3D EFMs. EVL leverages all available egocentric modalities and inherits foundational capabilities from 2D foundation models. This model, trained on a large simulated dataset, outperforms existing methods on the EFM3D benchmark.

arxiv情報

著者 Julian Straub,Daniel DeTone,Tianwei Shen,Nan Yang,Chris Sweeney,Richard Newcombe
発行日 2024-06-14 17:57:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク