要約
形状の組み立ては日常生活のいたるところで行われる作業であり、IKEA 家具のような複雑な 3D 構造を構築するために不可欠です。
形状アセンブリ用の自律エージェントの開発では大きな進歩が見られましたが、既存のデータセットは、3D 空間でのアセンブリを時間の経過とともに全体的に理解するために不可欠な、ビデオ内のアセンブリ指示の 4D 基礎にまだ取り組んでいません。
IKEA ビデオ マニュアルを紹介します。これは、家具部品の 3D モデル、取扱説明書、インターネットからの組み立てビデオ、そして最も重要なことに、これらのデータ モダリティ間の緻密な時空間的配置の注釈を備えたデータセットです。
IKEA ビデオ マニュアルの有用性を実証するために、形状の組み立てに不可欠な 5 つのアプリケーションを紹介します。組み立て計画の生成、パーツ条件付きセグメンテーション、パーツ条件付きポーズ推定、ビデオ オブジェクト セグメンテーション、および説明ビデオ マニュアルに基づく家具の組み立てです。
アプリケーションごとに、評価指標とベースライン手法を提供します。
アノテーション付きデータの実験を通じて、オクルージョンの処理、視点の変更、アセンブリ シーケンスの拡張など、形状アセンブリを改善するためにビデオでのアセンブリ指示を基礎にする際の多くの課題を浮き彫りにしました。
要約(オリジナル)
Shape assembly is a ubiquitous task in daily life, integral for constructing complex 3D structures like IKEA furniture. While significant progress has been made in developing autonomous agents for shape assembly, existing datasets have not yet tackled the 4D grounding of assembly instructions in videos, essential for a holistic understanding of assembly in 3D space over time. We introduce IKEA Video Manuals, a dataset that features 3D models of furniture parts, instructional manuals, assembly videos from the Internet, and most importantly, annotations of dense spatio-temporal alignments between these data modalities. To demonstrate the utility of IKEA Video Manuals, we present five applications essential for shape assembly: assembly plan generation, part-conditioned segmentation, part-conditioned pose estimation, video object segmentation, and furniture assembly based on instructional video manuals. For each application, we provide evaluation metrics and baseline methods. Through experiments on our annotated data, we highlight many challenges in grounding assembly instructions in videos to improve shape assembly, including handling occlusions, varying viewpoints, and extended assembly sequences.
arxiv情報
著者 | Yunong Liu,Cristobal Eyzaguirre,Manling Li,Shubh Khanna,Juan Carlos Niebles,Vineeth Ravi,Saumitra Mishra,Weiyu Liu,Jiajun Wu |
発行日 | 2024-11-18 09:30:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google