要約
WebText、Wikipedia、Conceptual Captions、WebImageText、LAION などの大規模なデータ コーパスは、最近の AI の劇的な進歩を推進しています。
このようなデータセットでトレーニングされた大規模なニューラル モデルは、印象的な結果を生み出し、今日のベンチマークの多くを上回っています。
この大規模なデータセットのファミリ内で注目に値する省略は、3D データです。
3D ビジョンにおける大きな関心と潜在的なアプリケーションにもかかわらず、忠実度の高い 3D モデルのデータセットは中規模であり、オブジェクト カテゴリの多様性は限られています。
このギャップに対処するために、Objaverse 1.0 を提示します。これは、説明的なキャプション、タグ、およびアニメーションを備えた 80 万以上 (および増加中) の 3D モデルを含むオブジェクトの大規模なデータセットです。
Objaverse は、スケール、カテゴリ数、およびカテゴリ内のインスタンスの視覚的な多様性の点で、現在の 3D リポジトリよりも優れています。
生成型 3D モデルのトレーニング、LVIS ベンチマークでのテール カテゴリ セグメンテーションの改善、エンボディド AI 向けのオープン語彙オブジェクト ナビゲーション モデルのトレーニング、ビジョン モデルのロバスト性分析のための新しいベンチマークの作成という 4 つの多様なアプリケーションを通じて、Objaverse の大きな可能性を実証します。
Objaverse は、研究の新しい方向性を開き、AI の分野全体で新しいアプリケーションを可能にします。
要約(オリジナル)
Massive data corpora like WebText, Wikipedia, Conceptual Captions, WebImageText, and LAION have propelled recent dramatic progress in AI. Large neural models trained on such datasets produce impressive results and top many of today’s benchmarks. A notable omission within this family of large-scale datasets is 3D data. Despite considerable interest and potential applications in 3D vision, datasets of high-fidelity 3D models continue to be mid-sized with limited diversity of object categories. Addressing this gap, we present Objaverse 1.0, a large dataset of objects with 800K+ (and growing) 3D models with descriptive captions, tags, and animations. Objaverse improves upon present day 3D repositories in terms of scale, number of categories, and in the visual diversity of instances within a category. We demonstrate the large potential of Objaverse via four diverse applications: training generative 3D models, improving tail category segmentation on the LVIS benchmark, training open-vocabulary object-navigation models for Embodied AI, and creating a new benchmark for robustness analysis of vision models. Objaverse can open new directions for research and enable new applications across the field of AI.
arxiv情報
著者 | Matt Deitke,Dustin Schwenk,Jordi Salvador,Luca Weihs,Oscar Michel,Eli VanderBilt,Ludwig Schmidt,Kiana Ehsani,Aniruddha Kembhavi,Ali Farhadi |
発行日 | 2022-12-15 18:56:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google