要約
方向はオブジェクトの重要な属性であり、画像内のオブジェクトの空間的な姿勢や配置を理解するために重要です。
ただし、単一の画像から方向を正確に推定するための実用的な解決策はまだ研究されていません。
この研究では、シングルビュー画像およびフリービュー画像内のオブジェクトの方向を推定するために設計された初のエキスパートかつ基礎的なモデルである Orient Anything を紹介します。
ラベル付きデータが不足しているため、3D 世界から知識を抽出することを提案します。
3D オブジェクトの前面に注釈を付け、ランダムなビューから画像をレンダリングするパイプラインを開発することで、正確な方向の注釈が付いた 200 万枚の画像を収集します。
データセットを最大限に活用するために、3D 方向を 3 つの角度の確率分布としてモデル化し、これらの分布をフィッティングすることでオブジェクトの方向を予測する堅牢なトレーニング目標を設計します。
さらに、合成から実際への転送を改善するためにいくつかの戦略を採用しています。
私たちのモデルは、レンダリング画像と実際の画像の両方で最先端の方向推定精度を実現し、さまざまなシナリオで優れたゼロショット能力を示します。
さらに重要なことに、私たちのモデルは、複雑な空間概念の理解と生成、3D オブジェクトの姿勢調整など、多くのアプリケーションを強化します。
要約(オリジナル)
Orientation is a key attribute of objects, crucial for understanding their spatial pose and arrangement in images. However, practical solutions for accurate orientation estimation from a single image remain underexplored. In this work, we introduce Orient Anything, the first expert and foundational model designed to estimate object orientation in a single- and free-view image. Due to the scarcity of labeled data, we propose extracting knowledge from the 3D world. By developing a pipeline to annotate the front face of 3D objects and render images from random views, we collect 2M images with precise orientation annotations. To fully leverage the dataset, we design a robust training objective that models the 3D orientation as probability distributions of three angles and predicts the object orientation by fitting these distributions. Besides, we employ several strategies to improve synthetic-to-real transfer. Our model achieves state-of-the-art orientation estimation accuracy in both rendered and real images and exhibits impressive zero-shot ability in various scenarios. More importantly, our model enhances many applications, such as comprehension and generation of complex spatial concepts and 3D object pose adjustment.
arxiv情報
著者 | Zehan Wang,Ziang Zhang,Tianyu Pang,Chao Du,Hengshuang Zhao,Zhou Zhao |
発行日 | 2024-12-24 18:58:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google