Sapiens: Foundation for Human Vision Models

要約

我々は、人間中心の 4 つの基本的な視覚タスク (2D 姿勢推定、身体部分のセグメンテーション、深度推定、表面法線予測) のためのモデル ファミリである Sapiens を紹介します。
当社のモデルは 1K 高解像度の推論をネイティブにサポートしており、3 億を超える野生の人間の画像で事前トレーニングされたモデルを微調整するだけで、個々のタスクに非常に簡単に適応できます。
同じ計算量が与えられた場合、人間の画像の厳選されたデータセットに対する自己教師あり事前トレーニングにより、人間中心のさまざまなタスクのパフォーマンスが大幅に向上することがわかりました。
結果として得られるモデルは、ラベル付きデータが不足している場合や完全に合成されている場合でも、実際のデータに対して顕著な一般化を示します。
シンプルなモデル設計はスケーラビリティももたらします。パラメーターの数を 30 億から 20 億にスケールするにつれて、タスク全体のモデルのパフォーマンスが向上します。
サピエンスは、人間中心のさまざまなベンチマークにわたって、既存のベースラインを常に上回っています。
当社は、Humans-5K (ポーズ) で 7.6 mAP、Humans-2K (パートセグメント) で 17.1 mIoU、Hi4D (深さ) で 22.4% の相対 RMSE、および THuman2 (
通常) 相対角度誤差が 53.5% 減少します。

要約(オリジナル)

We present Sapiens, a family of models for four fundamental human-centric vision tasks – 2D pose estimation, body-part segmentation, depth estimation, and surface normal prediction. Our models natively support 1K high-resolution inference and are extremely easy to adapt for individual tasks by simply fine-tuning models pretrained on over 300 million in-the-wild human images. We observe that, given the same computational budget, self-supervised pretraining on a curated dataset of human images significantly boosts the performance for a diverse set of human-centric tasks. The resulting models exhibit remarkable generalization to in-the-wild data, even when labeled data is scarce or entirely synthetic. Our simple model design also brings scalability – model performance across tasks improves as we scale the number of parameters from 0.3 to 2 billion. Sapiens consistently surpasses existing baselines across various human-centric benchmarks. We achieve significant improvements over the prior state-of-the-art on Humans-5K (pose) by 7.6 mAP, Humans-2K (part-seg) by 17.1 mIoU, Hi4D (depth) by 22.4% relative RMSE, and THuman2 (normal) by 53.5% relative angular error.

arxiv情報

著者 Rawal Khirodkar,Timur Bagautdinov,Julieta Martinez,Su Zhaoen,Austin James,Peter Selednik,Stuart Anderson,Shunsuke Saito
発行日 2024-08-22 17:37:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク