Scaling Properties of Diffusion Models for Perceptual Tasks

要約

この論文では、拡散モデルを使用した反復計算が、生成タスクだけでなく視覚認識タスクにも強力なパラダイムを提供すると主張します。
深度推定、オプティカル フロー、アモーダル セグメンテーションなどのタスクを画像間変換のフレームワークの下で統合し、拡散モデルがこれらの知覚タスクのスケーリング トレーニングとテスト時間の計算からどのように恩恵を受けるかを示します。
これらのスケーリング特性を注意深く分析することにより、視覚認識タスクの拡散モデルをスケーリングするための、コンピューティング最適化トレーニングおよび推論レシピを定式化します。
当社のモデルは、大幅に少ないデータとコンピューティングを使用して、最先端の手法に匹敵するパフォーマンスを実現します。
コードとモデルにアクセスするには、 https://scaling-diffusion-perception.github.io を参照してください。

要約(オリジナル)

In this paper, we argue that iterative computation with diffusion models offers a powerful paradigm for not only generation but also visual perception tasks. We unify tasks such as depth estimation, optical flow, and amodal segmentation under the framework of image-to-image translation, and show how diffusion models benefit from scaling training and test-time compute for these perceptual tasks. Through a careful analysis of these scaling properties, we formulate compute-optimal training and inference recipes to scale diffusion models for visual perception tasks. Our models achieve competitive performance to state-of-the-art methods using significantly less data and compute. To access our code and models, see https://scaling-diffusion-perception.github.io .

arxiv情報

著者 Rahul Ravishankar,Zeeshan Patel,Jathushan Rajasegaran,Jitendra Malik
発行日 2024-11-13 18:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク