Scaling Properties of Diffusion Models for Perceptual Tasks

要約

この論文では、拡散モデルを使用した反復計算が、生成タスクだけでなく視覚認識タスクにも強力なパラダイムを提供すると主張します。
奥行き推定、オプティカル フロー、セグメンテーションなどのタスクを画像間の変換の下で統合し、拡散モデルがこれらの認識タスクのスケーリング トレーニングとテスト時間の計算からどのように恩恵を受けるかを示します。
これらのスケーリング動作の慎重な分析を通じて、視覚認識タスクの拡散モデルを効率的にトレーニングするためのさまざまな手法を紹介します。
当社のモデルは、大幅に少ないデータとコンピューティングを使用して、最先端の方法と同等のパフォーマンスの向上を実現します。
コードとモデルを使用するには、 https://scaling-diffusion-perception.github.io を参照してください。

要約(オリジナル)

In this paper, we argue that iterative computation with diffusion models offers a powerful paradigm for not only generation but also visual perception tasks. We unify tasks such as depth estimation, optical flow, and segmentation under image-to-image translation, and show how diffusion models benefit from scaling training and test-time compute for these perception tasks. Through a careful analysis of these scaling behaviors, we present various techniques to efficiently train diffusion models for visual perception tasks. Our models achieve improved or comparable performance to state-of-the-art methods using significantly less data and compute. To use our code and models, see https://scaling-diffusion-perception.github.io .

arxiv情報

著者 Rahul Ravishankar,Zeeshan Patel,Jathushan Rajasegaran,Jitendra Malik
発行日 2024-11-12 18:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク