要約
オブジェクトを認識するための最良のパラダイムは何ですか? 識別推論 (高速ですが、ショートカット学習が起こりやすい) と生成モデルの使用 (低速ですが、より堅牢になる可能性があります) はどれですか?
私たちは、テキストから画像へのモデルを分類子に変える生成モデリングの最近の進歩に基づいています。
これにより、彼らの行動を研究し、識別モデルや人間の精神物理学的データと比較することができます。
私たちは、生成分類器の 4 つの興味深い創発特性を報告します。それらは、記録破りの人間に似た形状バイアス (Imagen の場合 99%)、人間レベルに近い分布外の精度、人間の分類との最先端の整合性を示しています。
彼らは、ある種の錯覚を理解します。
私たちの結果は、人体認識をモデル化するための現在主流のパラダイムは識別推論である一方で、ゼロショット生成モデルは人体認識データを驚くほどよく近似していることを示しています。
要約(オリジナル)
What is the best paradigm to recognize objects — discriminative inference (fast but potentially prone to shortcut learning) or using a generative model (slow but potentially more robust)? We build on recent advances in generative modeling that turn text-to-image models into classifiers. This allows us to study their behavior and to compare them against discriminative models and human psychophysical data. We report four intriguing emergent properties of generative classifiers: they show a record-breaking human-like shape bias (99% for Imagen), near human-level out-of-distribution accuracy, state-of-the-art alignment with human classification errors, and they understand certain perceptual illusions. Our results indicate that while the current dominant paradigm for modeling human object recognition is discriminative inference, zero-shot generative models approximate human object recognition data surprisingly well.
arxiv情報
著者 | Priyank Jaini,Kevin Clark,Robert Geirhos |
発行日 | 2024-02-14 17:54:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google