Improving generalization by mimicking the human visual diet

要約

私たちは、人間の視覚的食生活を模倣して、生物学的視覚とコンピューター視覚の間の一般化ギャップを埋めるための新しい視点を提示します。
コンピューター ビジョン モデルはインターネットから取得したデータセットに依存していますが、人間は、自然なコンテキスト内のオブジェクトを使用した現実世界の多様な変換の下で、限られた 3D シーンから学習します。
私たちの結果は、人間の視覚トレーニング データ (ビジュアル ダイエット) に遍在するバリエーションや文脈上の手がかりを組み込むことで、照明、視点、マテリアルの変更などの実世界の変換に対する一般化が大幅に向上することを示しています。
この改善は、合成データから現実世界のデータまでの一般化にも及びます。人間のようなビジュアルダイエットでトレーニングされたすべてのモデルは、自然画像データでテストした場合、特殊なアーキテクチャを大幅に上回ります。
これらの実験は、私たちの 2 つの重要な貢献によって可能になりました。それは、シーンのコンテキストと人間の視覚的食事を模倣するための現実世界の多様な変換をキャプチャする新しいデータセットと、人間の視覚的食事のこれらの側面を活用するように調整されたトランスフォーマー モデルです。
すべてのデータとソース コードは https://github.com/Spandan-Madan/human_visual_diet からアクセスできます。

要約(オリジナル)

We present a new perspective on bridging the generalization gap between biological and computer vision — mimicking the human visual diet. While computer vision models rely on internet-scraped datasets, humans learn from limited 3D scenes under diverse real-world transformations with objects in natural context. Our results demonstrate that incorporating variations and contextual cues ubiquitous in the human visual training data (visual diet) significantly improves generalization to real-world transformations such as lighting, viewpoint, and material changes. This improvement also extends to generalizing from synthetic to real-world data — all models trained with a human-like visual diet outperform specialized architectures by large margins when tested on natural image data. These experiments are enabled by our two key contributions: a novel dataset capturing scene context and diverse real-world transformations to mimic the human visual diet, and a transformer model tailored to leverage these aspects of the human visual diet. All data and source code can be accessed at https://github.com/Spandan-Madan/human_visual_diet.

arxiv情報

著者 Spandan Madan,You Li,Mengmi Zhang,Hanspeter Pfister,Gabriel Kreiman
発行日 2024-01-10 15:48:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク