要約
オブジェクト中心のアーキテクチャは、ビジュアル シーンから個別のオブジェクト表現を抽出する方法を学習し、オブジェクト レベルでの下流アプリケーションを可能にします。
オートエンコーダベースの画像モデルと同様に、オブジェクト中心のアプローチは、RGB 色空間でエンコードされた画像の教師なし再構成損失に基づいてトレーニングされています。
私たちの研究では、RGB 画像がコンピューター ビジョンにおける教師なし学習に最適な色空間であるという一般的な前提に異議を唱えています。
HSV などの他の色空間が、照明条件に対するロバスト性など、オブジェクト中心の表現学習に不可欠な特性を備えていることを概念的かつ経験的に説明します。
さらに、追加のカラー チャネルの予測をモデルに要求するとモデルが改善されることを示します。
具体的には、予測ターゲットを RGB-S 空間に変換することを提案します。これにより、HSV の彩度コンポーネントで RGB が拡張され、5 つの一般的な評価データセットの再構成ともつれの解消が著しく向上します。
複合色空間の使用は、基本的に計算オーバーヘッドなしで実装でき、モデルのアーキテクチャに依存せず、幅広いビジュアル コンピューティング タスクやトレーニング タイプに普遍的に適用できます。
私たちのアプローチの結果は、オブジェクト中心の学習を超えて、コンピューター ビジョン タスクにおけるさらなる調査を奨励します。
要約(オリジナル)
Object-centric architectures can learn to extract distinct object representations from visual scenes, enabling downstream applications on the object level. Similarly to autoencoder-based image models, object-centric approaches have been trained on the unsupervised reconstruction loss of images encoded by RGB color spaces. In our work, we challenge the common assumption that RGB images are the optimal color space for unsupervised learning in computer vision. We discuss conceptually and empirically that other color spaces, such as HSV, bear essential characteristics for object-centric representation learning, like robustness to lighting conditions. We further show that models improve when requiring them to predict additional color channels. Specifically, we propose to transform the predicted targets to the RGB-S space, which extends RGB with HSV’s saturation component and leads to markedly better reconstruction and disentanglement for five common evaluation datasets. The use of composite color spaces can be implemented with basically no computational overhead, is agnostic of the models’ architecture, and is universally applicable across a wide range of visual computing tasks and training types. The findings of our approach encourage additional investigations in computer vision tasks beyond object-centric learning.
arxiv情報
著者 | Bastian Jäckl,Yannick Metz,Udo Schlegel,Daniel A. Keim,Maximilian T. Fischer |
発行日 | 2024-12-19 18:28:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google