要約
マスク イメージ モデリング (MIM) には、ピクセル MIM と潜在 MIM という 2 つの主要な方法が存在し、それぞれ異なる再構成ターゲット、生のピクセルと潜在表現を利用します。
Pixel MIM は色やテクスチャなどの低レベルの視覚的な詳細をキャプチャする傾向があるのに対し、Latent MIM はオブジェクトの高レベルのセマンティクスに焦点を当てます。
ただし、各メソッドのこれらの異なる長所により、特定のレベルの視覚機能に依存するタスクでは最適なパフォーマンスが得られない可能性があります。
この制限に対処するために、私たちは PiLaMIM を提案します。これは、Pixel MIM と Latent MIM を組み合わせて、それらの補完的な長所を統合する統合フレームワークです。
私たちの方法では、単一のエンコーダーと 2 つの異なるデコーダーを使用します。1 つはピクセル値の予測用、もう 1 つは潜在表現用で、高レベルと低レベルの両方の視覚的特徴を確実に捕捉します。
さらに CLS トークンを再構築プロセスに統合してグローバル コンテキストを集約し、モデルがより多くのセマンティック情報を取得できるようにします。
広範な実験により、ほとんどの場合、PiLaMIM が MAE、I-JEPA、BootMAE などの主要なベースラインよりも優れたパフォーマンスを示し、より豊かな視覚表現を抽出する際の有効性が実証されました。
要約(オリジナル)
In Masked Image Modeling (MIM), two primary methods exist: Pixel MIM and Latent MIM, each utilizing different reconstruction targets, raw pixels and latent representations, respectively. Pixel MIM tends to capture low-level visual details such as color and texture, while Latent MIM focuses on high-level semantics of an object. However, these distinct strengths of each method can lead to suboptimal performance in tasks that rely on a particular level of visual features. To address this limitation, we propose PiLaMIM, a unified framework that combines Pixel MIM and Latent MIM to integrate their complementary strengths. Our method uses a single encoder along with two distinct decoders: one for predicting pixel values and another for latent representations, ensuring the capture of both high-level and low-level visual features. We further integrate the CLS token into the reconstruction process to aggregate global context, enabling the model to capture more semantic information. Extensive experiments demonstrate that PiLaMIM outperforms key baselines such as MAE, I-JEPA and BootMAE in most cases, proving its effectiveness in extracting richer visual representations.
arxiv情報
著者 | Junmyeong Lee,Eui Jun Hwang,Sukmin Cho,Jong C. Park |
発行日 | 2025-01-06 13:30:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google