When Does Perceptual Alignment Benefit Vision Representations?

要約

人間は、シーンのレイアウト、被写体の位置、カメラのポーズなどのさまざまな視覚的属性に従って、知覚的な類似性を判断します。
既存の視覚モデルは、広範囲の意味的抽象化を理解していますが、これらの属性を不適切に重み付けしているため、人間の認識とずれた推論を行っています。
視覚表現はこれまで、画像生成などのコンテキストでの位置合わせから恩恵を受けてきましたが、より汎用的な設定における知覚的に位置合わせされた表現の有用性は依然として不明瞭です。
ここでは、ビジョン モデルの表現を人間の知覚判断に合わせることが、さまざまなコンピューター ビジョン タスク全体でのユーザビリティにどのような影響を与えるかを調査します。
私たちは、画像 3 要素の人間の類似性判断に関する最先端のモデルを微調整し、標準的な視覚ベンチマーク全体で評価します。
モデルを知覚的判断に合わせると、カウント、セグメンテーション、深度推定、インスタンス検索、検索拡張生成など、多くの下流タスクにわたって元のバックボーンを改善した表現が得られることがわかりました。
さらに、医療画像や 3D 環境フレームなどの特殊な配布外ドメインを含む、他のタスクでもパフォーマンスが広く維持されていることがわかりました。
私たちの結果は、人間の知覚知識に関する帰納的バイアスを視覚モデルに注入することで、より良い表現に貢献できることを示唆しています。

要約(オリジナル)

Humans judge perceptual similarity according to diverse visual attributes, including scene layout, subject location, and camera pose. Existing vision models understand a wide range of semantic abstractions but improperly weigh these attributes and thus make inferences misaligned with human perception. While vision representations have previously benefited from alignment in contexts like image generation, the utility of perceptually aligned representations in more general-purpose settings remains unclear. Here, we investigate how aligning vision model representations to human perceptual judgments impacts their usability across diverse computer vision tasks. We finetune state-of-the-art models on human similarity judgments for image triplets and evaluate them across standard vision benchmarks. We find that aligning models to perceptual judgments yields representations that improve upon the original backbones across many downstream tasks, including counting, segmentation, depth estimation, instance retrieval, and retrieval-augmented generation. In addition, we find that performance is widely preserved on other tasks, including specialized out-of-distribution domains such as in medical imaging and 3D environment frames. Our results suggest that injecting an inductive bias about human perceptual knowledge into vision models can contribute to better representations.

arxiv情報

著者 Shobhita Sundaram,Stephanie Fu,Lukas Muttenthaler,Netanel Y. Tamir,Lucy Chai,Simon Kornblith,Trevor Darrell,Phillip Isola
発行日 2024-10-14 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク