要約
人間は、スケッチが現実的とは程遠い場合でも、スケッチと現実世界のオブジェクトとの関係を難なく把握します。
さらに、人間のスケッチの理解は分類を超えています。重要なことに、スケッチ内の個々の要素がそれが表す物理世界の部分にどのように対応するかを理解することも必要となります。
この能力をサポートするために必要な計算要素は何ですか?
この質問に答えるために、私たちは 2 つの貢献を行います。まず、新しいスケッチと写真の対応ベンチマーク $\textit{PSC6k}$ を導入します。これには、125 のオブジェクト カテゴリにわたる 6,250 のスケッチと写真のペアの 150,000 個の注釈が含まれており、既存の Sketchy データセットをきめ細かい対応メタデータで強化します。
次に、写真のペアの通信学習における最近の進歩に基づいて、スケッチと写真のペア間の密な対応関係を学習する自己教師ありの方法を提案します。
私たちのモデルは、空間変換ネットワークを使用して、対照学習ベースの ConvNet バックボーンによって抽出されたスケッチと写真の潜在表現間のワープ フローを推定します。
このアプローチはいくつかの強力なベースラインを上回り、他のワープベースの手法と定量的に一致する予測を生成することがわかりました。
ただし、私たちのベンチマークでは、テストした一連のモデルの予測と人間の予測の間に系統的な違いがあることも明らかになりました。
総合すると、私たちの研究は、さまざまな抽象化レベルで視覚イメージをより人間らしく理解できる人工システムの開発に向けた有望な道筋を示唆しています。
プロジェクトページ:https://photo-sketch-correspondence.github.io
要約(オリジナル)
Humans effortlessly grasp the connection between sketches and real-world objects, even when these sketches are far from realistic. Moreover, human sketch understanding goes beyond categorization — critically, it also entails understanding how individual elements within a sketch correspond to parts of the physical world it represents. What are the computational ingredients needed to support this ability? Towards answering this question, we make two contributions: first, we introduce a new sketch-photo correspondence benchmark, $\textit{PSC6k}$, containing 150K annotations of 6250 sketch-photo pairs across 125 object categories, augmenting the existing Sketchy dataset with fine-grained correspondence metadata. Second, we propose a self-supervised method for learning dense correspondences between sketch-photo pairs, building upon recent advances in correspondence learning for pairs of photos. Our model uses a spatial transformer network to estimate the warp flow between latent representations of a sketch and photo extracted by a contrastive learning-based ConvNet backbone. We found that this approach outperformed several strong baselines and produced predictions that were quantitatively consistent with other warp-based methods. However, our benchmark also revealed systematic differences between predictions of the suite of models we tested and those of humans. Taken together, our work suggests a promising path towards developing artificial systems that achieve more human-like understanding of visual images at different levels of abstraction. Project page: https://photo-sketch-correspondence.github.io
arxiv情報
著者 | Xuanchen Lu,Xiaolong Wang,Judith E Fan |
発行日 | 2023-07-24 17:45:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google