Learning Geometry-aware Representations by Sketching

要約

タイトル: スケッチによるジオメトリ感知型表現学習
要約:
– 距離や形状といった幾何学的な概念を理解することは、現実世界を理解するためや多くのビジョンタスクにおいて必要とされる。
– そこで、人間の行動に着想を得て、シーンをスケッチによって表現することを提案する。
– 提案手法であるLBS (Learning by Sketching) は、スケッチデータセットを必要とせず、画像を一度の推論ステップで幾何学的情報を明示的に取り込んだ一連のカラーのストロークのセットに変換するよう学習する。
– ストロークからスケッチが生成され、CLIPに基づく感覚的損失がスケッチと画像の意味的な類似性を維持する。
– スケッチは、任意のアフィン変換に対して相変換不変であるため、幾何学的情報を保持することが証明されている。
– 実験結果は、LBSが、未ラベルのCLEVRデータセットでのオブジェクト属性分類の性能、CLEVRとSTL-10データセット間のドメイン転移、および様々なダウンストリームタスクにおいて大幅に改善することを示し、LBSが豊富な幾何学的情報を提供することを確認している。

要約(オリジナル)

Understanding geometric concepts, such as distance and shape, is essential for understanding the real world and also for many vision tasks. To incorporate such information into a visual representation of a scene, we propose learning to represent the scene by sketching, inspired by human behavior. Our method, coined Learning by Sketching (LBS), learns to convert an image into a set of colored strokes that explicitly incorporate the geometric information of the scene in a single inference step without requiring a sketch dataset. A sketch is then generated from the strokes where CLIP-based perceptual loss maintains a semantic similarity between the sketch and the image. We show theoretically that sketching is equivariant with respect to arbitrary affine transformations and thus provably preserves geometric information. Experimental results show that LBS substantially improves the performance of object attribute classification on the unlabeled CLEVR dataset, domain transfer between CLEVR and STL-10 datasets, and for diverse downstream tasks, confirming that LBS provides rich geometric information.

arxiv情報

著者 Hyundo Lee,Inwoo Hwang,Hyunsung Go,Won-Seok Choi,Kibeom Kim,Byoung-Tak Zhang
発行日 2023-04-17 12:23:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク