要約
線形超空間を通したユークリッド空間での画像解析はよく研究されています。
しかし、より効果的な画像表現を追求する中で、双曲多様体に目を向けます。
これらは、非常に小さい次元で画像内の複雑な階層関係をキャプチャするための魅力的な代替手段を提供します。
双曲線埋め込みの能力を実証するために、非常に小さな埋め込みサイズでパッチレベルの特徴を包含する、画像セグメンテーション用の軽量双曲線グラフ ニューラル ネットワークを導入します。
当社のソリューション Seg-HGNN は、現在の最良の教師なし手法を、ローカリゼーションの VOC-07、VOC-12 で 2.5\%、4\%、CUB-200、セグメンテーションの ECSSD で 0.8\%、1.3\% 上回っています。
それぞれ。
Seg-HGNN は、トレーニング可能なパラメーターが 7.5k 未満で、GTX1650 などの非常に標準的な GPU で効果的かつ高速 ($\約 2$ 画像/秒) の結果を提供します。
この経験的評価は、視覚タスクに対する双曲表現の有効性と可能性を示す説得力のある証拠を示しています。
要約(オリジナル)
Image analysis in the euclidean space through linear hyperspaces is well studied. However, in the quest for more effective image representations, we turn to hyperbolic manifolds. They provide a compelling alternative to capture complex hierarchical relationships in images with remarkably small dimensionality. To demonstrate hyperbolic embeddings’ competence, we introduce a light-weight hyperbolic graph neural network for image segmentation, encompassing patch-level features in a very small embedding size. Our solution, Seg-HGNN, surpasses the current best unsupervised method by 2.5\%, 4\% on VOC-07, VOC-12 for localization, and by 0.8\%, 1.3\% on CUB-200, ECSSD for segmentation, respectively. With less than 7.5k trainable parameters, Seg-HGNN delivers effective and fast ($\approx 2$ images/second) results on very standard GPUs like the GTX1650. This empirical evaluation presents compelling evidence of the efficacy and potential of hyperbolic representations for vision tasks.
arxiv情報
著者 | Debjyoti Mondal,Rahul Mishra,Chandan Pandey |
発行日 | 2024-09-10 15:30:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google