Fully Hyperbolic Convolutional Neural Networks for Computer Vision

要約

現実世界の視覚データは、双曲空間で効果的に表現できる固有の階層構造を示します。
双曲ニューラル ネットワーク (HNN) は、このような空間での特徴表現を学習するための有望なアプローチです。
ただし、コンピューター ビジョンにおける現在の HNN はユークリッド バックボーンに依存しており、特徴をタスク ヘッドの双曲空間に投影するだけであるため、双曲幾何学の利点を最大限に活用する能力が制限されています。
これに対処するために、コンピューター ビジョン タスク用に設計された完全双曲畳み込みニューラル ネットワーク (CNN) である HCNN を紹介します。
ローレンツ モデルに基づいて、CNN の基本コンポーネントを一般化し、畳み込み層、バッチ正規化、および多項ロジスティック回帰の新しい定式化を提案します。
{標準的な視覚タスクの実験は、ハイブリッド設定と完全な双曲線設定の両方で、HCNN フレームワークの有望なパフォーマンスを示しています。} 全体として、私たちは、私たちの貢献が、画像データに見られる複雑な構造をより適切に表現できる、より強力な HNN を開発するための基盤を提供すると信じています。
私たちのコードは https://github.com/kschwethelm/HyperbolicCV で公開されています。

要約(オリジナル)

Real-world visual data exhibit intrinsic hierarchical structures that can be represented effectively in hyperbolic spaces. Hyperbolic neural networks (HNNs) are a promising approach for learning feature representations in such spaces. However, current HNNs in computer vision rely on Euclidean backbones and only project features to the hyperbolic space in the task heads, limiting their ability to fully leverage the benefits of hyperbolic geometry. To address this, we present HCNN, a fully hyperbolic convolutional neural network (CNN) designed for computer vision tasks. Based on the Lorentz model, we generalize fundamental components of CNNs and propose novel formulations of the convolutional layer, batch normalization, and multinomial logistic regression. {Experiments on standard vision tasks demonstrate the promising performance of our HCNN framework in both hybrid and fully hyperbolic settings.} Overall, we believe our contributions provide a foundation for developing more powerful HNNs that can better represent complex structures found in image data. Our code is publicly available at https://github.com/kschwethelm/HyperbolicCV.

arxiv情報

著者 Ahmad Bdeir,Kristian Schwethelm,Niels Landwehr
発行日 2024-02-07 13:46:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク