要約
コンピュータービジョンの最近の進歩により、さまざまなタスクにわたる視覚変圧器(VIT)のスケーラビリティが強調されていますが、課題は適応性、計算効率、および高次の関係をモデル化する能力のバランスをとっています。
Vision Graph Neural Networks(VIGS)は、グラフベースの方法論を活用することにより代替案を提供しますが、エッジ生成に使用されるクラスタリングアルゴリズムの計算ボトルネックによって妨げられます。
これらの問題に対処するために、階層的な二部ハイパーグラフ構造をビジョントランスフレームワークに組み込んで、計算効率を維持しながら高次のセマンティック関係をキャプチャするハイパーグラフビジョントランス(HGVT)を提案します。
HGVTは、クラスタリングなしで動的なハイパーグラフ構造のための母集団と多様性の正則化を活用し、セマンティック抽出を強化し、グラフベースの画像検索を促進するためのエキスパートエッジプーリングを活用します。
経験的な結果は、HGVTが画像分類と取得で強力なパフォーマンスを達成し、セマンティックベースのビジョンタスクの効率的なフレームワークとして位置付けていることを示しています。
要約(オリジナル)
Recent advancements in computer vision have highlighted the scalability of Vision Transformers (ViTs) across various tasks, yet challenges remain in balancing adaptability, computational efficiency, and the ability to model higher-order relationships. Vision Graph Neural Networks (ViGs) offer an alternative by leveraging graph-based methodologies but are hindered by the computational bottlenecks of clustering algorithms used for edge generation. To address these issues, we propose the Hypergraph Vision Transformer (HgVT), which incorporates a hierarchical bipartite hypergraph structure into the vision transformer framework to capture higher-order semantic relationships while maintaining computational efficiency. HgVT leverages population and diversity regularization for dynamic hypergraph construction without clustering, and expert edge pooling to enhance semantic extraction and facilitate graph-based image retrieval. Empirical results demonstrate that HgVT achieves strong performance on image classification and retrieval, positioning it as an efficient framework for semantic-based vision tasks.
arxiv情報
著者 | Joshua Fixelle |
発行日 | 2025-04-11 17:20:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google