要約
コンピュータービジョンのタスクでは、機能は多様な表現、ドメイン(屋内や屋外など)、およびモダリティ(テキスト、画像、ビデオなど)からしばしば提供されます。
特にビジョン言語モデルのような強力な事前訓練モデルが利用できるように、これらの機能を効果的に融合させることは、堅牢なパフォーマンスに不可欠です。
ただし、連結、要素ごとの操作、非線形技術などの一般的な融合方法は、構造的関係、深い特徴の相互作用をキャプチャできず、ドメインやモダリティ全体の機能の非効率性または不整合に苦しむことがよくあります。
このホワイトペーパーでは、高次元の特徴空間から、さまざまなレベル、たとえばクリップ、フレーム、パッチ、トークンなどで特徴関係をエンコードする関係グラフを構築することにより、より深いレベルでの関係グラフを構築することにより、より深い相互作用をキャプチャすることにより、より深いレベルでの関係グラフを構築することにより、より深い相互作用をキャプチャすることにより、より深い相互作用をキャプチャすることにより、より深い相互作用をキャプチャすることにより、より深い相互作用をキャプチャすることにより、より深い相互作用をキャプチャすることにより、より深い相互作用を挙げます。
グラフの電力拡張を使用し、学習可能なグラフ融合演算子を導入して、これらのグラフパワーを組み合わせて、より効果的な融合します。
私たちのアプローチは関係中心であり、均一な空間で動作し、数学的に原則的であり、多重線形多項式を介した要素ごとの関係スコア集計に似ています。
ビデオの異常検出に対するグラフベースの融合法の有効性を実証し、マルチレプセント、マルチモーダル、およびマルチドメイン機能の融合タスク全体で強力なパフォーマンスを示しています。
要約(オリジナル)
In computer vision tasks, features often come from diverse representations, domains (e.g., indoor and outdoor), and modalities (e.g., text, images, and videos). Effectively fusing these features is essential for robust performance, especially with the availability of powerful pre-trained models like vision-language models. However, common fusion methods, such as concatenation, element-wise operations, and non-linear techniques, often fail to capture structural relationships, deep feature interactions, and suffer from inefficiency or misalignment of features across domains or modalities. In this paper, we shift from high-dimensional feature space to a lower-dimensional, interpretable graph space by constructing relationship graphs that encode feature relationships at different levels, e.g., clip, frame, patch, token, etc. To capture deeper interactions, we use graph power expansions and introduce a learnable graph fusion operator to combine these graph powers for more effective fusion. Our approach is relationship-centric, operates in a homogeneous space, and is mathematically principled, resembling element-wise relationship score aggregation via multilinear polynomials. We demonstrate the effectiveness of our graph-based fusion method on video anomaly detection, showing strong performance across multi-representational, multi-modal, and multi-domain feature fusion tasks.
arxiv情報
著者 | Dexuan Ding,Lei Wang,Liyun Zhu,Tom Gedeon,Piotr Koniusz |
発行日 | 2025-02-05 14:39:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google