Efficient Model-Agnostic Multi-Group Equivariant Networks

要約

equitune (Basu et al., 2023b) やその一般化 (Kim et al., 2023) などのモデルに依存しないグループ等変ネットワークの構築は、大規模な製品グループの場合、計算コストが高くなる可能性があります。
私たちは、2 つの関連する問題に対して効率的なモデルに依存しない等変設計を提供することで、この問題に対処します。1 つは、ネットワークに複数の入力があり、それぞれに異なるグループが作用する可能性がある場合と、もう 1 つは入力は 1 つですが、それに作用するグループが大きい場合です。
製品グループ。
最初の設計では、最初に線形モデルを検討し、この制約を満たす等変空間全体を特徴付けます。
この特徴付けにより、不変対称 (IS) 制約を満たす、異なるチャネル間の新しい融合層が生じます。これを IS 層と呼びます。
次に、equitune と同様に、等変層と IS 層で構成されるこの設計を線形モデルを超えて拡張します。
また、IS 層が不変対称関数の汎用近似器であることも示します。
最初の設計からインスピレーションを得て、IS プロパティの概念を使用して、単一の入力で動作する大規模な製品グループ向けの 2 番目の効率的なモデルに依存しない等変設計を設計します。
最初の設計では、各ビューが回転などの変換によって個別に変換されるマルチ画像分類の実験を提供します。
等変モデルはそのような変換に対して堅牢であり、それ以外の場合には競争力のあるパフォーマンスを発揮することがわかりました。
2 番目の設計では、次の 3 つのアプリケーションを検討します。製品グループに対する SCAN データセットの言語構成性。
交差性を解決するための GPT-2 からの自然言語生成の公平性。
CLIP による堅牢なゼロショット画像分類。
全体として、私たちの手法はシンプルで汎用的であり、equitune やその亜種と競合すると同時に、計算​​効率も優れています。

要約(オリジナル)

Constructing model-agnostic group equivariant networks, such as equitune (Basu et al., 2023b) and its generalizations (Kim et al., 2023), can be computationally expensive for large product groups. We address this problem by providing efficient model-agnostic equivariant designs for two related problems: one where the network has multiple inputs each with potentially different groups acting on them, and another where there is a single input but the group acting on it is a large product group. For the first design, we initially consider a linear model and characterize the entire equivariant space that satisfies this constraint. This characterization gives rise to a novel fusion layer between different channels that satisfies an invariance-symmetry (IS) constraint, which we call an IS layer. We then extend this design beyond linear models, similar to equitune, consisting of equivariant and IS layers. We also show that the IS layer is a universal approximator of invariant-symmetric functions. Inspired by the first design, we use the notion of the IS property to design a second efficient model-agnostic equivariant design for large product groups acting on a single input. For the first design, we provide experiments on multi-image classification where each view is transformed independently with transformations such as rotations. We find equivariant models are robust to such transformations and perform competitively otherwise. For the second design, we consider three applications: language compositionality on the SCAN dataset to product groups; fairness in natural language generation from GPT-2 to address intersectionality; and robust zero-shot image classification with CLIP. Overall, our methods are simple and general, competitive with equitune and its variants, while also being computationally more efficient.

arxiv情報

著者 Razan Baltaji,Sourya Basu,Lav R. Varshney
発行日 2024-10-07 16:28:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク