Positive concave deep equilibrium models

要約

深層平衡 (DEQ) モデルは、標準的なニューラル ネットワークに代わるメモリ効率の高い代替手段として広く認識されており、言語モデリングやコンピューター ビジョン タスクで最先端のパフォーマンスを実現します。
これらのモデルは、出力を明示的に計算するのではなく、固定小数点方程式を解くため、標準的なニューラル ネットワークとは異なります。
ただし、既存の DEQ モデルには、固定小数点の存在と一意性の正式な保証が欠けていることが多く、固定小数点の計算に使用される数値スキームの収束は正式に確立されていません。
その結果、DEQ モデルは実際には不安定になる可能性があります。
これらの欠点に対処するために、正凹深平衡 (pcDEQ) モデルと呼ばれる新しいクラスの DEQ モデルを導入します。
非線形ペロン-フロベニウス理論に基づいた私たちのアプローチは、正のオルタント上で凹型の非負の重みと活性化関数を強制します。
これらの制約を課すことにより、凸解析における単調演算子理論に基づく仮定など、DEQ 文献で一般的に見られる追加の複雑な仮定に依存することなく、固定点の存在と一意性を簡単に保証できます。
さらに、固定点は標準の固定点アルゴリズムを使用して計算でき、幾何学的収束の理論的保証が提供されるため、特にトレーニング プロセスが簡素化されます。
実験では、他の暗黙的モデルに対する pcDEQ モデルの競争力を実証します。

要約(オリジナル)

Deep equilibrium (DEQ) models are widely recognized as a memory efficient alternative to standard neural networks, achieving state-of-the-art performance in language modeling and computer vision tasks. These models solve a fixed point equation instead of explicitly computing the output, which sets them apart from standard neural networks. However, existing DEQ models often lack formal guarantees of the existence and uniqueness of the fixed point, and the convergence of the numerical scheme used for computing the fixed point is not formally established. As a result, DEQ models are potentially unstable in practice. To address these drawbacks, we introduce a novel class of DEQ models called positive concave deep equilibrium (pcDEQ) models. Our approach, which is based on nonlinear Perron-Frobenius theory, enforces nonnegative weights and activation functions that are concave on the positive orthant. By imposing these constraints, we can easily ensure the existence and uniqueness of the fixed point without relying on additional complex assumptions commonly found in the DEQ literature, such as those based on monotone operator theory in convex analysis. Furthermore, the fixed point can be computed with the standard fixed point algorithm, and we provide theoretical guarantees of its geometric convergence, which, in particular, simplifies the training process. Experiments demonstrate the competitiveness of our pcDEQ models against other implicit models.

arxiv情報

著者 Mateusz Gabor,Tomasz Piotrowski,Renato L. G. Cavalcante
発行日 2024-06-24 16:08:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク