Revisiting Implicit Models: Sparsity Trade-offs Capability in Weight-tied Model for Vision Tasks

要約

深層平衡モデル (DEQ) などの陰的モデルは、洗練された解探索手順と一定のメモリ フットプリントを使用して無限層モデルをトレーニングできる機能として、コミュニティで大きな注目を集めています。
ただし、いくつかの試みにもかかわらず、これらの方法はモデルの非効率性と最適化の不安定性によって大きな制約を受けます。
さらに、視覚タスクに関連する手法全体にわたる公平なベンチマークが欠落しています。
この作業では、一連の暗黙的モデルを再検討し、元の重み付けモデルにまで遡ります。
驚くべきことに、DEQ バリアントと比較して、重み付けモデルは視覚タスクにおいてより効果的で安定しており、効率的であることがわかりました。
これらのシンプルでクリーンな重み付きモデルのレンズを通して、このようなモデルのモデル能力の基本的な限界をさらに研究し、モデル能力を向上させるための個別のスパース マスクの使用を提案します。
最後に、実践者向けに、重み付きモデルの深さ、幅、およびスパース性の選択に関する設計ガイドラインを提供し、他の学習パラダイムに対する洞察の一般化可能性を実証します。

要約(オリジナル)

Implicit models such as Deep Equilibrium Models (DEQs) have garnered significant attention in the community for their ability to train infinite layer models with elegant solution-finding procedures and constant memory footprint. However, despite several attempts, these methods are heavily constrained by model inefficiency and optimization instability. Furthermore, fair benchmarking across relevant methods for vision tasks is missing. In this work, we revisit the line of implicit models and trace them back to the original weight-tied models. Surprisingly, we observe that weight-tied models are more effective, stable, as well as efficient on vision tasks, compared to the DEQ variants. Through the lens of these simple-yet-clean weight-tied models, we further study the fundamental limits in the model capacity of such models and propose the use of distinct sparse masks to improve the model capacity. Finally, for practitioners, we offer design guidelines regarding the depth, width, and sparsity selection for weight-tied models, and demonstrate the generalizability of our insights to other learning paradigms.

arxiv情報

著者 Haobo Song,Soumajit Majumder,Tao Lin
発行日 2023-10-20 13:22:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク