要約
離散ソルバーを微分可能な層として埋め込むことで、最新の深層学習アーキテクチャに組み合わせ表現力と離散推論機能が与えられました。
これらのソルバーの導関数はゼロまたは未定義であるため、効果的な勾配ベースの学習には意味のある置換が不可欠です。
以前の作業は、入力摂動でソルバーを平滑化するか、ソルバーを連続問題に緩和するか、通常は追加のソルバー呼び出しを必要とする手法、追加のハイパーパラメーターを導入する手法、またはパフォーマンスを低下させる手法を使用して損失状況を補間することに依存しています。
離散解空間のジオメトリを利用して、ソルバーを逆方向パスの負の恒等式として扱い、さらに理論的な正当化を提供する原理的なアプローチを提案します。
私たちの実験は、このような単純なハイパーパラメーターフリーのアプローチが、離散サンプラーによる逆伝播、ディープグラフマッチング、画像検索などの多数の実験で、以前のより複雑な方法と競合できることを示しています。
さらに、以前に提案された問題固有およびラベル依存のマージンを、コストの崩壊を防ぎ、堅牢性を高める一般的な正則化手順に置き換えます。
要約(オリジナル)
Embedding discrete solvers as differentiable layers has given modern deep learning architectures combinatorial expressivity and discrete reasoning capabilities. The derivative of these solvers is zero or undefined, therefore a meaningful replacement is crucial for effective gradient-based learning. Prior works rely on smoothing the solver with input perturbations, relaxing the solver to continuous problems, or interpolating the loss landscape with techniques that typically require additional solver calls, introduce extra hyper-parameters, or compromise performance. We propose a principled approach to exploit the geometry of the discrete solution space to treat the solver as a negative identity on the backward pass and further provide a theoretical justification. Our experiments demonstrate that such a straightforward hyper-parameter-free approach is able to compete with previous more complex methods on numerous experiments such as backpropagation through discrete samplers, deep graph matching, and image retrieval. Furthermore, we substitute the previously proposed problem-specific and label-dependent margin with a generic regularization procedure that prevents cost collapse and increases robustness.
arxiv情報
著者 | Subham Sekhar Sahoo,Anselm Paulus,Marin Vlastelica,Vít Musil,Volodymyr Kuleshov,Georg Martius |
発行日 | 2023-03-17 15:33:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google