Understanding Neural Network Binarization with Forward and Backward Proximal Quantizers

要約

ニューラル ネットワークの 2 値化では、BinaryConnect (BC) とそのバリアントが標準とみなされます。
これらのメソッドは、前方パスで符号関数を適用し、それぞれの勾配を逆伝播して重みを更新します。
ただし、符号関数の導関数は定義されるたびにゼロになるため、トレーニングがフリーズします。
したがって、BC の実装 (BNN など) は通常、後方計算の符号の微分値を恒等式または他の近似勾配の代替値に置き換えます。
このような実践は経験的にはうまく機能しますが、主にヒューリスティックまたは「トレーニング トリック」です。私たちは、最適化の観点からこれらのトレーニング トリックに光を当てることを目的としています。
ProxConnect (PC、BC の一般化) に関する既存の理論に基づいて、(1) PC にさまざまな前方/後方量子化器を装備し、特殊なケースとして既存の 2 値化技術を含む ProxConnect++ (PC++) を取得します。
(2) 自動的な理論的保証を備えた順方向量子化器および逆方向量子化器を合成する原理的な方法を導き出す。
(3) 拡張二値化アルゴリズム BNN++ を提案することで理論を説明します。
(4) CNN とビジョン トランスフォーマーで画像分類実験を実施し、BNN++ がこれらのモデルの 2 値化において一般的に競合する結果を達成することを経験的に検証します。

要約(オリジナル)

In neural network binarization, BinaryConnect (BC) and its variants are considered the standard. These methods apply the sign function in their forward pass and their respective gradients are backpropagated to update the weights. However, the derivative of the sign function is zero whenever defined, which consequently freezes training. Therefore, implementations of BC (e.g., BNN) usually replace the derivative of sign in the backward computation with identity or other approximate gradient alternatives. Although such practice works well empirically, it is largely a heuristic or ”training trick.” We aim at shedding some light on these training tricks from the optimization perspective. Building from existing theory on ProxConnect (PC, a generalization of BC), we (1) equip PC with different forward-backward quantizers and obtain ProxConnect++ (PC++) that includes existing binarization techniques as special cases; (2) derive a principled way to synthesize forward-backward quantizers with automatic theoretical guarantees; (3) illustrate our theory by proposing an enhanced binarization algorithm BNN++; (4) conduct image classification experiments on CNNs and vision transformers, and empirically verify that BNN++ generally achieves competitive results on binarizing these models.

arxiv情報

著者 Yiwei Lu,Yaoliang Yu,Xinlin Li,Vahid Partovi Nia
発行日 2024-02-27 17:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク