Bridging Discrete and Backpropagation: Straight-Through and Beyond

要約

タイトル:ディスクリートとバックプロパゲーションの橋渡し:ストレートスルーとそれ以上

要約:

– バックプロパゲーションは、ディープラーニングにおいて連続変数に対してのみ勾配を計算することができるため、ディスクリート潜在変数を含む問題に関するさまざまな研究が阻まれる。
– Straight-Through(ST)ヒューリスティックが広く使用されていることに注目し、これが勾配の一次近似として機能することを示す。
– この手法に基づいて、Heunの方法(ODEを解くための2次数値方法)を統合することで、勾配を近似する新しい方法であるReinMaxを提案する。
– 式二階微分やヘシアンを必要とせずに、二階精度を実現する。
– 構造化された出力予測および非監督的生成モデリングのタスクで実験を行い、状態-of-the-art、ST、ストレートスルーガンベルソフトマックスを含む一貫した改善をもたらす。実装はhttps://github.com/microsoft/ReinMaxで公開されています。

要約(オリジナル)

Backpropagation, the cornerstone of deep learning, is limited to computing gradients solely for continuous variables. This limitation hinders various research on problems involving discrete latent variables. To address this issue, we propose a novel approach for approximating the gradient of parameters involved in generating discrete latent variables. First, we examine the widely used Straight-Through (ST) heuristic and demonstrate that it works as a first-order approximation of the gradient. Guided by our findings, we propose a novel method called ReinMax, which integrates Heun’s Method, a second-order numerical method for solving ODEs, to approximate the gradient. Our method achieves second-order accuracy without requiring Hessian or other second-order derivatives. We conduct experiments on structured output prediction and unsupervised generative modeling tasks. Our results show that \ours brings consistent improvements over the state of the art, including ST and Straight-Through Gumbel-Softmax. Implementations are released at https://github.com/microsoft/ReinMax.

arxiv情報

著者 Liyuan Liu,Chengyu Dong,Xiaodong Liu,Bin Yu,Jianfeng Gao
発行日 2023-04-17 20:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク