要約
教師あり強化学習の多くのモデルは、離散モデル コンポーネントと連続モデル コンポーネントの組み合わせから恩恵を受けます。
エンドツーエンドの学習可能な離散連続モデルは構成的であり、より適切に一般化する傾向があり、より解釈しやすいです。
離散連続計算グラフを構築する一般的なアプローチは、確率的ソフトマックス トリックを使用して離散確率分布をニューラル ネットワークに統合する方法です。
これまでの研究は主に、グラフの各実行パス上に単一の離散コンポーネントを含む計算グラフに焦点を当ててきました。
複数の連続した離散成分を含む、より複雑な確率計算グラフの動作を分析します。
我々は、主に小さな勾配と極小値が原因で、これらのモデルのパラメーターを最適化することが困難であることを示します。
次に、これらの課題を克服するための 2 つの新しい戦略を提案します。
まず、トレーニング中にガンベル ノイズ摂動のスケール パラメーターを増加すると、学習動作が改善されることを示します。
第 2 に、確率的離散連続計算グラフに特化したドロップアウト残差接続を提案します。
広範な実験セットにより、標準の確率的ソフトマックス トリックでは訓練できない複雑な離散連続モデルを訓練できることを示しました。
また、複数のベンチマーク データセットにおいて、複雑な離散確率モデルは連続モデルよりも一般化が優れていることも示します。
要約(オリジナル)
Numerous models for supervised and reinforcement learning benefit from combinations of discrete and continuous model components. End-to-end learnable discrete-continuous models are compositional, tend to generalize better, and are more interpretable. A popular approach to building discrete-continuous computation graphs is that of integrating discrete probability distributions into neural networks using stochastic softmax tricks. Prior work has mainly focused on computation graphs with a single discrete component on each of the graph’s execution paths. We analyze the behavior of more complex stochastic computations graphs with multiple sequential discrete components. We show that it is challenging to optimize the parameters of these models, mainly due to small gradients and local minima. We then propose two new strategies to overcome these challenges. First, we show that increasing the scale parameter of the Gumbel noise perturbations during training improves the learning behavior. Second, we propose dropout residual connections specifically tailored to stochastic, discrete-continuous computation graphs. With an extensive set of experiments, we show that we can train complex discrete-continuous models which one cannot train with standard stochastic softmax tricks. We also show that complex discrete-stochastic models generalize better than their continuous counterparts on several benchmark datasets.
arxiv情報
著者 | David Friede,Mathias Niepert |
発行日 | 2023-07-26 13:47:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google