M-HOF-Opt: Multi-Objective Hierarchical Output Feedback Optimization via Multiplier Induced Loss Landscape Scheduling

要約

ニューラル ネットワークでパラメータ化された損失関数が多くの項で構成されている場合、最適化プロセス中の重み乗数の組み合わせ選択が困難な問題を引き起こします。
これに対処するために、各損失項の多目的降下を促進するハイパーボリュームベースの尤度を備えた、結合モデル パラメーターと乗数進化プロセスの確率的グラフィカル モデル (PGM) を提案しました。
対応するパラメータと乗数の推定は、順次決定プロセスとして最適制御問題にキャストされ、多目的降下目標が一連の制約最適化サブ問題に階層的にディスパッチされます。
サブ問題制約は、パレート優勢に従って自動的に適応し、各損失項の出力フィードバックを介して損失ランドスケープをスケジュールするための低レベル乗算器コントローラーの設定値として機能します。
私たちの方法は乗算器を使用せず、エポックのタイムスケールで動作するため、トレーニング サイクル全体の乗数調整と比較して、計算リソースを大幅に節約します。
これを PACS ドメイン汎化タスクの 6 つの損失項を使用したドメイン不変変分自動エンコーディングに適用し、さまざまなコントローラー ハイパーパラメーターおよびさまざまな乗算器の初期条件にわたって堅牢なパフォーマンスが観察され、他の乗算器スケジューリング手法を上回りました。
私たちは、多目的階層出力フィードバック トレーニング スキームを他の深層学習分野に適用するために、多くの損失項のカスタム定義を許可する、メソッドのモジュール実装を提供しました。

要約(オリジナル)

When a neural network parameterized loss function consists of many terms, the combinatorial choice of weight multipliers during the optimization process forms a challenging problem. To address this, we proposed a probabilistic graphical model (PGM) for the joint model parameter and multiplier evolution process, with a hypervolume based likelihood that promotes multi-objective descent of each loss term. The corresponding parameter and multiplier estimation as a sequential decision process is then cast into an optimal control problem, where the multi-objective descent goal is dispatched hierarchically into a series of constraint optimization sub-problems. The sub-problem constraint automatically adapts itself according to Pareto dominance and serves as the setpoint for the low level multiplier controller to schedule loss landscapes via output feedback of each loss term. Our method is multiplier-free and operates at the timescale of epochs, thus saves tremendous computational resources compared to full training cycle multiplier tuning. We applied it to domain invariant variational auto-encoding with 6 loss terms on the PACS domain generalization task, and observed robust performance across a range of controller hyperparameters, as well as different multiplier initial conditions, outperforming other multiplier scheduling methods. We offered modular implementation of our method, admitting custom definition of many loss terms for applying our multi-objective hierarchical output feedback training scheme to other deep learning fields.

arxiv情報

著者 Xudong Sun,Nutan Chen,Alexej Gossmann,Yu Xing,Carla Feistner,Emilio Dorigatt,Felix Drost,Daniele Scarcella,Lisa Beer,Carsten Marr
発行日 2024-03-20 16:38:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク