M-HOF-Opt: Multi-Objective Hierarchical Output Feedback Optimization via Multiplier Induced Loss Landscape Scheduling

要約

多目的降下を促進するハイパーボリュームベースの尤度を使用して、結合モデルパラメータおよび乗数進化プロセスの確率的グラフィカルモデル(PGM)を介して、ニューラルワークによってパラメータ化された多くの損失項の多目的最適化のための重み乗数のオンライン組み合わせ選択に取り組みます。

対応するパラメータと乗数の推定は、順次決定プロセスとして最適制御問題にキャストされ、多目的降下目標が一連の制約最適化サブ問題に階層的にディスパッチされます。
部分問題制約は、パレート優勢に従って自動的に適応し、各損失項の出力フィードバックを介して損失ランドスケープをスケジュールするための低レベル乗数コントローラーの設定値として機能します。
私たちの方法は乗算器を使用せず、エポックのタイムスケールで動作するため、トレーニング サイクル全体の乗数調整と比較して、計算リソースを大幅に節約します。
また、既存の多目的深層学習手法の過剰なメモリ要件と重い計算負荷も回避します。
これを PACS ドメイン汎化タスクの 6 つの損失項を使用したドメイン不変変分自動エンコーディングに適用し、さまざまなコントローラー ハイパーパラメーターおよびさまざまな乗算器の初期条件にわたって堅牢なパフォーマンスが観察され、他の乗算器スケジューリング手法を上回りました。
私たちはメソッドのモジュール実装を提供し、多くの損失条件のカスタム定義への拡張を認めました。

要約(オリジナル)

We address the online combinatorial choice of weight multipliers for multi-objective optimization of many loss terms parameterized by neural works via a probabilistic graphical model (PGM) for the joint model parameter and multiplier evolution process, with a hypervolume based likelihood promoting multi-objective descent. The corresponding parameter and multiplier estimation as a sequential decision process is then cast into an optimal control problem, where the multi-objective descent goal is dispatched hierarchically into a series of constraint optimization sub-problems. The subproblem constraint automatically adapts itself according to Pareto dominance and serves as the setpoint for the low level multiplier controller to schedule loss landscapes via output feedback of each loss term. Our method is multiplier-free and operates at the timescale of epochs, thus saves tremendous computational resources compared to full training cycle multiplier tuning. It also circumvents the excessive memory requirements and heavy computational burden of existing multi-objective deep learning methods. We applied it to domain invariant variational auto-encoding with 6 loss terms on the PACS domain generalization task, and observed robust performance across a range of controller hyperparameters, as well as different multiplier initial conditions, outperforming other multiplier scheduling methods. We offered modular implementation of our method, admitting extension to custom definition of many loss terms.

arxiv情報

著者 Xudong Sun,Nutan Chen,Alexej Gossmann,Yu Xing,Carla Feistner,Emilio Dorigatt,Felix Drost,Daniele Scarcella,Lisa Beer,Carsten Marr
発行日 2024-04-10 15:25:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク