Multi-Objective Optimization for Sparse Deep Neural Network Training

要約

さまざまな深層学習シナリオでは、さまざまな矛盾する最適化基準が自然に発生します。
これらは、さまざまな主要なタスク (つまり、マルチタスク学習の設定) に対処できるだけでなく、損失の最小化とスパース性などの主要なタスクや二次的なタスクにも対処できます。
通常のアプローチは基準の単純な重み付けですが、形式的には凸型設定でのみ機能します。
この論文では、いくつかのタスクに関してディープ ニューラル ネットワーク (DNN) をトレーニングするために、修正された重み付きチェビシェフ スカラー化を使用した多目的最適化アルゴリズムを紹介します。
このスカラー化手法を採用することにより、アルゴリズムは元の問題のすべての最適解を特定できると同時に、その複雑さを一連の単一目的問題に軽減します。
次に、単純化された問題は拡張ラグランジアン法を使用して解決され、制約を効果的に処理しながら、アダムや確率的勾配降下法などの一般的な最適化手法の使用が可能になります。
私たちの研究は、DNN モデルの (経済的および生態学的) 持続可能性の問題に対処することを目的としており、特にディープ マルチタスク モデルに焦点を当てています。ディープ マルチタスク モデルは通常、複数のタスクで同等に適切に実行するために非常に多くの重みを使用して設計されています。
2 つの機械学習データセットに対して行われた実験を通じて、タスク固有の適応をネットワークの重みに適用する場合、パフォーマンスに大きな影響を与えることなく、トレーニング中にモデルを適応的にスパース化できる可能性を実証しました。
コードは https://github.com/salomonhotegni/MDMTN で入手できます。

要約(オリジナル)

Different conflicting optimization criteria arise naturally in various Deep Learning scenarios. These can address different main tasks (i.e., in the setting of Multi-Task Learning), but also main and secondary tasks such as loss minimization versus sparsity. The usual approach is a simple weighting of the criteria, which formally only works in the convex setting. In this paper, we present a Multi-Objective Optimization algorithm using a modified Weighted Chebyshev scalarization for training Deep Neural Networks (DNNs) with respect to several tasks. By employing this scalarization technique, the algorithm can identify all optimal solutions of the original problem while reducing its complexity to a sequence of single-objective problems. The simplified problems are then solved using an Augmented Lagrangian method, enabling the use of popular optimization techniques such as Adam and Stochastic Gradient Descent, while efficaciously handling constraints. Our work aims to address the (economical and also ecological) sustainability issue of DNN models, with a particular focus on Deep Multi-Task models, which are typically designed with a very large number of weights to perform equally well on multiple tasks. Through experiments conducted on two Machine Learning datasets, we demonstrate the possibility of adaptively sparsifying the model during training without significantly impacting its performance, if we are willing to apply task-specific adaptations to the network weights. Code is available at https://github.com/salomonhotegni/MDMTN.

arxiv情報

著者 S. S. Hotegni,S. Peitz,M. Berkemeier
発行日 2023-10-12 15:06:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク