Less is More — Towards parsimonious multi-task models using structured sparsity

要約

機械学習 (ML) におけるグループの疎性により、アクティブなパラメーター グループが少なく、よりシンプルで解釈しやすいモデルが促進されます。
この研究の目的は、構造化されたグループの疎性をマルチタスク学習 (MTL) フレームワークの共有パラメーターに組み込んで、高密度モデルと同等または優れたパフォーマンスを維持しながら、より少ないパラメーターで複数のタスクに効果的に対処できる倹約モデルを開発することです。
トレーニング中にモデルをスパース化すると、推論中のモデルのメモリ フットプリント、計算要件、予測時間を削減できます。
畳み込みニューラル ネットワーク (CNN) の共有層でチャネルごとの l1/l2 グループ スパース性を使用します。
このアプローチは、無関係なグループ (チャネル) の除去を容易にするだけでなく、重みにペナルティを課すことにより、すべてのタスクの学習を強化します。
公開されている 2 つの MTL データセット、NYU-v2 と CelebAMask-HQ でのグループ スパース性のもとでのシングルタスク実験とマルチタスク実験の結果を比較します。
また、スパース化度の変更がモデルのパフォーマンスとグループのスパース性の両方にどのような影響を与えるかについても調査します。

要約(オリジナル)

Group sparsity in Machine Learning (ML) encourages simpler, more interpretable models with fewer active parameter groups. This work aims to incorporate structured group sparsity into the shared parameters of a Multi-Task Learning (MTL) framework, to develop parsimonious models that can effectively address multiple tasks with fewer parameters while maintaining comparable or superior performance to a dense model. Sparsifying the model during training helps decrease the model’s memory footprint, computation requirements, and prediction time during inference. We use channel-wise l1/l2 group sparsity in the shared layers of the Convolutional Neural Network (CNN). This approach not only facilitates the elimination of extraneous groups (channels) but also imposes a penalty on the weights, thereby enhancing the learning of all tasks. We compare the outcomes of single-task and multi-task experiments under group sparsity on two publicly available MTL datasets, NYU-v2 and CelebAMask-HQ. We also investigate how changing the sparsification degree impacts both the performance of the model and the sparsity of groups.

arxiv情報

著者 Richa Upadhyay,Ronald Phlypo,Rajkumar Saini,Marcus Liwicki
発行日 2023-08-23 13:09:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク