Modularizing while Training: A New Paradigm for Modularizing DNN Models

要約

ディープ ニューラル ネットワーク (DNN) モデルは、インテリジェント ソフトウェア システムにおいてますます重要なコンポーネントになっています。
ただし、DNN モデルのトレーニングには通常、時間と費用の両方がかかります。
この問題に対処するために、研究者たちは最近、ソフトウェア エンジニアリングにおけるコードの再利用のアイデアを借りて、既存の DNN モデルを再利用することに重点を置いています。
ただし、モデル全体を再利用すると、余分なオーバーヘッドが発生したり、望ましくない機能による弱点が引き継がれたりする可能性があります。
したがって、既存の研究では、すでにトレーニングされたモデルをモジュールに分解すること、つまりトレーニング後のモジュール化を行い、モジュールの再利用を可能にすることが提案されています。
トレーニングされたモデルはモジュール化向けに構築されていないため、トレーニング後のモジュール化では多大なオーバーヘッドが発生し、モデルの精度が低下します。
この論文では、モデルのトレーニング プロセスにモジュール化を組み込む新しいアプローチ、つまりトレーニング中のモジュール化 (MwT) を提案します。
モジュール内の凝集とモジュール間の結合を最適化する 2 つの損失関数を通じて、構造的にモジュール化されるようにモデルをトレーニングします。
この作業では、畳み込みニューラル ネットワーク (CNN) モデルをモジュール化するために提案されたアプローチを実装しました。
代表的なモデルの評価結果は、MwT が最先端のアプローチよりも優れていることを示しています。
具体的には、MwT によって引き起こされる精度の低下はわずか 1.13 パーセント ポイントであり、ベースラインより 1.76 パーセント ポイント小さくなっています。
MwT によって生成されたモジュールのカーネル保持率はわずか 14.58% であり、最先端のアプローチと比較して 74.31% 削減されます。
さらに、トレーニングとモジュール化に必要な合計時間コストはわずか 108 分で、ベースラインの半分です。

要約(オリジナル)

Deep neural network (DNN) models have become increasingly crucial components in intelligent software systems. However, training a DNN model is typically expensive in terms of both time and money. To address this issue, researchers have recently focused on reusing existing DNN models – borrowing the idea of code reuse in software engineering. However, reusing an entire model could cause extra overhead or inherits the weakness from the undesired functionalities. Hence, existing work proposes to decompose an already trained model into modules, i.e., modularizing-after-training, and enable module reuse. Since trained models are not built for modularization, modularizing-after-training incurs huge overhead and model accuracy loss. In this paper, we propose a novel approach that incorporates modularization into the model training process, i.e., modularizing-while-training (MwT). We train a model to be structurally modular through two loss functions that optimize intra-module cohesion and inter-module coupling. We have implemented the proposed approach for modularizing Convolutional Neural Network (CNN) models in this work. The evaluation results on representative models demonstrate that MwT outperforms the state-of-the-art approach. Specifically, the accuracy loss caused by MwT is only 1.13 percentage points, which is 1.76 percentage points less than that of the baseline. The kernel retention rate of the modules generated by MwT is only 14.58%, with a reduction of 74.31% over the state-of-the-art approach. Furthermore, the total time cost required for training and modularizing is only 108 minutes, half of the baseline.

arxiv情報

著者 Binhang Qi,Hailong Sun,Hongyu Zhang,Ruobing Zhao,Xiang Gao
発行日 2023-10-05 10:44:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE パーマリンク