要約
大規模な事前トレーニング済みモデルと微調整が組み合わされて、機械学習の主要なアーキテクチャとして徐々に確立されてきています。
これらのモデルは優れたパフォーマンスを提供しますが、実際の適用は、すべての推論に必要なリソースの量が法外に制限されることがよくあります。
早期離脱ダイナミック ニューラル ネットワーク (EDNN) は、モデルが中間層から予測の一部を実行できるようにする (つまり、早期離脱) ことで、この問題を回避します。
EDNN アーキテクチャのトレーニングは、早期終了の決定を制御するゲート メカニズム (GM) と、中間表現から推論を実行する中間推論モジュール (IM) の 2 つの絡み合ったコンポーネントで構成されているため、困難です。
その結果、既存のアプローチのほとんどは、ゲート メカニズムのしきい値信頼度メトリックに依存し、基礎となるバックボーン ネットワークと推論モジュールの改善に努めています。
このアプローチは成功していますが、2 つの根本的な欠点があります。1) トレーニング中に GM と IM が切り離され、トレーニングとテストの不一致が生じます。
2) しきい値ゲート機構により予測確率に正のバイアスが導入され、不確実性情報を容易に抽出することが困難になります。
私たちはこれら 2 つのモジュールを接続する新しいアーキテクチャを提案します。
これにより、分類データセットのパフォーマンスが大幅に向上し、より優れた不確実性特性評価機能が可能になります。
要約(オリジナル)
Large pretrained models, coupled with fine-tuning, are slowly becoming established as the dominant architecture in machine learning. Even though these models offer impressive performance, their practical application is often limited by the prohibitive amount of resources required for every inference. Early-exiting dynamic neural networks (EDNN) circumvent this issue by allowing a model to make some of its predictions from intermediate layers (i.e., early-exit). Training an EDNN architecture is challenging as it consists of two intertwined components: the gating mechanism (GM) that controls early-exiting decisions and the intermediate inference modules (IMs) that perform inference from intermediate representations. As a result, most existing approaches rely on thresholding confidence metrics for the gating mechanism and strive to improve the underlying backbone network and the inference modules. Although successful, this approach has two fundamental shortcomings: 1) the GMs and the IMs are decoupled during training, leading to a train-test mismatch; and 2) the thresholding gating mechanism introduces a positive bias into the predictive probabilities, making it difficult to readily extract uncertainty information. We propose a novel architecture that connects these two modules. This leads to significant performance improvements on classification datasets and enables better uncertainty characterization capabilities.
arxiv情報
著者 | Florence Regol,Joud Chataoui,Mark Coates |
発行日 | 2023-10-13 14:56:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google