要約
機械学習モデルのスケーリングは、その性能を大幅に向上させる。しかし、このような向上は、推論に時間がかかり、リソースを大量に消費するという代償を伴う。早期終了ニューラルネットワーク(EENN)は有望な解決策を提供する。中間層が終了して早期に予測を生成できるようにすることで、推論を高速化する。しかし、EENNの基本的な問題は、パフォーマンスを著しく低下させることなく、いつ終了するかを決定する方法である。言い換えれば、EENNが「高速」になるのはいつが「安全」なのだろうか?この問題に対処するために、我々はリスクコントロールのフレームワークをEENNに適応させる方法を研究している。リスクコントロールは、分布のない、その場限りの解決策を提供し、EENNの退場メカニズムを、アウトプットが十分な品質のときだけ退場が起こるように調整する。我々は、様々な視覚タスクと言語タスクで経験的に我々の洞察を検証し、リスク制御が、ユーザが指定した性能目標を維持しながら、大幅な計算量削減を実現できることを実証する。
要約(オリジナル)
Scaling machine learning models significantly improves their performance. However, such gains come at the cost of inference being slow and resource-intensive. Early-exit neural networks (EENNs) offer a promising solution: they accelerate inference by allowing intermediate layers to exit and produce a prediction early. Yet a fundamental issue with EENNs is how to determine when to exit without severely degrading performance. In other words, when is it ‘safe’ for an EENN to go ‘fast’? To address this issue, we investigate how to adapt frameworks of risk control to EENNs. Risk control offers a distribution-free, post-hoc solution that tunes the EENN’s exiting mechanism so that exits only occur when the output is of sufficient quality. We empirically validate our insights on a range of vision and language tasks, demonstrating that risk control can produce substantial computational savings, all the while preserving user-specified performance goals.
arxiv情報
著者 | Metod Jazbec,Alexander Timans,Tin Hadži Veljković,Kaspar Sakmann,Dan Zhang,Christian A. Naesseth,Eric Nalisnick |
発行日 | 2024-11-04 15:48:10+00:00 |
arxivサイト | arxiv_id(pdf) |