Quality at the Tail

要約

ディープラーニングのモデルとシステムのベンチマークと評価には、包括的な評価を確実にするための細心の注意が必要です。
実際のアプリケーションでは、特に厳しい要件により両方の指標を同時に満たすことが要求されるクリティカルなコンテキストでは、推論の品質と推論時間の両方を考慮することが最も重要です。
どちらの側面も無視すると、人命の損失や財産の損害など、重大かつ取り返しのつかない結果が生じる可能性があります。
残念ながら、多くの研究ではこれらの指標の包括的な考慮が欠如しており、理想的または許容的な条件下で実施されることが多く、そのため不完全または非直観的な評価方法となっています。
この研究では、ディープラーニングの推論品質に変動があり、それがベンチマークと評価にさらに複雑さと課題をもたらしていることが明らかになりました。
この現象をよりよく特徴付けるために、分布の末尾の品質を示す「末尾品質」の概念が導入されます。
「テール品質」は、品質変動現象を捉える際に従来の推論品質や推論時間の指標の限界を克服し、より客観的な評価を提供することができます。
この現象を捉えるために、この論文では、推論時間と品質に影響を与えるさまざまな要因を包括的に評価および分析するための先駆的な評価フレームワークも提案します。
このフレームワークを活用すると、推論時間と推論品質の潜在的な分布を予測できるため、ディープラーニングを実際に適用する前に「テール品質」を把握できます。
評価フレームワークの有効性は、4 つのシステムにわたる 3 つの異なるタスクの深層学習モデルで実施された実験を通じて検証されます。
さらに、この評価フレームワークを採用して、実験では推論の品質と推論時間に影響を与えるいくつかの要因の予備分析を実施しました。

要約(オリジナル)

Benchmarking and evaluating deep learning models and systems necessitate a meticulous approach to ensure comprehensive assessment. In practical applications, it is paramount to consider both the inference quality and the inference time, particularly within critical contexts, where stringent requirements demand the simultaneous satisfaction of both metrics. Neglecting either aspect can result in severe and irreversible consequences, including loss of human life and property damage. Unfortunately, many studies lack a comprehensive consideration of these metrics, often conducted under ideal or permissive conditions, thereby leading to incomplete or non-intuitive evaluation methodologies. This study reveals that deep learning inference quality exhibits fluctuations, which further introduces complications and challenges to the benchmarking and evaluation. To better characterize the phenomenon, the concept of ‘tail quality’ is introduced, which indicates the quality at the tail of distributions. ‘Tail quality’ can offer a more objective evaluation, overcoming the limitations of conventional inference quality and inference time metrics in capturing the quality fluctuation phenomenon. To capture the phenomenon, this paper also proposes a pioneering evaluation framework for comprehensive assessment and analysis of various factors affecting inference time and quality. Leveraging this framework enables the anticipation of the potential distribution of inference time and inference quality, thus capturing ‘tail quality’ before practically applying deep learning. The effectiveness of the evaluation framework is validated through experiments conducted on deep learning models for three different tasks across four systems. Furthermore, employing this evaluation framework, the experiments conducted a preliminary analysis of several factors influencing inference quality and inference time.

arxiv情報

著者 Zhengxin Yang,Wanling Gao,Chunjie Luo,Lei Wang,Fei Tang,Xu Wen,Jianfeng Zhan
発行日 2023-08-15 10:49:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SE パーマリンク