Efficiency Pentathlon: A Standardized Arena for Efficiency Evaluation

要約

現代の自然言語処理 (NLP) システムの計算需要の高まりにより、最先端の研究への参入障壁が高まっていると同時に、深刻な環境上の懸念も生じています。
しかし、モデルの評価と比較における実際的な課題により、モデル効率の進歩が妨げられています。
たとえば、機関によってアクセシビリティのレベルが異なるため、ハードウェアの制御が困難です。
さらに、FLOP などの指標の改善は、現実世界のアプリケーションの進歩に反映されないことがよくあります。
これに応えて、モデルの効率を総合的かつ現実的に評価するためのベンチマークである Pentathlon を紹介します。
Pentathlon は、モデルのライフサイクルにおける計算の大部分を占める推論に焦点を当てています。
厳密に制御されたハードウェア プラットフォームを提供し、現実世界のアプリケーション シナリオを反映するように設計されています。
これには、レイテンシ、スループット、メモリ オーバーヘッド、エネルギー消費など、効率のさまざまな側面を対象とした一連の指標が組み込まれています。
Pentathlon には、あらゆるコードベースにシームレスに統合して評価を可能にするソフトウェア ライブラリも付属しています。
標準化され一元化された評価プラットフォームとして、Pentathlon は作業負荷を大幅に削減して、公平で再現可能な効率比較を行うことができます。
当初は自然言語処理 (NLP) モデルに焦点を当てていましたが、Pentathlon は他の分野への柔軟な拡張を可能にするように設計されています。
私たちは、ペンタスロンが効率的なモデルの構築におけるアルゴリズムの革新を刺激し、次世代の NLP モデルの開発における社会的および環境的影響に対する意識の向上を促進すると想定しています。

要約(オリジナル)

Rising computational demands of modern natural language processing (NLP) systems have increased the barrier to entry for cutting-edge research while posing serious environmental concerns. Yet, progress on model efficiency has been impeded by practical challenges in model evaluation and comparison. For example, hardware is challenging to control due to disparate levels of accessibility across different institutions. Moreover, improvements in metrics such as FLOPs often fail to translate to progress in real-world applications. In response, we introduce Pentathlon, a benchmark for holistic and realistic evaluation of model efficiency. Pentathlon focuses on inference, which accounts for a majority of the compute in a model’s lifecycle. It offers a strictly-controlled hardware platform, and is designed to mirror real-world applications scenarios. It incorporates a suite of metrics that target different aspects of efficiency, including latency, throughput, memory overhead, and energy consumption. Pentathlon also comes with a software library that can be seamlessly integrated into any codebase and enable evaluation. As a standardized and centralized evaluation platform, Pentathlon can drastically reduce the workload to make fair and reproducible efficiency comparisons. While initially focused on natural language processing (NLP) models, Pentathlon is designed to allow flexible extension to other fields. We envision Pentathlon will stimulate algorithmic innovations in building efficient models, and foster an increased awareness of the social and environmental implications in the development of future-generation NLP models.

arxiv情報

著者 Hao Peng,Qingqing Cao,Jesse Dodge,Matthew E. Peters,Jared Fernandez,Tom Sherborne,Kyle Lo,Sam Skjonsberg,Emma Strubell,Darrell Plessas,Iz Beltagy,Evan Pete Walsh,Noah A. Smith,Hannaneh Hajishirzi
発行日 2023-07-19 01:05:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク