To Asymmetry and Beyond: Structured Pruning of Sequence to Sequence Models for Improved Inference Efficiency

要約

【タイトル】
シーケンス・ツー・シーケンスモデルの構造の削減による推論効率の向上:非対称性から超越して

【要約】
・シーケンス・ツー・シーケンス言語モデルは、一貫性、関連性、簡潔さを持った要約を生成するために使用されます。
・しかし、モデルサイズが大きいと、レイテンシーに敏感なWebスケールの実装での展開が困難になる可能性があります。
・本論文では、広く使用されている要約用データセットにおいて、モデルサイズ、構造化された削除、推論効率、および要約精度の関係を調べました。
・エンコーダの大きさがモデル精度に関連していること、推論効率はデコーダにつながっていることを示しました。
・非対称削減を使用すると、Rouge-2の1ポイントの損失で、推論レイテンシーが約3倍改善されます。
・さらに、モデルサイズやデータセットの変化に対して、平均の劣化と非対称性の役割は一貫していることを発見しました。

要約(オリジナル)

Sequence-to-sequence language models can be used to produce abstractive summaries which are coherent, relevant, and concise. Still, model sizes can make deployment in latency-sensitive or web-scale implementations difficult. This paper studies the relationship between model size, structured pruning, inference efficiency, and summarization accuracy on widely used summarization datasets. We show that model accuracy is tied to the encoder size while inference efficiency is connected to the decoder. Using asymmetric pruning can lead to nearly 3x improvement in inference latency with ~1 point loss in Rouge-2. Moreover, we find both the average degradation and the role of asymmetry to be consistent across model sizes and variations in datasets.

arxiv情報

著者 Daniel Campos,ChengXiang Zhai
発行日 2023-04-05 19:44:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク