要約
自動回帰生成モデルは、要約、質問応答、分類など、さまざまな NLP タスク全体で競争力のあるパフォーマンスを実現します。
ただし、推論が遅いことでも知られており、そのためリアルタイム アプリケーションに展開することが困難になります。
データ インスタンスごとに計算リソースを動的に割り当てることで推論を高速化する、切り替え可能な決定を提案します。
どこをスキップするか、および制約付き最適化で品質と計算コストのバランスを取る方法を自動的に決定する動的ニューラル生成ネットワークは、効率的な推論パスを強制し、最適化されたトレードオフを決定します。
質問応答、要約、分類のベンチマークにわたる実験により、私たちの方法は同じ精度を維持しながら推論中の計算コストが削減されるという利点があることが示されています。
広範な実験とアブレーション研究により、私たちの方法が多くの NLP タスクにとって一般的で効果的で有益であることが実証されています。
要約(オリジナル)
Auto-regressive generation models achieve competitive performance across many different NLP tasks such as summarization, question answering, and classifications. However, they are also known for being slow in inference, which makes them challenging to deploy in real-time applications. We propose a switchable decision to accelerate inference by dynamically assigning computation resources for each data instance. Automatically making decisions on where to skip and how to balance quality and computation cost with constrained optimization, our dynamic neural generation networks enforce the efficient inference path and determine the optimized trade-off. Experiments across question answering, summarization, and classification benchmarks show that our method benefits from less computation cost during inference while keeping the same accuracy. Extensive experiments and ablation studies demonstrate that our method can be general, effective, and beneficial for many NLP tasks.
arxiv情報
著者 | Shujian Zhang,Korawat Tanwisuth,Chengyue Gong,Pengcheng He,Mingyuan Zhou |
発行日 | 2024-05-07 17:44:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google