You Need Multiple Exiting: Dynamic Early Exiting for Accelerating Unified Vision Language Model

要約

【タイトル】動的な早期終了による加速化された統合ビジョン言語モデルのための複数の早期終了が必要です

【要約】
– 大規模Transformerモデルは、統合アーキテクチャを持つさまざまな下流ビジョン言語タスクにおいて、大幅な改善をもたらします。
– 性能の向上は、モデルサイズの増加に伴い、推論速度の低下と、使用者に対するコストの増加を引き起こします。
– 大規模モデルの全体の複雑さによって特定の予測に利益を得る一部の入力がある一方、すべての入力が同じ計算量を必要とするわけではなく、過剰な計算リソースの浪費を引き起こす可能性があります。
– この課題に対処するために、入力の複雑さに応じて計算力を自适的に割り当て、推論効率を改善するための早期終了が提案されています。
– 既存の早期終了戦略は、中間層の出力信頼度を入力複雑さのプロキシとして採用して、次の層のスキップの決定を引き起こします。
– しかし、エンコーダーとデコーダーの両方を備えた統合アーキテクチャでは、エンコーダーで出力信頼度の推定が困難であるため、このような戦略は適用できません。
– エンコーダーの早期終了を無視することは計算リソースの節約においてサブオプティマルであるため、これに対処するために、我々は、マルチエキジット(MuE)と呼ばれる、入力層別の類似度に基づいて、エンコーダーとデコーダーの両方で層を動的にスキップすることを可能にする新しい早期終了戦略を提案しています。
– MuEは、エンコーダー内のイメージとテキストのモダリティを分解することにより、柔軟性があり、パフォーマンスの低下を最小限に抑えることで、異なる層をスキップすることができます。
– SNLI-VEとMS COCOデータセットでの実験結果は、提案されたアプローチMuEが、予想される推論時間を最大50%、40%削減し、同時に99%、96%のパフォーマンスを維持できることを示しています。

要約(オリジナル)

Large-scale Transformer models bring significant improvements for various downstream vision language tasks with a unified architecture. The performance improvements come with increasing model size, resulting in slow inference speed and increased cost for severing. While some certain predictions benefit from the full complexity of the large-scale model, not all of inputs need the same amount of computation to conduct, potentially leading to computation resource waste. To handle this challenge, early exiting is proposed to adaptively allocate computational power in term of input complexity to improve inference efficiency. The existing early exiting strategies usually adopt output confidence based on intermediate layers as a proxy of input complexity to incur the decision of skipping following layers. However, such strategies cannot apply to encoder in the widely-used unified architecture with both encoder and decoder due to difficulty of output confidence estimation in the encoder. It is suboptimal in term of saving computation power to ignore the early exiting in encoder component. To handle this challenge, we propose a novel early exiting strategy for unified visual language models, which allows dynamically skip the layers in encoder and decoder simultaneously in term of input layer-wise similarities with multiple times of early exiting, namely \textbf{MuE}. By decomposing the image and text modalities in the encoder, MuE is flexible and can skip different layers in term of modalities, advancing the inference efficiency while minimizing performance drop. Experiments on the SNLI-VE and MS COCO datasets show that the proposed approach MuE can reduce expected inference time by up to 50\% and 40\% while maintaining 99\% and 96\% performance respectively.

arxiv情報

著者 Shengkun Tang,Yaqing Wang,Zhenglun Kong,Tianchi Zhang,Yao Li,Caiwen Ding,Yanzhi Wang,Yi Liang,Dongkuan Xu
発行日 2023-04-03 06:41:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク