Bilaterally Slimmable Transformer for Elastic and Efficient Visual Question Answering

要約

近年のTransformerアーキテクチャ[1]の進歩は、ビジュアル質問応答(VQA)に目覚ましい改善をもたらしている。とはいえ、TransformerベースのVQAモデルは、良好な性能を保証するために通常深く広いので、強力なGPUサーバでしか実行できず、携帯電話のような容量制限のあるプラットフォームでは実行できない。したがって、異なるプラットフォームの効率制約を満たすために、実行時に適応的な刈り込みをサポートする弾性VQAモデルの学習が望まれる。このため、我々は、任意のTransformerベースのVQAモデルにシームレスに統合することができ、単一のモデルを一度学習し、異なる幅と深さの様々なスリム化サブモデルを得るための一般的なフレームワークであるBST(bilaterally slimmable Transformer)を提示する。本手法の有効性と汎用性を検証するため、提案するBSTフレームワークを3つの典型的なTransformerベースのVQAアプローチ、すなわちMCAN [2], UNITER [3], CLIP-ViL [4] と統合し、よく使われる2つのベンチマークデータセットで大規模な実験を実施する。特に、1つのスリムなMCAN-BSTサブモデルは、リファレンスMCANモデルよりもモデルサイズが0.38倍小さく、FLOP数が0.27倍少ない一方で、VQA-v2において同等の精度を達成しました。最小のMCAN-BSTサブモデルは、9Mのパラメータと推論時の0.16G FLOPsしか持たないため、60ms以下の待ち時間でモバイルデバイスに導入することが可能です。

要約(オリジナル)

Recent advances in Transformer architectures [1] have brought remarkable improvements to visual question answering (VQA). Nevertheless, Transformer-based VQA models are usually deep and wide to guarantee good performance, so they can only run on powerful GPU servers and cannot run on capacity-restricted platforms such as mobile phones. Therefore, it is desirable to learn an elastic VQA model that supports adaptive pruning at runtime to meet the efficiency constraints of different platforms. To this end, we present the bilaterally slimmable Transformer (BST), a general framework that can be seamlessly integrated into arbitrary Transformer-based VQA models to train a single model once and obtain various slimmed submodels of different widths and depths. To verify the effectiveness and generality of this method, we integrate the proposed BST framework with three typical Transformer-based VQA approaches, namely MCAN [2], UNITER [3], and CLIP-ViL [4], and conduct extensive experiments on two commonly-used benchmark datasets. In particular, one slimmed MCAN-BST submodel achieves comparable accuracy on VQA-v2, while being 0.38x smaller in model size and having 0.27x fewer FLOPs than the reference MCAN model. The smallest MCAN-BST submodel only has 9M parameters and 0.16G FLOPs during inference, making it possible to deploy it on a mobile device with less than 60 ms latency.

arxiv情報

著者 Zhou Yu,Zitian Jin,Jun Yu,Mingliang Xu,Hongbo Wang,Jianping Fan
発行日 2023-05-12 15:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク