MixPHM: Redundancy-Aware Parameter-Efficient Tuning for Low-Resource Visual Question Answering

要約

最近では、事前トレーニング済み視覚言語モデル (VLM) を微調整することが、ビジュアル質問応答 (VQA) で最先端のパフォーマンスを実現するための一般的なパラダイムとなっています。
ただし、VLM がスケールするにつれて、低リソース設定で特定のタスクの完全なモデル パラメーターを微調整すると、計算コストが高くなり、ストレージが非効率になり、オーバーフィットが発生しやすくなります。
現在のパラメータ効率の高い調整方法では、調整可能なパラメータの数が大幅に削減されていますが、完全な微調整とのパフォーマンスには依然として大きなギャップが存在します。
この論文では、低リソース VQA における完全な微調整よりも優れたパフォーマンスを発揮する、冗長性を意識したパラメータ効率の高い調整方法である MixPHM を提案します。
具体的には、MixPHM は、複数の PHM 専門家によって専門家混合の方法で実装される軽量モジュールです。
パラメーターの冗長性を減らすために、MixPHM は低ランクの部分空間でエキスパートの重みを再パラメーター化し、エキスパート内およびエキスパート間で重みの一部を共有します。
さらに、アダプターの定量的冗長性分析に基づいて、MixPHM 表現におけるタスク関連の相関を促進しながら、タスクに関係のない冗長性を削減する冗長正則化を提案します。
VQA v2、GQA、および OK-VQA で行われた実験では、MixPHM が最先端のパラメーター効率の高い手法を上回っており、完全な微調整を常に上回っている唯一の手法であることが実証されています。

要約(オリジナル)

Recently, finetuning pretrained Vision-Language Models (VLMs) has been a prevailing paradigm for achieving state-of-the-art performance in Visual Question Answering (VQA). However, as VLMs scale, finetuning full model parameters for a given task in low-resource settings becomes computationally expensive, storage inefficient, and prone to overfitting. Current parameter-efficient tuning methods dramatically reduce the number of tunable parameters, but there still exists a significant performance gap with full finetuning. In this paper, we propose MixPHM, a redundancy-aware parameter-efficient tuning method that outperforms full finetuning in low-resource VQA. Specifically, MixPHM is a lightweight module implemented by multiple PHM-experts in a mixture-of-experts manner. To reduce parameter redundancy, MixPHM reparameterizes expert weights in a low-rank subspace and shares part of the weights inside and across experts. Moreover, based on a quantitative redundancy analysis for adapters, we propose Redundancy Regularization to reduce task-irrelevant redundancy while promoting task-relevant correlation in MixPHM representations. Experiments conducted on VQA v2, GQA, and OK-VQA demonstrate that MixPHM outperforms state-of-the-art parameter-efficient methods and is the only one consistently surpassing full finetuning.

arxiv情報

著者 Jingjing Jiang,Nanning Zheng
発行日 2023-06-07 12:02:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク