要約
スケーリング機能は、パラメーターの数とトレーニング データのサイズに関して広く検証されています。
未調査の重要な疑問の 1 つは、ビジョン トークンの数に関しても同様にスケーリング機能が存在するのかということです。
この研究では、ビジョン トークンの数とビジョン言語モデルのパフォーマンスの関係を調査することでギャップを埋めています。
理論的分析と経験的評価により、このモデルは長さ \(N_l\) に対して弱いスケーリング機能を示し、そのパフォーマンスはおよそ \(S(N_l) \estimate (c/N_l)^{\alpha}\) であることが明らかになりました。ここで \(
c、\alpha\) はハイパーパラメータです。
興味深いことに、このスケーリング動作は、入力にユーザーの質問が含まれるか除外されるかによってほとんど影響を受けません。
さらに、ユーザーの質問とビジョン トークンを融合すると、質問がタスクに関連する場合にモデルのパフォーマンスを向上させることができます。
大規模なビジョン トークンに関連する計算上の課題に対処するために、ユーザーの質問トークンを表現に統合しながらトークン数を効率的に削減する新しいアーキテクチャを提案します。
私たちの発見は、特定のタスクの制約の下で、より効率的かつ効果的な視覚言語モデルを開発するための洞察を提供する可能性があります。
要約(オリジナル)
The scaling capability has been widely validated with respect to the number of parameters and the size of training data. One important question that is unexplored is that does scaling capability also exists similarly with respect to the number of vision tokens? This study fills the gap by investigating the relationship between the number of vision tokens and the performance of vision-language models. Our theoretical analysis and empirical evaluations reveal that the model exhibits weak scaling capabilities on the length \(N_l\), with performance approximately \(S(N_l) \approx (c/N_l)^{\alpha}\), where \(c, \alpha\) are hyperparameters. Interestingly, this scaling behavior remains largely unaffected by the inclusion or exclusion of the user’s question in the input. Furthermore, fusing the user’s question with the vision token can enhance model performance when the question is relevant to the task. To address the computational challenges associated with large-scale vision tokens, we propose a novel architecture that efficiently reduces the token count while integrating user question tokens into the representation. Our findings may offer insights for developing more efficient and effective vision-language models under specific task constraints.
arxiv情報
著者 | Tenghui Li,Guoxu Zhou,Xuyang Zhao,Qibin Zhao |
発行日 | 2024-12-24 12:20:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google