要約
現在の大規模なビジョン言語モデル (VLM) は、単一のビジュアル コンポーネントの機能が不十分であったり、ビジュアル トークンが長すぎるなどの課題に直面することがよくあります。
これらの問題により、複雑な視覚情報や長すぎるコンテキスト情報を正確に解釈するモデルの有効性が制限される可能性があります。
これらの課題に対処することは、VLM のパフォーマンスと適用性を向上させるために重要です。
この論文では、画像とテキストのマッチング、OCR、画像セグメンテーションなどの専門家を含む、個々のビジュアル エンコーダの機能を相乗させるためのアンサンブル エキスパート手法の使用を提案します。この手法では、さまざまなビジュアル エキスパートからの出力の処理を統合するための融合ネットワークが導入されています。
、画像エンコーダと事前トレーニングされた LLM の間のギャップを橋渡ししながら。
さらに、長い画像特徴シーケンスによって引き起こされる位置エンコードの無駄を軽減し、位置オーバーフローと長さ制限の問題に効果的に対処するために、さまざまな位置エンコード方式を検討します。
たとえば、私たちの実装では、この手法により、SAM などのモデルの位置占有が大幅に減少し、実質的な 4096 から、より効率的で管理しやすい 64、さらには 1 まで減少しました。実験結果は、複数のエキスパートを備えた VLM が、単独の VLM よりも一貫して優れたパフォーマンスを示すことを示しています。
ビジュアル エンコーダーを使用し、より多くの専門家が統合されるにつれてパフォーマンスが大幅に向上します。
このレポートで使用されているトレーニング コードはオープンソース化されています。
これらのリソースはすべて、プロジェクトの Web サイトで見つけることができます。
要約(オリジナル)
Current large vision-language models (VLMs) often encounter challenges such as insufficient capabilities of a single visual component and excessively long visual tokens. These issues can limit the model’s effectiveness in accurately interpreting complex visual information and over-lengthy contextual information. Addressing these challenges is crucial for enhancing the performance and applicability of VLMs. This paper proposes the use of ensemble experts technique to synergizes the capabilities of individual visual encoders, including those skilled in image-text matching, OCR, image segmentation, etc. This technique introduces a fusion network to unify the processing of outputs from different visual experts, while bridging the gap between image encoders and pre-trained LLMs. In addition, we explore different positional encoding schemes to alleviate the waste of positional encoding caused by lengthy image feature sequences, effectively addressing the issue of position overflow and length limitations. For instance, in our implementation, this technique significantly reduces the positional occupancy in models like SAM, from a substantial 4096 to a more efficient and manageable 64 or even down to 1. Experimental results demonstrate that VLMs with multiple experts exhibit consistently superior performance over isolated visual encoders and mark a significant performance boost as more experts are integrated. We have open-sourced the training code used in this report. All of these resources can be found on our project website.
arxiv情報
著者 | Xiaoran Fan,Tao Ji,Changhao Jiang,Shuo Li,Senjie Jin,Sirui Song,Junke Wang,Boyang Hong,Lu Chen,Guodong Zheng,Ming Zhang,Caishuang Huang,Rui Zheng,Zhiheng Xi,Yuhao Zhou,Shihan Dou,Junjie Ye,Hang Yan,Tao Gui,Qi Zhang,Xipeng Qiu,Xuanjing Huang,Zuxuan Wu,Yu-Gang Jiang |
発行日 | 2024-01-30 18:09:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google