要約
現在のマルチモーダル タスクでは、モデルは通常、領域キャプションなどのタスク固有の目標に中間層を適応させながら、エンコーダーとデコーダーをフリーズします。
領域レベルの視覚理解は、大規模な視覚言語モデルにとって大きな課題となります。
空間認識の制限は既知の問題ですが、特に粗粒度の事前トレーニングは、効果的なエンコーダとデコーダの位置合わせのための潜在表現の最適化の難しさを悪化させます。
私たちは、潜在空間のきめ細かい調整を通じて領域レベルの理解を強化するように設計されたフレームワークである AlignCap を提案します。
私たちのアプローチでは、条件付き潜在空間表現を強化して領域レベルのキャプションパフォーマンスを向上させる、新しい潜在特徴改良モジュールを導入しています。
また、マルチモーダル表現の品質を向上させる、革新的なアライメント戦略であるセマンティック空間アライメント モジュールも提案します。
さらに、地域レベルのキャプションパフォーマンスをさらに強化するために、両方のモジュール内に新しい方法で対照学習を組み込んでいます。
空間的制限に対処するために、地域レベルでの空間的推論を強化するデータ前処理パイプラインとして一般物体検出 (GOD) メソッドを採用しています。
広範な実験により、私たちのアプローチがさまざまなタスクにわたって地域レベルの字幕パフォーマンスを大幅に向上させることが実証されました
要約(オリジナル)
In current multimodal tasks, models typically freeze the encoder and decoder while adapting intermediate layers to task-specific goals, such as region captioning. Region-level visual understanding presents significant challenges for large-scale vision-language models. While limited spatial awareness is a known issue, coarse-grained pretraining, in particular, exacerbates the difficulty of optimizing latent representations for effective encoder-decoder alignment. We propose AlignCap, a framework designed to enhance region-level understanding through fine-grained alignment of latent spaces. Our approach introduces a novel latent feature refinement module that enhances conditioned latent space representations to improve region-level captioning performance. We also propose an innovative alignment strategy, the semantic space alignment module, which boosts the quality of multimodal representations. Additionally, we incorporate contrastive learning in a novel manner within both modules to further enhance region-level captioning performance. To address spatial limitations, we employ a General Object Detection (GOD) method as a data preprocessing pipeline that enhances spatial reasoning at the regional level. Extensive experiments demonstrate that our approach significantly improves region-level captioning performance across various tasks
arxiv情報
著者 | Yuan Sun,Zhao Zhang,Jorge Ortiz |
発行日 | 2024-12-13 18:45:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google