要約
視覚的な接地能力を備えた大規模なマルチモーダルモデル(LMM)を支えると、視覚世界と人間との相互作用に対するAISの理解が大幅に向上する可能性があります。
ただし、既存のメソッドは通常、LMMのパラメーターを微調整して、追加のセグメンテーショントークンとオーバーフィットの接地およびセグメンテーションデータセットを学習します。
このような設計は、一般的なAIアシスタントの不可欠な会話能力に壊滅的な減少を必然的に引き起こすでしょう。
この論文では、一連のマルチモーダルの質問アンウェーベンチマークで、最先端の接地LMMを包括的に評価し、一般的な知識の理解と能力の後に衰弱した指示を弱めることを示す劇的なパフォーマンスドロップを観察します。
この問題に対処するために、F-lmmを提示します – 人間の会話で凍った既製のLMMを接地します – 視覚的接地を助長するワードピクセルの対応が、よく訓練されたLMMの注意メカニズムに本質的に存在するという事実に基づいた簡単で効果的な設計です。
いくつかのトレーニング可能なCNNレイヤーのみを使用して、SAMベースのマスク精製者がさらに最適化できるワードピクセルの注意の重みをマスクロジットに翻訳できます。
私たちのF-LMMは、特別なセグメンテーショントークンを学習したり、高品質の接地命令調整データを使用したりすることはありませんが、LMMSの元の会話能力を完全に保存しながら、表現セグメンテーションとパノプティックな物語の接地ベンチマークを参照する競争力のあるパフォーマンスを実現します。
さらに、命令に従う能力が保存され、接地能力が得られたため、F-LMMは、推論セグメンテーション、接地された会話生成、視覚的なチェーンの推論などの複雑なタスクに直接適用できます。
私たちのコードはhttps://github.com/wusize/f-lmmにあります。
要約(オリジナル)
Endowing Large Multimodal Models (LMMs) with visual grounding capability can significantly enhance AIs’ understanding of the visual world and their interaction with humans. However, existing methods typically fine-tune the parameters of LMMs to learn additional segmentation tokens and overfit grounding and segmentation datasets. Such a design would inevitably cause a catastrophic diminution in the indispensable conversational capability of general AI assistants. In this paper, we comprehensively evaluate state-of-the-art grounding LMMs across a suite of multimodal question-answering benchmarks, observing drastic performance drops that indicate vanishing general knowledge comprehension and weakened instruction following ability. To address this issue, we present F-LMM — grounding frozen off-the-shelf LMMs in human-AI conversations — a straightforward yet effective design based on the fact that word-pixel correspondences conducive to visual grounding inherently exist in the attention mechanism of well-trained LMMs. Using only a few trainable CNN layers, we can translate word-pixel attention weights to mask logits, which a SAM-based mask refiner can further optimise. Our F-LMM neither learns special segmentation tokens nor utilises high-quality grounded instruction-tuning data, but achieves competitive performance on referring expression segmentation and panoptic narrative grounding benchmarks while completely preserving LMMs’ original conversational ability. Additionally, with instruction-following ability preserved and grounding ability obtained, F-LMM can be directly applied to complex tasks like reasoning segmentation, grounded conversation generation and visual chain-of-thought reasoning. Our code can be found at https://github.com/wusize/F-LMM.
arxiv情報
著者 | Size Wu,Sheng Jin,Wenwei Zhang,Lumin Xu,Wentao Liu,Wei Li,Chen Change Loy |
発行日 | 2025-04-11 14:21:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google