MM-CamObj: A Comprehensive Multimodal Dataset for Camouflaged Object Scenarios

要約

大規模ビジュアル言語モデル (LVLM) は、複数のアプリケーションで大きな成功を収めています。
ただし、複雑なシーン、特にカモフラージュされたオブジェクトが関係するシーンでは依然として課題に直面しています。
これは主に、トレーニング データセット内に偽装されたシーンに関連するサンプルが不足していることが原因です。
この問題を軽減するために、CamObj-Align と CamObj-Instruct の 2 つのサブセットで構成される MM-CamObj データセットを初めて構築します。
具体的には、CamObj-Align には 11,363 個の画像とテキストのペアが含まれており、VL の位置合わせと、カモフラージュされたシーンに関する豊富な知識を LVLM に注入するように設計されています。
CamObj-Instruct は、命令追従機能が向上して LVLM を微調整するために収集されており、さまざまな命令を含む 11,363 枚の画像と 68,849 件の会話が含まれています。
MM-CamObj データセットに基づいて、カモフラージュされたシーンでのタスクに対処するために特別に設計された LVLM である CamObj-Llava を提案します。
カモフラージュされたオブジェクトやシーンに関する知識をモデルが効果的に取得できるようにするために、6 つの異なるモードを備えたカリキュラム学習戦略を導入します。
さらに、CamObj-Bench を構築して、迷彩シーンにおける理解、認識、位置特定、およびカウントに関する既存の LVLM の機能を評価します。
このベンチマークには、600 枚の画像と 7 つのタスク、合計 9,449 の質問が含まれています。
CamObj-Llava、8 つの既存のオープンソース LVLM、および 3 つのクローズドソース LVLM を使用して、CamObj-Bench で広範な実験が行われています。
驚くべきことに、結果は、GPT-4o と比較して、私たちのモデルが 7 つのタスクのうち 4 つで 25.84% の改善を達成していることを示しています。
コードとデータセットは https://github.com/JCruan519/MM-CamObj で入手できます。

要約(オリジナル)

Large visual-language models (LVLMs) have achieved great success in multiple applications. However, they still encounter challenges in complex scenes, especially those involving camouflaged objects. This is primarily due to the lack of samples related to camouflaged scenes in the training dataset. To mitigate this issue, we construct the MM-CamObj dataset for the first time, comprising two subsets: CamObj-Align and CamObj-Instruct. Specifically, CamObj-Align contains 11,363 image-text pairs, and it is designed for VL alignment and injecting rich knowledge of camouflaged scenes into LVLMs. CamObj-Instruct is collected for fine-tuning the LVLMs with improved instruction-following capabilities, and it includes 11,363 images and 68,849 conversations with diverse instructions. Based on the MM-CamObj dataset, we propose the CamObj-Llava, an LVLM specifically designed for addressing tasks in camouflaged scenes. To facilitate our model’s effective acquisition of knowledge about camouflaged objects and scenes, we introduce a curriculum learning strategy with six distinct modes. Additionally, we construct the CamObj-Bench to evaluate the existing LVLMs’ capabilities of understanding, recognition, localization and count in camouflage scenes. This benchmark includes 600 images and 7 tasks, with a total of 9,449 questions. Extensive experiments are conducted on the CamObj-Bench with CamObj-Llava, 8 existing open-source and 3 closed-source LVLMs. Surprisingly, the results indicate that our model achieves a 25.84% improvement in 4 out of 7 tasks compared to GPT-4o. Code and datasets will be available at https://github.com/JCruan519/MM-CamObj.

arxiv情報

著者 Jiacheng Ruan,Wenzhen Yuan,Zehao Lin,Ning Liao,Zhiyu Li,Feiyu Xiong,Ting Liu,Yuzhuo Fu
発行日 2024-09-24 13:34:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク