要約
コンピュータ ビジョンにおけるオブジェクト検出には、従来、画像内のオブジェクトを識別することが含まれていました。
テキストによる説明を統合することで、このプロセスが強化され、より良いコンテキストと正確性が提供されます。
MDETR モデルは、画像データとテキスト データを組み合わせて、より汎用性の高いオブジェクトの検出と分類を行うことで、これを大幅に進歩させます。
ただし、MDETR の複雑さと高い計算要求が実用化の妨げとなっています。
このペーパーでは、堅牢なマルチモーダル機能を維持しながら計算効率を向上させるように設計された最適化された MDETR バリアントである Lightweight MDETR (LightMDETR) を紹介します。
私たちのアプローチには、MDETR バックボーンを凍結し、画像とテキストのモダリティを表現するために唯一のコンポーネントである Deep Fusion Encoder (DFE) をトレーニングすることが含まれます。
学習可能なコンテキスト ベクトルにより、DFE はこれらのモダリティを切り替えることができます。
RefCOCO、RefCOCO+、RefCOCOg などのデータセットの評価では、LightMDETR が優れた精度と精度を達成していることが実証されています。
要約(オリジナル)
Object detection in computer vision traditionally involves identifying objects in images. By integrating textual descriptions, we enhance this process, providing better context and accuracy. The MDETR model significantly advances this by combining image and text data for more versatile object detection and classification. However, MDETR’s complexity and high computational demands hinder its practical use. In this paper, we introduce Lightweight MDETR (LightMDETR), an optimized MDETR variant designed for improved computational efficiency while maintaining robust multimodal capabilities. Our approach involves freezing the MDETR backbone and training a sole component, the Deep Fusion Encoder (DFE), to represent image and text modalities. A learnable context vector enables the DFE to switch between these modalities. Evaluation on datasets like RefCOCO, RefCOCO+, and RefCOCOg demonstrates that LightMDETR achieves superior precision and accuracy.
arxiv情報
著者 | Binta Sow,Bilal Faye,Hanane Azzag,Mustapha Lebbah |
発行日 | 2024-08-20 12:27:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google