要約
自己学習学習は、効果的に訓練された場合、多数の画像または言語処理の問題を解決できます。
この研究では、以前に学習した基礎モデルをオープンボキャブラリーセマンティックセグメンテーションタスクに適応させるためのシンプルで効率的な方法を調査しました。
私たちの研究では、「ラベルを超えて」、いくつかの画像セグメンテーションデータを使用して凍結画像表現を言語の概念と融合する軽量の変圧器ベースの融合モジュールを提案しました。
さらに、フーリエ埋め込みを使用して画像の位置情報を効率的にキャプチャし、さまざまな画像サイズにわたって一般化を改善しました。
提案された方法の重要なコンポーネントを調査するために、広範なアブレーションテストが実行されました。
一般的なベンチマークPascal-5iに対してテストされたとき、凍結された画像と言語の特性について訓練されているにもかかわらず、優れた性能を示しました。
要約(オリジナル)
Self-supervised learning can resolve numerous image or linguistic processing problems when effectively trained. This study investigated simple yet efficient methods for adaping previously learned foundation models for open-vocabulary semantic segmentation tasks. Our research proposed ‘Beyond-Labels,’ a lightweight transformer-based fusion module that uses a handful of image segmentation data to fuse frozen image representations with language concepts. Furthermore, we efficiently captured positional information in images using Fourier embeddings, thus improving the generalization across various image sizes. Extensive ablation tests were performed to investigate the important components of our proposed method; when tested against the common benchmark PASCAL-5i, it demonstrated superior performance despite being trained on frozen image and language characteristics.
arxiv情報
著者 | Muhammad Atta ur Rahman |
発行日 | 2025-01-28 07:49:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google