Integrated Image-Text Based on Semi-supervised Learning for Small Sample Instance Segmentation

要約

小さなサンプル インスタンスのセグメンテーションは非常に困難なタスクであり、既存のメソッドの多くは、サポート セットでモデルを事前トレーニングし、クエリ セットで微調整するメタ学習のトレーニング戦略に従っています。
タスクとの関連性が高い事前トレーニング段階では、有効性を確保するためにかなりの追加トレーニング時間と、近接したデータセットの選択が必要です。
この記事では、アノテーションの負担やトレーニングのコストを増加させることなく、既存の情報を最大限に活用するという観点から、新しい小規模サンプル インスタンスのセグメンテーション ソリューションを提案しています。
提案された方法は、小さなサンプル インスタンスのセグメンテーションで発生する問題に対処する 2 つのモジュールを設計します。
まず、モデルが擬似ラベルの生成を学習し、利用可能なサンプルの数を増やすことで、ラベルのないデータを最大限に活用できるようになります。
次に、テキストと画像の特徴を統合することで、より正確な分類結果を得ることができます。
これら 2 つのモジュールは、ボックスフリー フレームワークとボックス依存フレームワークに適しています。
このように、提案された方法は、小さなサンプルインスタンスのセグメンテーションのパフォーマンスを向上させるだけでなく、事前トレーニングへの依存を大幅に軽減します。
私たちは、陸上、水中、顕微鏡下のさまざまなシーンからの 3 つのデータセットで実験を実施しました。
私たちの実験で証明されたように、統合された画像とテキストは分類の信頼度を修正し、擬似ラベルはモデルがより正確なマスクを取得するのに役立ちます。
すべての結果は、私たちの方法の有効性と優位性を示しています。

要約(オリジナル)

Small sample instance segmentation is a very challenging task, and many existing methods follow the training strategy of meta-learning which pre-train models on support set and fine-tune on query set. The pre-training phase, which is highly task related, requires a significant amount of additional training time and the selection of datasets with close proximity to ensure effectiveness. The article proposes a novel small sample instance segmentation solution from the perspective of maximizing the utilization of existing information without increasing annotation burden and training costs. The proposed method designs two modules to address the problems encountered in small sample instance segmentation. First, it helps the model fully utilize unlabeled data by learning to generate pseudo labels, increasing the number of available samples. Second, by integrating the features of text and image, more accurate classification results can be obtained. These two modules are suitable for box-free and box-dependent frameworks. In the way, the proposed method not only improves the performance of small sample instance segmentation, but also greatly reduce reliance on pre-training. We have conducted experiments in three datasets from different scenes: on land, underwater and under microscope. As evidenced by our experiments, integrated image-text corrects the confidence of classification, and pseudo labels help the model obtain preciser masks. All the results demonstrate the effectiveness and superiority of our method.

arxiv情報

著者 Ruting Chi,Zhiyi Huang,Yuexing Han
発行日 2024-10-21 14:44:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク