Generalized SAM: Efficient Fine-Tuning of SAM for Variable Input Image Sizes

要約

最近では、基礎モデルの微調整の効率を向上させるための研究が数多く行われています。
本稿では、Segment Anything Model (SAM) の入力画像サイズを可変できる、新しい効率的な微調整方法を提案します。
SAM は、巨大なデータセットでトレーニングされた画像セグメンテーションのための強力な基礎モデルですが、任意のクラスを認識するには微調整が必​​要です。
SAM の入力画像サイズは 1024 x 1024 に固定されているため、トレーニング中にかなりの計算量が必要になります。
さらに、入力画像サイズが固定されていると、画像情報が失われる可能性があります。
アスペクト比が固定されているため。
この問題に対処するために、汎用 SAM (GSAM) を提案します。
これまでの方法とは異なり、GSAM は SAM を使用したトレーニング中にランダム クロッピングを初めて適用するため、トレーニングの計算コストが大幅に削減されます。
さまざまなタイプおよびさまざまなピクセル数のデータセットでの実験により、GSAM は SAM やその他の SAM 微調整方法よりも効率的にトレーニングでき、同等以上の精度を達成できることが示されました。

要約(オリジナル)

There has been a lot of recent research on improving the efficiency of fine-tuning foundation models. In this paper, we propose a novel efficient fine-tuning method that allows the input image size of Segment Anything Model (SAM) to be variable. SAM is a powerful foundational model for image segmentation trained on huge datasets, but it requires fine-tuning to recognize arbitrary classes. The input image size of SAM is fixed at 1024 x 1024, resulting in substantial computational demands during training. Furthermore, the fixed input image size may result in the loss of image information, e.g. due to fixed aspect ratios. To address this problem, we propose Generalized SAM (GSAM). Different from the previous methods, GSAM is the first to apply random cropping during training with SAM, thereby significantly reducing the computational cost of training. Experiments on datasets of various types and various pixel counts have shown that GSAM can train more efficiently than SAM and other fine-tuning methods for SAM, achieving comparable or higher accuracy.

arxiv情報

著者 Sota Kato,Hinako Mitsuoka,Kazuhiro Hotta
発行日 2024-08-22 13:58:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク