EfficientViT-SAM: Accelerated Segment Anything Model Without Performance Loss


私たちは、加速されたセグメント何でもモデルの新しいファミリーである EfficientViT-SAM を紹介します。
SAM の軽量のプロンプト エンコーダとマスク デコーダを維持し、重い画像エンコーダを EfficientViT に置き換えます。
トレーニングでは、SAM-ViT-H 画像エンコーダーから EfficientViT への知識の蒸留から始めます。
続いて、SA-1B データセットでエンドツーエンドのトレーニングを実施します。
EfficientViT の効率と容量の恩恵を受ける EfficientViT-SAM は、パフォーマンスを犠牲にすることなく、A100 GPU 上で SAM-ViT-H と比較して 48.9 倍の TensorRT 速度の測定値を実現します。
私たちのコードと事前トレーニングされたモデルは https://github.com/mit-han-lab/efficientvit でリリースされています。


We present EfficientViT-SAM, a new family of accelerated segment anything models. We retain SAM’s lightweight prompt encoder and mask decoder while replacing the heavy image encoder with EfficientViT. For the training, we begin with the knowledge distillation from the SAM-ViT-H image encoder to EfficientViT. Subsequently, we conduct end-to-end training on the SA-1B dataset. Benefiting from EfficientViT’s efficiency and capacity, EfficientViT-SAM delivers 48.9x measured TensorRT speedup on A100 GPU over SAM-ViT-H without sacrificing performance. Our code and pre-trained models are released at https://github.com/mit-han-lab/efficientvit.


著者 Zhuoyang Zhang,Han Cai,Song Han
発行日 2024-02-07 16:28:36+00:00
