要約
このペーパーでは、オープン語彙ビデオ インスタンス セグメンテーション (OV-VIS) をリアルタイムで実行するという課題に取り組みます。
OV-VISを実行する最先端の基礎モデルの計算ボトルネックを解析し、高精度を維持しながら処理速度を大幅に向上させる新手法TROY-VISを提案します。
3 つの主要なテクニックを紹介します。(1) 異なるモダリティとスケール間の情報のやり取りを高速化する分離された注意機能エンハンサー。
(2) オブジェクト カテゴリの高速テキスト埋め込みを取得するためのフラッシュ埋め込みメモリ。
(3) ビデオの時間的連続性を利用するためのカーネル補間。
私たちの実験では、TROY-VIS が 2 つの大規模な OV-VIS ベンチマーク、BURST と LV-VIS で精度と速度の間で最良のトレードオフを実現し、GLEE-Lite よりも 20 倍高速 (25 FPS 対 1.25 FPS) で同等または同等の速度で動作することが実証されました。
さらに精度が向上します。
これらの結果は、モバイル ロボット工学や拡張現実などの動的環境におけるリアルタイム アプリケーションに対する TROY-VIS の可能性を示しています。
コードとモデルは https://github.com/google-research/troyvis で公開されます。
要約(オリジナル)
In this paper, we address the challenge of performing open-vocabulary video instance segmentation (OV-VIS) in real-time. We analyze the computational bottlenecks of state-of-the-art foundation models that performs OV-VIS, and propose a new method, TROY-VIS, that significantly improves processing speed while maintaining high accuracy. We introduce three key techniques: (1) Decoupled Attention Feature Enhancer to speed up information interaction between different modalities and scales; (2) Flash Embedding Memory for obtaining fast text embeddings of object categories; and, (3) Kernel Interpolation for exploiting the temporal continuity in videos. Our experiments demonstrate that TROY-VIS achieves the best trade-off between accuracy and speed on two large-scale OV-VIS benchmarks, BURST and LV-VIS, running 20x faster than GLEE-Lite (25 FPS v.s. 1.25 FPS) with comparable or even better accuracy. These results demonstrate TROY-VIS’s potential for real-time applications in dynamic environments such as mobile robotics and augmented reality. Code and model will be released at https://github.com/google-research/troyvis.
arxiv情報
著者 | Bin Yan,Martin Sundermeyer,David Joseph Tan,Huchuan Lu,Federico Tombari |
発行日 | 2024-12-05 18:53:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google