MobileInst: Video Instance Segmentation on the Mobile

要約

ビデオインスタンスのセグメンテーションを目的とした最近のアプローチは有望な結果を達成していますが、モバイルデバイス上の実際のアプリケーションにこれらのアプローチを採用することは依然として困難であり、主に(1)大量の計算とメモリのコスト、および(2)追跡のための複雑なヒューリスティックに悩まされています。
オブジェクト。
これらの問題に対処するために、モバイル デバイスでビデオ インスタンスをセグメンテーションするための軽量でモバイル対応のフレームワークである MobileInst を紹介します。
まず、MobileInst はモバイル ビジョン トランスフォーマーを採用してマルチレベルのセマンティック特徴を抽出し、マスク カーネル用の効率的なクエリベースのデュアル トランスフォーマー インスタンス デコーダーと、フレームごとにインスタンス セグメンテーションを生成するセマンティック強化マスク デコーダーを提供します。
第 2 に、MobileInst は単純でありながら効果的なカーネルの再利用とカーネルの関連付けを利用して、ビデオ インスタンス セグメンテーション用のオブジェクトを追跡します。
さらに、カーネルの追跡機能を強化するために、一時的なクエリの受け渡しを提案します。
COCO および YouTube-VIS データセットで実験を行い、MobileInst の優位性を実証し、他の高速化方法を使用せずに、Qualcomm Snapdragon-778G のモバイル CPU コアでの推論レイテンシを評価します。
COCO データセットでは、MobileInst はモバイル CPU で 30.5 マスク AP と 176 ミリ秒を達成し、以前の SOTA と比較してレイテンシを 50% 削減します。
動画インスタンスのセグメンテーションでは、MobileInst は YouTube-VIS 2019 で 35.0 AP、YouTube-VIS 2021 で 30.1 AP を達成しています。コードは、実際のアプリケーションと将来の研究を促進するために利用できます。

要約(オリジナル)

Although recent approaches aiming for video instance segmentation have achieved promising results, it is still difficult to employ those approaches for real-world applications on mobile devices, which mainly suffer from (1) heavy computation and memory cost and (2) complicated heuristics for tracking objects. To address those issues, we present MobileInst, a lightweight and mobile-friendly framework for video instance segmentation on mobile devices. Firstly, MobileInst adopts a mobile vision transformer to extract multi-level semantic features and presents an efficient query-based dual-transformer instance decoder for mask kernels and a semantic-enhanced mask decoder to generate instance segmentation per frame. Secondly, MobileInst exploits simple yet effective kernel reuse and kernel association to track objects for video instance segmentation. Further, we propose temporal query passing to enhance the tracking ability for kernels. We conduct experiments on COCO and YouTube-VIS datasets to demonstrate the superiority of MobileInst and evaluate the inference latency on a mobile CPU core of Qualcomm Snapdragon-778G, without other methods of acceleration. On the COCO dataset, MobileInst achieves 30.5 mask AP and 176 ms on the mobile CPU, which reduces the latency by 50% compared to the previous SOTA. For video instance segmentation, MobileInst achieves 35.0 AP on YouTube-VIS 2019 and 30.1 AP on YouTube-VIS 2021. Code will be available to facilitate real-world applications and future research.

arxiv情報

著者 Renhong Zhang,Tianheng Cheng,Shusheng Yang,Haoyi Jiang,Shuai Zhang,Jiancheng Lyu,Xin Li,Xiaowen Ying,Dashan Gao,Wenyu Liu,Xinggang Wang
発行日 2023-03-30 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク