Local-Global Context Aware Transformer for Language-Guided Video Segmentation

要約

言語ガイド付きビデオ セグメンテーション (LVS) のタスクを調査します。
以前のアルゴリズムは主に 3D CNN を採用してビデオ表現を学習していましたが、長期的なコンテキストをキャプチャするのに苦労し、視覚と言語の不一致に悩まされやすかったです。
これを考慮して、効率的な方法で言語表現を使用してビデオ全体をクエリするために、有限メモリで Transformer アーキテクチャを強化する Locater (ローカル-グローバル コンテキスト認識 Transformer) を紹介します。
メモリは 2 つのコンポーネントを含むように設計されています。1 つはグローバル ビデオ コンテンツを永続的に保存するため、もう 1 つはローカルの時間的コンテキストとセグメンテーション履歴を動的に収集するためです。
Locater は、記憶されたローカル/グローバル コンテキストと各フレームの特定のコンテンツに基づいて、各フレームの適応クエリ ベクトルとして表現を総合的かつ柔軟に理解します。
ベクトルは、マスク生成のために対応するフレームを照会するために使用されます。
また、メモリにより、Locator は線形時間計算量と一定サイズのメモリでビデオを処理できるようになり、一方、Transformer スタイルのセルフ アテンションの計算はシーケンスの長さに応じて二次関数的にスケールされます。
LVS モデルの視覚的グラウンディング機能を徹底的に調べるために、私たちは新しい LVS データセットである A2D-S+ を提供しました。これは A2D-S データセットに基づいて構築されていますが、類似したオブジェクト間の曖昧さを排除する際にさらなる課題をもたらします。
3 つの LVS データセットと A2D-S+ での実験では、Locator が以前の最先端技術を上回るパフォーマンスを示しています。
さらに、第 3 回大規模ビデオ オブジェクト セグメンテーション チャレンジの参照ビデオ オブジェクト セグメンテーション トラックで 1 位を獲得しました。このトラックでは、Locator が優勝ソリューションの基盤として機能しました。
コードとデータセットは https://github.com/leonnnop/Locator から入手できます。

要約(オリジナル)

We explore the task of language-guided video segmentation (LVS). Previous algorithms mostly adopt 3D CNNs to learn video representation, struggling to capture long-term context and easily suffering from visual-linguistic misalignment. In light of this, we present Locater (local-global context aware Transformer), which augments the Transformer architecture with a finite memory so as to query the entire video with the language expression in an efficient manner. The memory is designed to involve two components — one for persistently preserving global video content, and one for dynamically gathering local temporal context and segmentation history. Based on the memorized local-global context and the particular content of each frame, Locater holistically and flexibly comprehends the expression as an adaptive query vector for each frame. The vector is used to query the corresponding frame for mask generation. The memory also allows Locater to process videos with linear time complexity and constant size memory, while Transformer-style self-attention computation scales quadratically with sequence length. To thoroughly examine the visual grounding capability of LVS models, we contribute a new LVS dataset, A2D-S+, which is built upon A2D-S dataset but poses increased challenges in disambiguating among similar objects. Experiments on three LVS datasets and our A2D-S+ show that Locater outperforms previous state-of-the-arts. Further, we won the 1st place in the Referring Video Object Segmentation Track of the 3rd Large-scale Video Object Segmentation Challenge, where Locater served as the foundation for the winning solution. Our code and dataset are available at: https://github.com/leonnnop/Locater

arxiv情報

著者 Chen Liang,Wenguan Wang,Tianfei Zhou,Jiaxu Miao,Yawei Luo,Yi Yang
発行日 2024-01-19 13:01:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク