PRVQL: Progressive Knowledge-guided Refinement for Robust Egocentric Visual Query Localization

要約

エゴセントリックビジュアルクエリローカリゼーション(EGOVQL)は、視覚的なクエリを考慮して、一人称ビデオからの空間と時間の関心のターゲットをローカライズすることに焦点を当てています。
最近の進歩的なものにもかかわらず、既存の方法は、十分なターゲットの手がかりが欠けているため、深刻なオブジェクトの外観の変化とビデオの乱雑な背景を処理するのに苦労することが多く、劣化につながります。
これに対処するには、eGoVQLの新しい進歩的な知識誘導精製フレームワークであるPRVQLを紹介します。
コアは、ターゲット関連の知識をビデオから直接継続的に活用し、ターゲットローカリゼーションを改善するためのクエリ機能とビデオ機能の両方を改善するためのガイダンスとしてそれを利用することです。
PRVQLには複数の処理段階が含まれています。
2つの特別に設計された知識学習モジュールを介して抽出された外観と空間知識を含む1つの段階からのターゲット知識は、次の段階のクエリとビデオ機能を改良するためのガイダンスとして利用されます。
このような進歩的なプロセスにより、PRVQLのターゲット知識を徐々に改善することができます。これにより、最終段階でローカライズのための洗練されたクエリとビデオ機能が向上します。
以前の方法と比較して、指定されたオブジェクトのキューに加えて、PRVQLは、機能を改良するためのガイダンスとしてビデオからの追加の重要なターゲット情報を享受しているため、複雑なシーンでEGOVQLを強化します。
挑戦的なEGO4Dに関する実験では、PRVQLは最先端の結果を達成し、他の方法を大幅に上回り、その有効性を示しています。
コード、モデル、および結果は、https://github.com/fb-reps/prvqlでリリースされます。

要約(オリジナル)

Egocentric visual query localization (EgoVQL) focuses on localizing the target of interest in space and time from first-person videos, given a visual query. Despite recent progressive, existing methods often struggle to handle severe object appearance changes and cluttering background in the video due to lacking sufficient target cues, leading to degradation. Addressing this, we introduce PRVQL, a novel Progressive knowledge-guided Refinement framework for EgoVQL. The core is to continuously exploit target-relevant knowledge directly from videos and utilize it as guidance to refine both query and video features for improving target localization. Our PRVQL contains multiple processing stages. The target knowledge from one stage, comprising appearance and spatial knowledge extracted via two specially designed knowledge learning modules, are utilized as guidance to refine the query and videos features for the next stage, which are used to generate more accurate knowledge for further feature refinement. With such a progressive process, target knowledge in PRVQL can be gradually improved, which, in turn, leads to better refined query and video features for localization in the final stage. Compared to previous methods, our PRVQL, besides the given object cues, enjoys additional crucial target information from a video as guidance to refine features, and hence enhances EgoVQL in complicated scenes. In our experiments on challenging Ego4D, PRVQL achieves state-of-the-art result and largely surpasses other methods, showing its efficacy. Our code, model and results will be released at https://github.com/fb-reps/PRVQL.

arxiv情報

著者 Bing Fan,Yunhe Feng,Yapeng Tian,Yuewei Lin,Yan Huang,Heng Fan
発行日 2025-02-11 17:04:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク