Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision

要約

エゴセントリック(一人称)とエクソセントリック(サードパーソン)の両方の視点から世界を認識することは、人間の認知の基本であり、動的環境の豊かで補完的な理解を可能にします。
近年、これらの二重の視点の相乗的可能性を機械が活用できるようにすることは、ビデオ理解における説得力のある研究の方向として浮上しています。
この調査では、外心部と自己中心の両​​方の視点からのビデオ理解の包括的なレビューを提供します。
まず、ドメイン全体での潜在的なコラボレーションを想定して、エゴセントリックおよびエキソセントリックな技術を統合する実用的なアプリケーションを強調することから始めます。
次に、これらのアプリケーションを実現するために重要な研究タスクを特定します。
次に、最近の進歩を体系的に整理してレビューし、3つの主要な研究方向性になりました。(1)エクソセントリックな理解を高めるためにエゴセントリックデータを活用し、(2)エキソコン状データを利用してエゴセントリック分析を改善する、(3)両方の視点を統合する共同学習フレームワーク。
各方向について、多様なタスクと関連する作業のセットを分析します。
さらに、両方の視点での研究をサポートするベンチマークデータセットについて説明し、その範囲、多様性、および適用性を評価します。
最後に、現在の作品の制限について説明し、有望な将来の研究の方向性を提案します。
両方の観点から洞察を統合することにより、私たちの目標は、ビデオ理解と人工知能の進歩を刺激し、機械を人間のような方法で世界を知覚することに近づけることです。
関連する作品のGithubリポジトリは、https://github.com/ayiyayi/awesome-egocicentric-and-exocentric-visionにあります。

要約(オリジナル)

Perceiving the world from both egocentric (first-person) and exocentric (third-person) perspectives is fundamental to human cognition, enabling rich and complementary understanding of dynamic environments. In recent years, allowing the machines to leverage the synergistic potential of these dual perspectives has emerged as a compelling research direction in video understanding. In this survey, we provide a comprehensive review of video understanding from both exocentric and egocentric viewpoints. We begin by highlighting the practical applications of integrating egocentric and exocentric techniques, envisioning their potential collaboration across domains. We then identify key research tasks to realize these applications. Next, we systematically organize and review recent advancements into three main research directions: (1) leveraging egocentric data to enhance exocentric understanding, (2) utilizing exocentric data to improve egocentric analysis, and (3) joint learning frameworks that unify both perspectives. For each direction, we analyze a diverse set of tasks and relevant works. Additionally, we discuss benchmark datasets that support research in both perspectives, evaluating their scope, diversity, and applicability. Finally, we discuss limitations in current works and propose promising future research directions. By synthesizing insights from both perspectives, our goal is to inspire advancements in video understanding and artificial intelligence, bringing machines closer to perceiving the world in a human-like manner. A GitHub repo of related works can be found at https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.

arxiv情報

著者 Yuping He,Yifei Huang,Guo Chen,Lidong Lu,Baoqi Pei,Jilan Xu,Tong Lu,Yoichi Sato
発行日 2025-06-06 17:25:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク