要約
Egocentric Hand-Object Interaction (Ego-HOI) への注目の高まりに伴い、Ego4D や EPIC-KITCHEN などの大規模なデータセットが提案されています。
ただし、現在の研究のほとんどは、三人称ビデオのアクション認識から得られたリソースに基づいて構築されています。
一人称アクションビデオと三人称アクションビデオの間に固有の領域のギャップは、これまで適切に対処されていなかったため、現在の Ego-HOI は最適ではありません。
本稿では、Probing, Curation and Adaption (EgoPCA) による Ego-HOI 認識を進めるためのインフラストラクチャとしての新しいフレームワークを再考し、提案します。
私たちは、トレーニングの微調整戦略を備えた包括的な事前トレーニング セット、バランスのとれたテスト セット、および新しいベースラインを提供します。
新しいフレームワークにより、Ego-HOI ベンチマークで最先端のパフォーマンスを達成するだけでなく、さらなる研究を進めるためのいくつかの新しく効果的なメカニズムと設定も構築します。
私たちは、私たちのデータと調査結果が Ego-HOI の理解に新たな道を開くと信じています。
コードとデータは https://mvig-rhos.com/ego_pca で入手できます。
要約(オリジナル)
With the surge in attention to Egocentric Hand-Object Interaction (Ego-HOI), large-scale datasets such as Ego4D and EPIC-KITCHENS have been proposed. However, most current research is built on resources derived from third-person video action recognition. This inherent domain gap between first- and third-person action videos, which have not been adequately addressed before, makes current Ego-HOI suboptimal. This paper rethinks and proposes a new framework as an infrastructure to advance Ego-HOI recognition by Probing, Curation and Adaption (EgoPCA). We contribute comprehensive pre-train sets, balanced test sets and a new baseline, which are complete with a training-finetuning strategy. With our new framework, we not only achieve state-of-the-art performance on Ego-HOI benchmarks but also build several new and effective mechanisms and settings to advance further research. We believe our data and the findings will pave a new way for Ego-HOI understanding. Code and data are available at https://mvig-rhos.com/ego_pca
arxiv情報
著者 | Yue Xu,Yong-Lu Li,Zhemin Huang,Michael Xu Liu,Cewu Lu,Yu-Wing Tai,Chi-Keung Tang |
発行日 | 2023-09-05 17:51:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google