要約
本論文では,CVPR 2022におけるEgo4D natural language query challengeの技術報告を行う.自然言語問い合わせタスクは、ビデオコンテンツを包括的に理解する必要があるため、挑戦的なタスクである。これまでの研究では、三人称視点データセットに基づいてこのタスクに取り組んでおり、自我中心視点に関心を持つ研究者はこれまでほとんどいなかった。しかし、Ego4Dなどの自我中心視点データセットでは、以下の2つの理由により、先行研究がうまく適応できないことが分かっている。1) Ego4Dのクエリの多くは、5秒以下と非常に短い時間幅であること、2) Ego4Dのクエリは、より複雑な長期的時間順序の映像理解に直面していること、です。これらを考慮し、我々は上記の問題を解決するために、本課題の解決策を提案する。
要約(オリジナル)
In this paper we provide the technique report of Ego4D natural language query challenge in CVPR 2022. Natural language query task is challenging due to the requirement of comprehensive understanding of video contents. Most previous works address this task based on third-person view datasets while few research interest has been placed in the ego-centric view by far. Great progress has been made though, we notice that previous works can not adapt well to ego-centric view datasets e.g., Ego4D mainly because of two reasons: 1) most queries in Ego4D have a excessively small temporal duration (e.g., less than 5 seconds); 2) queries in Ego4D are faced with much more complex video understanding of long-term temporal orders. Considering these, we propose our solution of this challenge to solve the above issues.
arxiv情報
著者 | Sipeng Zheng,Qi Zhang,Bei Liu,Qin Jin,Jianlong Fu |
発行日 | 2022-08-10 14:43:37+00:00 |
arxivサイト | arxiv_id(pdf) |