要約
ビデオ言語理解における最近の進歩は、画像-テキストモデルの基礎の上に確立されており、画像とビデオの間で共有される知識により、有望な結果をもたらしている。しかし、ビデオ言語理解には、情報の冗長性、時間依存性、シーンの複雑性といった、非常に複雑な意味的詳細が含まれるため、独自の課題が存在する。現在の技術では、これらの課題に部分的にしか取り組んでおらず、我々の定量的分析によれば、これらの手法のいくつかは補完的である。これを踏まえ、我々はRTQ(Refine, Temporal model, and Query)と呼ばれる、これらの課題に同時に取り組む新しいフレームワークを提案する。このアプローチでは、フレーム内の冗長な情報をリファインし、フレーム間の時間的関係をモデル化し、動画からタスク固有の情報をクエリする。驚くべきことに、我々のモデルはビデオ言語の事前学習がない場合でも卓越した性能を示し、その結果は最先端の事前学習手法と同等かそれ以上である。
要約(オリジナル)
Recent advancements in video-language understanding have been established on the foundation of image-text models, resulting in promising outcomes due to the shared knowledge between images and videos. However, video-language understanding presents unique challenges due to the inclusion of highly complex semantic details, which result in information redundancy, temporal dependency, and scene complexity. Current techniques have only partially tackled these issues, and our quantitative analysis indicates that some of these methods are complementary. In light of this, we propose a novel framework called RTQ (Refine, Temporal model, and Query), which addresses these challenges simultaneously. The approach involves refining redundant information within frames, modeling temporal relations among frames, and querying task-specific information from the videos. Remarkably, our model demonstrates outstanding performance even in the absence of video-language pre-training, and the results are comparable with or superior to those achieved by state-of-the-art pre-training methods.
arxiv情報
著者 | Xiao Wang,Yaoyu Li,Tian Gan,Zheng Zhang,Jingjing Lv,Liqiang Nie |
発行日 | 2023-12-01 04:51:01+00:00 |
arxivサイト | arxiv_id(pdf) |