Summarize the Past to Predict the Future: Natural Language Descriptions of Context Boost Multimodal Object Interaction


このタスクには、オブジェクトに対する過去のアクションによって形成された時空間コンテキスト、造語されたアクション コンテキストの理解が必要です。
TransFusion は、事前トレーニング済みの画像キャプションと視覚言語モデルを活用して、過去のビデオ フレームからアクション コンテキストを抽出します。
このアクション コンテキストは、次のビデオ フレームとともにマルチモーダル フュージョン モジュールによって処理され、次のオブジェクトの相互作用が予測されます。
Ego4D と EPIC-KITCHENS-100 での実験は、マルチモーダル フュージョン モデルの有効性を示しています。
また、ビジョンだけで十分と思われるタスクで、言語ベースのコンテキスト サマリーを使用する利点も強調しています。
EPIC-KITCHENS-100 での実験により、TransFusion の有効性を検証します。
ビデオとコードは、 で入手できます。


We study object interaction anticipation in egocentric videos. This task requires an understanding of the spatiotemporal context formed by past actions on objects, coined action context. We propose TransFusion, a multimodal transformer-based architecture. It exploits the representational power of language by summarising the action context. TransFusion leverages pre-trained image captioning and vision-language models to extract the action context from past video frames. This action context together with the next video frame is processed by the multimodal fusion module to forecast the next object interaction. Our model enables more efficient end-to-end learning. The large pre-trained language models add common sense and a generalisation capability. Experiments on Ego4D and EPIC-KITCHENS-100 show the effectiveness of our multimodal fusion model. They also highlight the benefits of using language-based context summaries in a task where vision seems to suffice. Our method outperforms state-of-the-art approaches by 40.4% in relative terms in overall mAP on the Ego4D test set. We validate the effectiveness of TransFusion via experiments on EPIC-KITCHENS-100. Video and code are available at:


著者 Razvan-George Pasca,Alexey Gavryushin,Yen-Ling Kuo,Luc Van Gool,Otmar Hilliges,Xi Wang
発行日 2023-03-22 21:35:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.CV パーマリンク