ViLPAct: A Benchmark for Compositional Generalization on Multimodal Human Activities

要約

人間の活動計画のための新しい視覚言語ベンチマークである ViLPAct を紹介します。
これは、具体化された AI エージェントが、人間の初期の活動とテキストの意図に関するビデオ クリップに基づいて、人間の将来の行動を推論および予測できるタスク用に設計されています。
このデータセットは、クラウドソーシング、多肢選択問題テスト セット、および 4 つの強力なベースラインを介して意図を拡張した \charades からの 2.9k ビデオで構成されています。
ベースラインの 1 つは、マルチモーダル ナレッジ ベース (MKB) に基づくニューロシンボリック アプローチを実装し、他のベースラインは、最新の最先端 (SOTA) メソッドから適応された深い生成モデルです。
私たちの広範な実験によると、重要な課題は、構成の一般化と両方のモダリティからの情報の効果的な使用です。

要約(オリジナル)

We introduce ViLPAct, a novel vision-language benchmark for human activity planning. It is designed for a task where embodied AI agents can reason and forecast future actions of humans based on video clips about their initial activities and intents in text. The dataset consists of 2.9k videos from \charades extended with intents via crowdsourcing, a multi-choice question test set, and four strong baselines. One of the baselines implements a neurosymbolic approach based on a multi-modal knowledge base (MKB), while the other ones are deep generative models adapted from recent state-of-the-art (SOTA) methods. According to our extensive experiments, the key challenges are compositional generalization and effective use of information from both modalities.

arxiv情報

著者 Terry Yue Zhuo,Yaqing Liao,Yuecheng Lei,Lizhen Qu,Gerard de Melo,Xiaojun Chang,Yazhou Ren,Zenglin Xu
発行日 2023-03-09 11:04:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク