Sequential Compositional Generalization in Multimodal Models

要約

大規模なマルチモーダル モデルの台頭により、生成モデリングと推論における画期的な進歩への道が開かれ、さまざまな複雑なタスクで革新的なアプリケーションが可能になりました。
しかし、残された差し迫った問題は、より強力な形式の一般化に対する彼らの真の能力であり、それはマルチモーダル設定ではほとんど研究されていません。
私たちの研究は、\textsc{CompAct} (\underline{Comp}ositional \underline{Act}ivities)\footnote{Project Page: \url{http://cyberiada.github.io/ を使用して逐次構成的一般化を調べることで、この問題に対処することを目的としています。
CompAct}} は、自己中心的なキッチン アクティビティのビデオの豊富な背景内に設定された、慎重に構築され、知覚に基づいたデータセットです。
データセット内の各インスタンスは、生のビデオ映像、自然に発生する音、クラウドソーシングによる段階的な説明の組み合わせで表されます。
さらに重要なことは、私たちの設定により、個々の概念がトレーニング セットと評価セット全体に一貫して分散されると同時に、その構成が評価セット内で新規になることが保証されることです。
私たちは、いくつかの単峰性モデルと多峰性モデルの包括的な評価を実施します。
私たちの調査結果では、バイモーダル モデルとトリモーダル モデルがテキストのみのモデルに比べて明らかな優位性を示していることが明らかになりました。
これは、この分野における将来の研究の軌道を描くと同時に、マルチモダリティの重要性を強調しています。

要約(オリジナル)

The rise of large-scale multimodal models has paved the pathway for groundbreaking advances in generative modeling and reasoning, unlocking transformative applications in a variety of complex tasks. However, a pressing question that remains is their genuine capability for stronger forms of generalization, which has been largely underexplored in the multimodal setting. Our study aims to address this by examining sequential compositional generalization using \textsc{CompAct} (\underline{Comp}ositional \underline{Act}ivities)\footnote{Project Page: \url{http://cyberiada.github.io/CompAct}}, a carefully constructed, perceptually grounded dataset set within a rich backdrop of egocentric kitchen activity videos. Each instance in our dataset is represented with a combination of raw video footage, naturally occurring sound, and crowd-sourced step-by-step descriptions. More importantly, our setup ensures that the individual concepts are consistently distributed across training and evaluation sets, while their compositions are novel in the evaluation set. We conduct a comprehensive assessment of several unimodal and multimodal models. Our findings reveal that bi-modal and tri-modal models exhibit a clear edge over their text-only counterparts. This highlights the importance of multimodality while charting a trajectory for future research in this domain.

arxiv情報

著者 Semih Yagcioglu,Osman Batur İnce,Aykut Erdem,Erkut Erdem,Desmond Elliott,Deniz Yuret
発行日 2024-04-18 09:04:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク