要約
大規模言語視覚モデル (LLVM) は、インターネット ビデオの処理において有効であることが実証されていますが、関連するデータセットと関連する手がかりに合わせて調整されたモデルが限られているため、日常生活活動 (ADL) に存在する視覚的に複雑なダイナミクスに苦戦しています。
この目的を達成するために、LLVM を微調整するために ADL マルチビュー データセットをキュレーションするためのフレームワークを提案します。その結果、100K RGB ビデオ命令ペア、言語記述、3D スケルトン、およびアクション条件付きオブジェクトの軌跡で構成される ADL-X が作成されます。
LLAVIDAL は、3D ポーズと関連するオブジェクトの軌道を組み込んで、ADL 内の複雑な時空間関係を理解できる LLVM です。
さらに、ADL シナリオにおける LLVM の有効性を定量化するための新しいベンチマーク ADLMCQ を紹介します。
ADL-X でトレーニングすると、LLAVIDAL はすべての ADL 評価指標にわたって一貫して最先端のパフォーマンスを達成します。
定性分析により、ADL を理解する際の LLAVIDAL の時間的推論能力が明らかになります。
データセットへのリンクは、https://adl-x.github.io/ で提供されます。
要約(オリジナル)
Large Language Vision Models (LLVMs) have demonstrated effectiveness in processing internet videos, yet they struggle with the visually perplexing dynamics present in Activities of Daily Living (ADL) due to limited pertinent datasets and models tailored to relevant cues. To this end, we propose a framework for curating ADL multiview datasets to fine-tune LLVMs, resulting in the creation of ADL-X, comprising 100K RGB video-instruction pairs, language descriptions, 3D skeletons, and action-conditioned object trajectories. We introduce LLAVIDAL, an LLVM capable of incorporating 3D poses and relevant object trajectories to understand the intricate spatiotemporal relationships within ADLs. Furthermore, we present a novel benchmark, ADLMCQ, for quantifying LLVM effectiveness in ADL scenarios. When trained on ADL-X, LLAVIDAL consistently achieves state-of-the-art performance across all ADL evaluation metrics. Qualitative analysis reveals LLAVIDAL’s temporal reasoning capabilities in understanding ADL. The link to the dataset is provided at: https://adl-x.github.io/
arxiv情報
著者 | Rajatsubhra Chakraborty,Arkaprava Sinha,Dominick Reilly,Manish Kumar Govind,Pu Wang,Francois Bremond,Srijan Das |
発行日 | 2024-06-13 17:59:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google