要約
私たちの世界はさまざまな行動に満ちており、私たち人間はそれを特定し、理解しようと努める特殊な領域を越えて移動します。
単一ドメイン内では、アクションが非常に似ているように見えることがよくあるため、深いモデルがそれらを正確に区別することが困難になります。
このような行動の認識を支援するマルチモーダル基礎モデルの有効性を評価するために、さまざまなスポーツの短いビデオをフィーチャーした多肢選択ビデオ質問応答ベンチマークである ActionAtlas v1.0 を紹介します。
データセット内の各ビデオは、質問と 4 つまたは 5 つの選択肢とペアになっています。
この質問は特定の個人を特定し、特定の時間的文脈内での行動を「最もよく」表す選択肢はどれかを尋ねます。
全体として、データセットには、56 スポーツにわたる 580 のユニークなアクションを紹介する 934 のビデオが含まれており、選択肢には合計 1896 のアクションが含まれています。
多くの場合単一フレームから識別可能な単純なアクションのみを対象とする既存のほとんどのビデオ質問応答ベンチマークとは異なり、ActionAtlas は複雑な動きに焦点を当て、各ドメイン内で似ている動き間の微妙な違いを識別するモデルの能力を厳密にテストします。
このベンチマークでオープンな独自の基盤モデルを評価したところ、最良のモデルである GPT-4o が最大精度 45.52% を達成していることがわかりました。
一方、各選択肢のアクションの説明を与えられた非専門的なクラウド ワーカーは、ランダムな確率が約 21% の場合、61.64% の精度を達成します。
最先端のモデルに関する私たちの調査結果は、ActionAtlas でアクションを正確に認識するには、高いフレーム サンプリング レートが重要であることを示しています。この機能は、Gemini などの一部の主要な独自ビデオ モデルのデフォルト設定に含まれていません。
要約(オリジナル)
Our world is full of varied actions and moves across specialized domains that we, as humans, strive to identify and understand. Within any single domain, actions can often appear quite similar, making it challenging for deep models to distinguish them accurately. To evaluate the effectiveness of multimodal foundation models in helping us recognize such actions, we present ActionAtlas v1.0, a multiple-choice video question answering benchmark featuring short videos across various sports. Each video in the dataset is paired with a question and four or five choices. The question pinpoints specific individuals, asking which choice ‘best’ describes their action within a certain temporal context. Overall, the dataset includes 934 videos showcasing 580 unique actions across 56 sports, with a total of 1896 actions within choices. Unlike most existing video question answering benchmarks that only cover simplistic actions, often identifiable from a single frame, ActionAtlas focuses on intricate movements and rigorously tests the model’s capability to discern subtle differences between moves that look similar within each domain. We evaluate open and proprietary foundation models on this benchmark, finding that the best model, GPT-4o, achieves a maximum accuracy of 45.52%. Meanwhile, Non-expert crowd workers, provided with action description for each choice, achieve 61.64% accuracy, where random chance is approximately 21%. Our findings with state-of-the-art models indicate that having a high frame sampling rate is important for accurately recognizing actions in ActionAtlas, a feature that some leading proprietary video models, such as Gemini, do not include in their default configuration.
arxiv情報
著者 | Mohammadreza Salehi,Jae Sung Park,Tanush Yadav,Aditya Kusupati,Ranjay Krishna,Yejin Choi,Hannaneh Hajishirzi,Ali Farhadi |
発行日 | 2024-11-11 17:06:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google