TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation

要約

サッカーは世界的に人気のあるスポーツイベントであり、通常、長い試合と特徴的なハイライトの瞬間が特徴です。
マルチモーダル大手言語モデル(MLLM)の最近の進歩は、時間的接地とビデオの理解に有望な能力を提供します。サッカーの解説生成には、長い形式のビデオよりも正確な時間的局在と意味的に豊富な説明が必要になることがよくあります。
ただし、既存のサッカーMLLMは、多くの場合、キャプション生成のために一時的なアプリオリに依存しているため、サッカーのビデオをエンドツーエンドで処理することはできません。
いくつかの従来のアプローチは、複雑であり、グローバルなコンテキストをキャプチャできない2段階のパラダイムに従いますが、最適ではないパフォーマンスを実現しています。
上記の問題を解決するために、フルマッチサッカービデオのシングルアンカーの密なビデオキャプション(SDVC)の最初のエンドツーエンドのサッカーMLLMであるTimeSoccerを提示します。
TimeSoccerは共同でタイムスタンプを予測し、1回のパスでキャプションを生成し、45分間の試合でグローバルコンテキストモデリングを可能にします。
サッカーの試合の長いビデオ理解をサポートするために、粗から財政の戦略を介して代表的なフレームを適応的に選択し、補完的なトレーニングパラダイムを組み込んで、モデルの長い一時的なシーケンスを処理する能力を強化するための代表的なフレームを適応的に選択するトレーニングフリーのモーション認識フレーム圧縮モジュールであるMofa-Selectを紹介します。
広範な実験は、TimeSoccerがSDVCタスクでエンドツーエンドの形式で最先端の(SOTA)パフォーマンスを達成し、正確な時間的アライメントと強力なセマンティック関連性を備えた高品質の解説を生成することを示しています。

要約(オリジナル)

Soccer is a globally popular sporting event, typically characterized by long matches and distinctive highlight moments. Recent advances in Multimodal Large Language Models (MLLMs) offer promising capabilities in temporal grounding and video understanding, soccer commentary generation often requires precise temporal localization and semantically rich descriptions over long-form video. However, existing soccer MLLMs often rely on the temporal a priori for caption generation, so they cannot process the soccer video end-to-end. While some traditional approaches follow a two-step paradigm that is complex and fails to capture the global context to achieve suboptimal performance. To solve the above issues, we present TimeSoccer, the first end-to-end soccer MLLM for Single-anchor Dense Video Captioning (SDVC) in full-match soccer videos. TimeSoccer jointly predicts timestamps and generates captions in a single pass, enabling global context modeling across 45-minute matches. To support long video understanding of soccer matches, we introduce MoFA-Select, a training-free, motion-aware frame compression module that adaptively selects representative frames via a coarse-to-fine strategy, and incorporates complementary training paradigms to strengthen the model’s ability to handle long temporal sequences. Extensive experiments demonstrate that our TimeSoccer achieves State-of-The-Art (SoTA) performance on the SDVC task in an end-to-end form, generating high-quality commentary with accurate temporal alignment and strong semantic relevance.

arxiv情報

著者 Ling You,Wenxuan Huang,Xinni Xie,Xiangyi Wei,Bangyan Li,Shaohui Lin,Yang Li,Changbo Wang
発行日 2025-04-25 05:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク