要約
サッカーは世界的に人気があり、多くの視聴者を抱えるスポーツです。本論文では、視聴者の視聴体験を向上させるためにサッカー試合の自動実況モデルを構築することを検討します。
一般に、私たちは次のような貢献をしています。 まず、既存のデータセットで蔓延しているビデオとテキストのずれを観察し、49 試合のタイムスタンプに手動で注釈を付け、SN-Caption-test-align と呼ばれる、サッカーの試合解説生成のためのより堅牢なベンチマークを確立しました。
;
2 番目に、既存のデータセットを大規模に自動的に修正およびフィルタリングして、MatchTime と呼ばれる、トレーニング用の高品質なサッカー ゲーム実況データセットを作成するマルチモーダル時間調整パイプラインを提案します。
3 番目に、厳選されたデータセットに基づいて、MatchVoice という名前の自動コメント生成モデルをトレーニングします。
広範な実験とアブレーション研究により、アライメント パイプラインの有効性が実証されており、厳選されたデータセットのトレーニング モデルは、コメント生成の最先端のパフォーマンスを達成し、より適切なアライメントが下流タスクのパフォーマンスの大幅な向上につながる可能性があることを示しています。
要約(オリジナル)
Soccer is a globally popular sport with a vast audience, in this paper, we consider constructing an automatic soccer game commentary model to improve the audiences’ viewing experience. In general, we make the following contributions: First, observing the prevalent video-text misalignment in existing datasets, we manually annotate timestamps for 49 matches, establishing a more robust benchmark for soccer game commentary generation, termed as SN-Caption-test-align; Second, we propose a multi-modal temporal alignment pipeline to automatically correct and filter the existing dataset at scale, creating a higher-quality soccer game commentary dataset for training, denoted as MatchTime; Third, based on our curated dataset, we train an automatic commentary generation model, named MatchVoice. Extensive experiments and ablation studies have demonstrated the effectiveness of our alignment pipeline, and training model on the curated datasets achieves state-of-the-art performance for commentary generation, showcasing that better alignment can lead to significant performance improvements in downstream tasks.
arxiv情報
著者 | Jiayuan Rao,Haoning Wu,Chang Liu,Yanfeng Wang,Weidi Xie |
発行日 | 2024-06-26 17:57:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google