要約
最近のビデオキャプションモデルの出現にも関わらず、背景知識(つまり、適切な推論を伴うドメイン固有のシーンについての長くて有益な解説)に基づいて、鮮やかできめの細かいビデオ説明を生成する方法はまだ解決されていません。
自動スポーツナレーションなどの優れたアプリケーションがあります。
このペーパーでは、知識ベースのビデオ キャプション (KGVC) としての挑戦的な新しいタスク設定を提案するための、8.9k を超えるサッカー ビデオ クリップ、22k のセンテンス、および 42k の知識トリプルのベンチマークである GOAL を紹介します。
さらに、この貴重で適用可能なタスクを解決するための困難さと潜在的な方向性を示すために、既存の方法の実験的適応を実施します。
データとコードは https://github.com/THU-KEG/goal で入手できます。
要約(オリジナル)
Despite the recent emergence of video captioning models, how to generate vivid, fine-grained video descriptions based on the background knowledge (i.e., long and informative commentary about the domain-specific scenes with appropriate reasoning) is still far from being solved, which however has great applications such as automatic sports narrative. In this paper, we present GOAL, a benchmark of over 8.9k soccer video clips, 22k sentences, and 42k knowledge triples for proposing a challenging new task setting as Knowledge-grounded Video Captioning (KGVC). Moreover, we conduct experimental adaption of existing methods to show the difficulty and potential directions for solving this valuable and applicable task. Our data and code are available at https://github.com/THU-KEG/goal.
arxiv情報
著者 | Ji Qi,Jifan Yu,Teng Tu,Kunyu Gao,Yifan Xu,Xinyu Guan,Xiaozhi Wang,Yuxiao Dong,Bin Xu,Lei Hou,Juanzi Li,Jie Tang,Weidong Guo,Hui Liu,Yu Xu |
発行日 | 2023-10-05 06:55:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google