Gameplay Highlights Generation

要約

この作業では、ゲームプレイセッションから人目を引くハイライトリールを自動的に生成することにより、ゲーマーがソーシャルメディアでゲームエクスペリエンスを共有できるようになります。
興味深いイベントが発生したビデオの間隔を最初に識別し、それを連結することにより、ハイライト生成の問題にアプローチします。
Via Video Antatorを使用して人間が注釈した興味深いイベントを含む社内のゲームプレイイベント検出データセットを開発しました。
ゲームエンジンの統合など、検出を強調するための従来の手法には、ゲーム開発者との高価なコラボレーションが必要です。
特定の画像またはテキストのパッチを検出するOCRテクニックは、ゲームエンジニアリングごとに高価なものを必要とし、ゲームUIや異なる言語に一般化できない場合があります。
ゲームエンジニアリングなしでジャンルの複数のゲームに一般化するデータセットを使用して、X-Clipなどのマルチモーダル汎用ビデオ理解モデルを獲得しました。
このマルチモーダルモデルの分類パフォーマンスを改善するために、プロンプトエンジニアリングが実行されました。
私たちの評価は、このような微調ューされたモデルが、90%以上の精度で目に見えないゲームプレイ映像からゲームを撮影する一人称の興味深いイベントを検出できることを示しました。
さらに、私たちのモデルは、高リソースゲームと一緒にトレーニングされたときに、低リソースゲーム(小さなデータセット)で大幅に優れたパフォーマンスを発揮し、転送学習の兆候を示しています。
モデルの生産を準備するために、ONNXライブラリを使用して、クロスプラットフォームの推論を可能にしました。
これらのライブラリは、モデルのサイズと展開時間を短縮するためのトレーニング後の量子化ツールも提供します。
DirectMLバックエンドを備えたONNXランタイムライブラリを使用して、Windows OSで効率的な推論を実行しました。
X-Clipモデルの自然言語の監督が、データ効率が高くパフォーマンスの高いビデオ認識モデルにつながることを示しています。

要約(オリジナル)

In this work, we enable gamers to share their gaming experience on social media by automatically generating eye-catching highlight reels from their gameplay session Our automation will save time for gamers while increasing audience engagement. We approach the highlight generation problem by first identifying intervals in the video where interesting events occur and then concatenate them. We developed an in-house gameplay event detection dataset containing interesting events annotated by humans using VIA video annotator. Traditional techniques for highlight detection such as game engine integration requires expensive collaboration with game developers. OCR techniques which detect patches of specific images or texts require expensive per game engineering and may not generalize across game UI and different language. We finetuned a multimodal general purpose video understanding model such as X-CLIP using our dataset which generalizes across multiple games in a genre without per game engineering. Prompt engineering was performed to improve the classification performance of this multimodal model. Our evaluation showed that such a finetuned model can detect interesting events in first person shooting games from unseen gameplay footage with more than 90% accuracy. Moreover, our model performed significantly better on low resource games (small dataset) when trained along with high resource games, showing signs of transfer learning. To make the model production ready, we used ONNX libraries to enable cross platform inference. These libraries also provide post training quantization tools to reduce model size and inference time for deployment. ONNX runtime libraries with DirectML backend were used to perform efficient inference on Windows OS. We show that natural language supervision in the X-CLIP model leads to data efficient and highly performant video recognition models.

arxiv情報

著者 Vignesh Edithal,Le Zhang,Ilia Blank,Imran Junejo
発行日 2025-05-12 16:28:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク