要約
領域のランダム化は、類似した内容を持つ視覚的に異なる領域間での視覚モデルの移植性を高める。しかし、現在の方法は複雑なシミュレーションエンジンに大きく依存しており、実現性と拡張性を妨げている。本論文では、シミュレーションエンジンにアクセスすることなく、既存の商用ビデオゲームをドメインランダマイゼーションに利用するビデオ理解フレームワークBehAVEを紹介する。BehAVEはランダム化のためにビデオゲームの視覚的多様性を利用し、プレイヤーのアクションのテキスト記述を利用して、類似したコンテンツのビデオを整列させる。我々は、様々なビデオとテキスト基盤モデルを用いて、25のファーストパーソン・シューティングゲーム(FPS)においてBehAVEを評価し、ドメインランダマイゼーションにおけるBehAVEの頑健性を実証した。BehAVEはプレイヤーの行動パターンを効果的に整列させ、1つのゲームだけで訓練した場合、複数の未知のFPSゲームへのゼロショット転送を達成する。より困難なシナリオでは、BehAVEは、異なるジャンルのゲームで訓練された場合でも、未見のFPSゲームへの基礎モデルのゼロショット移植性を強化し、最大22%の改善を行っています。BehAVEはhttps://github.com/nrasajski/BehAVE。
要約(オリジナル)
Domain randomisation enhances the transferability of vision models across visually distinct domains with similar content. However, current methods heavily depend on intricate simulation engines, hampering feasibility and scalability. This paper introduces BehAVE, a video understanding framework that utilises existing commercial video games for domain randomisation without accessing their simulation engines. BehAVE taps into the visual diversity of video games for randomisation and uses textual descriptions of player actions to align videos with similar content. We evaluate BehAVE across 25 first-person shooter (FPS) games using various video and text foundation models, demonstrating its robustness in domain randomisation. BehAVE effectively aligns player behavioural patterns and achieves zero-shot transfer to multiple unseen FPS games when trained on just one game. In a more challenging scenario, BehAVE enhances the zero-shot transferability of foundation models to unseen FPS games, even when trained on a game of a different genre, with improvements of up to 22%. BehAVE is available online at https://github.com/nrasajski/BehAVE.
arxiv情報
著者 | Nemanja Rašajski,Chintan Trivedi,Konstantinos Makantasis,Antonios Liapis,Georgios N. Yannakakis |
発行日 | 2024-11-01 16:51:01+00:00 |
arxivサイト | arxiv_id(pdf) |