From Pixels to Titles: Video Game Identification by Screenshots using Convolutional Neural Networks

要約

この論文では、Atari 2600 から PlayStation 5 に至る 22 の家庭用ゲーム機システムにわたる 5 つの畳み込みニューラル ネットワーク (CNN) アーキテクチャ (MobileNet、DenseNet、EfficientNetB0、EfficientNetB2、および EfficientNetB3) を利用して、単一のスクリーンショットによるビデオ ゲームの識別を調査しています。仮説を裏付ける CNN
画像の特徴を自律的に抽出し、追加機能なしでスクリーンショットからゲーム タイトルを識別できるようにします。
ImageNet で事前にトレーニングされた重みを使用すると、EfficientNetB3 は最高の平均精度 (74.51%) を達成しますが、DenseNet169 は 22 システム中 14 のシステムで優れています。
別のスクリーンショット データセットから代替の初期重みを採用すると、EfficientNetB2 と EfficientNetB3 の精度が向上し、後者は 76.36% のピーク精度に達し、収束エポックが平均 23.7 から 20.5 に減少することがわかります。
全体として、最適なアーキテクチャと重みの組み合わせにより 77.67% の精度が達成され、主に 19 システムの EfficientNetB3 が主導しました。
これらの発見は、スクリーンショットによるビデオ ゲーム識別における CNN の有効性を強調しています。

要約(オリジナル)

This paper investigates video game identification through single screenshots, utilizing five convolutional neural network (CNN) architectures (MobileNet, DenseNet, EfficientNetB0, EfficientNetB2, and EfficientNetB3) across 22 home console systems, spanning from Atari 2600 to PlayStation 5. Confirming the hypothesis, CNNs autonomously extract image features, enabling the identification of game titles from screenshots without additional features. Using ImageNet pre-trained weights, EfficientNetB3 achieves the highest average accuracy (74.51%), while DenseNet169 excels in 14 of the 22 systems. Employing alternative initial weights from another screenshots dataset boosts accuracy for EfficientNetB2 and EfficientNetB3, with the latter reaching a peak accuracy of 76.36% and demonstrating reduced convergence epochs from 23.7 to 20.5 on average. Overall, the combination of optimal architecture and weights attains 77.67% accuracy, primarily led by EfficientNetB3 in 19 systems. These findings underscore the efficacy of CNNs in video game identification through screenshots.

arxiv情報

著者 Fabricio Breve
発行日 2023-11-27 16:07:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.NE パーマリンク