Evaluating Soccer Match Prediction Models: A Deep Learning Approach and Feature Optimization for Gradient-Boosted Trees

要約

サッカーの試合結果を予測するための機械学習モデルの人気が高まっていますが、公的に利用可能なベンチマーク データセットが不足しているため、モデルの評価が困難になっています。
2023 年のサッカー予測チャレンジでは、まず各チームが得点した正確なゴールという観点から、次に勝ち、引き分け、負けの確率という観点から試合結果を予測する必要がありました。
大会用に提供された試合と機能の元のトレーニング セットは、トレーニング セットが終了した後、最初の試合の前に、2023 年 4 月 4 日から 4 月 13 日までの間に行われた追加の試合で増強されました。
予測される(それに基づいてパフォーマンスが評価される)。
CatBoost モデルは、特徴として pi 評価を使用して採用されました。これは当初、勝ち/引き分け/負けの確率を計算するための最適な選択肢として特定されました。
特に、この特定のタスクでは、深層学習モデルが頻繁に無視されてきました。
したがって、この研究では、深層学習モデルのパフォーマンスを評価し、勾配ブースト ツリー モデルに最適な特徴セットを決定することを目的としました。
モデルは最近 5 年間のデータを使用してトレーニングされ、ハイパーパラメーター グリッド検索では 3 つのトレーニングおよび検証セットが使用されました。
検証セットの結果は、勝ち/引き分け/負けの予測に関して、2017 年のサッカー予測チャレンジで以前に公開されたモデルと比較して、このモデルが優れたパフォーマンスと安定性を備えていることを示しています。

要約(オリジナル)

Machine learning models have become increasingly popular for predicting the results of soccer matches, however, the lack of publicly-available benchmark datasets has made model evaluation challenging. The 2023 Soccer Prediction Challenge required the prediction of match results first in terms of the exact goals scored by each team, and second, in terms of the probabilities for a win, draw, and loss. The original training set of matches and features, which was provided for the competition, was augmented with additional matches that were played between 4 April and 13 April 2023, representing the period after which the training set ended, but prior to the first matches that were to be predicted (upon which the performance was evaluated). A CatBoost model was employed using pi-ratings as the features, which were initially identified as the optimal choice for calculating the win/draw/loss probabilities. Notably, deep learning models have frequently been disregarded in this particular task. Therefore, in this study, we aimed to assess the performance of a deep learning model and determine the optimal feature set for a gradient-boosted tree model. The model was trained using the most recent five years of data, and three training and validation sets were used in a hyperparameter grid search. The results from the validation sets show that our model had strong performance and stability compared to previously published models from the 2017 Soccer Prediction Challenge for win/draw/loss prediction.

arxiv情報

著者 Calvin Yeung,Rory Bunker,Rikuhei Umemoto,Keisuke Fujii
発行日 2023-09-26 10:05:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク