OPTA Pro Forum 2017 (5) – L’incertitude des métriques dans le football

En collaboration avec OMalytics, on a décidé de vous faire un tour d’horizon des différentes présentations de l’édition 2017 de l’OPTA Pro Forum, un ensemble de conférences réalisées par des analystes statistiques à l’aide de données fournies par OPTA.

En êtes-vous sûr ? Appréhender l’incertitude des métriques dans le football.

Tout le monde sera d’accord pour dire que anticiper les performances futures d’un club ou d’un joueur est absolument crucial pour l’encadrement d’un club de foot. En revanche, le consensus est plus difficile à obtenir lorsqu’il s’agit de déterminer comment s’y prendre.

Observer 5, 10, 20 matchs d’un joueur ? Enquêter sur son entourage ? Regarder ses statistiques ?

Quand bien même toutes ces méthodes seraient utilisées, comment tenir compte de l’incertitude ? Comment savoir à partir de ces informations, combien de buts va inscrire notre futur numéro 9 en tenant compte d’une marge d’erreur ? Et enfin, comment calculer cette dernière ?

C’est à ce type de questions que répond Constantinos Chappas (@cchappas) dans son poster, via un cas d’étude très concret : combien Harry Kane aura de tirs cadrés la saison prochaine, connaissant 1) son volume de tirs cadrés cette saison 2) l’évolution de joueurs à son poste d’une année sur l’autre.

Première partie, l’approche statistique classique

On sait qu’Harry Kane en 2015/2016 créait 2,00 tirs cadrés par 90 minutes. On sait aussi calculer la relation entre les tirs cadrés d’une saison n-1 et ceux d’une saison n. L’auteur utilise ici les chiffres des attaquants de Premier League à plus de 450 minutes de jeu sur les saisons 2011/2012 à 2015/2016.

Via ces données il peut en déduire une relation linéaire de type y = ax + b (x étant les tirs cadrés de la saison n-1) et calculer la valeur attendue pour les tirs cadrés d’Harry Kane en 2016/2017. Avec cette approche il obtient 1,62.

Seulement cette approche ne tient pas compte de l’incertitude propre à ce type d’exercice et il serait naïf, pour ne pas dire risqué, de s’en tenir là.

En calculant un intervalle de prédiction, qui donne des bornes associées à un niveau de probabilité, l’auteur détermine qu’il y 95% de chance que Harry Kane produise entre 0,90 et 2,35 tirs cadrés en 2016/2017.

La contrepartie d’un tel niveau de confiance est que l’intervalle est plutôt large, ce qui doit amener à approfondir l’exercice : intégrer d’autres variables au modèle (âge, équipe, tactique, etc.) ou se concentrer sur un sous-ensemble de la population étudiée (les attaquants du Top 6, par exemple).

Une autre possibilité est d’utiliser une approche différente, et c’est ce que propose l’auteur dans une seconde partie.

Deuxième partie, l’approche bayésienne empirique

Pour faire simple, l’approche bayésienne empirique diffère de la régression en ceci qu’elle s’appuie sur la distribution des observations passées, ici pour estimer la vraie performance d’un joueur plutôt que sur une relation linéaire entre deux variables.

Pour le dire autrement : « L’approche consiste à actualiser les croyances a priori sur un événement à la lumière des nouvelles informations disponibles pour obtenir une description quantitative des connaissances actuelles ».

Le théorème de Bayes permet d’intégrer à notre modèle cette distribution, ainsi que les informations dont nous disposons sur le joueur : Harry Kane a joué 3368 minutes en 2015/2016 et il a réussi 75 tirs cadrés soit 2,00 tirs cadrés par 90 minutes.

En utilisant ces observations, on infère un intervalle crédible à 95% entre 1,50 et 2,33 tirs cadrés par 90 minutes pour la saison 2016/2017 d’Harry Kane, intervalle plus étroit que celui obtenu via une régression classique.

La puissance de cet outil réside dans l’utilisation des observations précédentes et de la prise en compte du volume d’information à notre disposition, ce que l’auteur illustre avec le cas de Daniel Sturridge. Ce dernier a pris 2,11 tirs cadrés par 90 minutes mais a seulement joué 979 minutes. Sturridge se voit donc attribuer un intervalle crédible beaucoup plus large puisque le modèle n’a pas suffisamment d’observation pour être plus précis. Ainsi, plus un joueur joue plus on est en mesure de connaître avec précision son « vrai » niveau.


Notre avis

@OMalytics : Probablement ma présentation préférée lors de cet Opta Pro Forum, pour les raisons suivantes :

  • Une présentation limpide et très parlante bien qu’utilisant des techniques mathématiques peu répandues dans le milieu (approche bayésienne) ;
  • Un exemple accessible à tous : le nombre de tirs cadrés par 90 minutes et la capacité d’un joueur à répéter la performance d’une année sur l’autre ;
  • L’accent mis sur un sujet important, l’incertitude, qu’on a trop souvent tendance à oublier quand on présente des statistiques via des modèles ;
  • La qualité graphique de la présentation ;
  • La variété d’usages qui découlent de ce type d’approche, à un niveau individuel comme collectif. Par exemple, prédire le niveau de performance d’un joueur pour mettre en face un montant de transfert.

@Birdace : Je dois bien avouer être parfois coupable de ne pas assez nuancer certains chiffres en précisant les intervalles de confiance. Un point à améliorer, donc, en suivant l’exemple de cette présentation. Au final, si les statistiques sont intéressantes c’est bien pour réduire les risques.

Pas grand chose à dire de plus, je vais mettre en avant les mêmes points : un visuel agréable à l’œil (il suffit de regarder les graphiques de l’article) et pédagogique. Avec un cas d’application concret en exemple.

Et on laissera les anglophones profiter de l’expérience totale avec le poster de présentation ci-dessous.

Le poster de présentation de Constantinos Chappas


Sur le même sujet

Re-examining finishing skill : Une application de la méthode bayésienne empirique sur les qualités de finition.
Introduction to Empirical Bayes : Un excellent eBook sur le sujet avec des exemples tirés du Baseball (et le code pour les reproduire sur R).
Variance Explained : Le blog de l’auteur de l’eBook.

2 réflexions sur “OPTA Pro Forum 2017 (5) – L’incertitude des métriques dans le football

  1. Je me questionnais donc (sur Twitter, @juju060577) à savoir si la précision gagnée par la méthode bayésienne ne venait pas du choix du prior.
    Je refais les calculs, le raisonnement de Mr Chappas est le suivant:
    1. Le nombre de tirs cadrés par un joueur en 90 minutes est une variable aléatoire qui suit une distribution de Poisson, laquelle distribution a un seul paramètre: l’espérance de la variable aléatoire, disons L
    2. Sur la base d’un certain nombre de tirages (tous les joueurs de 5 saisons jusqu’à 2015-2016 ayant joué 450 minutes au moins), grâce au conjugate prior (mes cours de stats étaient en anglais…), il établit que L suit une sample distribution Gamma (a,b) (2 paramètres). Les paramètres sont déduits des observations.
    3. Par inférence bayésienne, il met à jour cette distribution en utilisant les données de Harry Kane sur 2015-2016 en considérant qu’il va apprendre sur la distribution de L.
    4. Avant mise a jour : L suit Gamma (4.99, 4.8), il observe 3368 minutes de jeu pour 75 tirs cadrés, soit 37.4 observations de 90 minutes. Simplifié à 37 observations pour 75 évènements on obtient L suit Gamma (4.99+75, 4.8+37)
    5. L a donc pour espérance 1.90, pour variance 0.213, et le CLT nous dit que la vraie valeur de l’espérance (=valeur de population, par opposition à valeur de l’échantillon) est situé à 95% dans l’intervalle [1.48, 2.32]

    Je retrouve les mêmes chiffres que Mr Chappas à la précision près. Je ne sais pas comment il a géré le 37.4…

    Dans ce raisonnement, je me demande si on a gagné en précision grâce à plusieurs artifices dont l’incertitute n’est pas prise en compte pour le résultat final:
    1. Est-ce que le nombre de tirs cadrés par un joueur en 90 minutes suit une distribution de Poisson? Ce ne sont pas forcément des évènements indépendants (confiance en soi suite aux 2 derniers tirs, réaction du public, réaction des défenseurs suite à un tir cadré…). Il me semble que le nombre total de tirs cadrés par match est plus proche de correspondre aux critères. Poisson est peut-être une très bonne approximation pour le nombre par 90 minutes pour 1 joueur, mais il y a une incertitude entre la réalité et le modèle, et cette incertitude a disparu du calcul.

    1b Autre critère de Poisson, la fréquence des évènements doit être constante, or manifestement on s’attend à une augmentation d’une année sur l’autre (progrès du joueur, de l’équipe…)

    Le prior est basé sur TOUS les joueurs, donc il nous informe sur le nombre de tirs cadrés par match, ou sur la moyenne faite sur tous les joueurs, mais pas sur Harry Kane en particulier. Hors il utilise les données de Kane sur 2015-2016 (qui étaient déjà dans le prior) pour apprendre sur Kane spécifiquement. Méthodologiquement, il y a un saut à combler.
    A mon avis, le problème est que si l’on calcule un prior et ses mises à jour uniquement sur Harry Kane, on a trop peu d’echantillons pour que l’incertitude soit basse…

    Qu’est-ce que vous en pensez ?
    Merci d’avoir lu.

    1. Hello,

      Merci beaucoup pour ton commentaire, c’est rare d’avoir du feedback sur ce qu’on publie donc j’apprécie d’autant plus.

      Le gain en précision vient avant tout de la différence entre méthode bayésienne et méthode fréquentiste puisqu’intervalle de crédibilité et intervalle de confiance sont dans des cas simples, quasiment identiques une fois qu’on a suffisamment d’information. Il y a beaucoup de documentation sur le sujet sur la toile cf. liens ci-dessous.

      Ceci étant dit, l’approche bayésienne peut être critiquée philosophiquement (supposition sur la distribution du prior par exemple) et je suis d’accord avec toi sur la modélisation des tirs cadrés, qui ne suivent peut-être pas une distribution de poisson. Reste à montrer que l’approximation soit de nature à modifier significativement l’intervalle.

      Pour ton dernier point, il est possible de calculer un prior indidividuel, tu pourras trouver une méthode possible via ce lien : http://varianceexplained.org/r/beta_binomial_baseball/

      Hope this helps.

      http://varianceexplained.org/r/credible_intervals_baseball/

      http://jakevdp.github.io/blog/2014/06/12/frequentism-and-bayesianism-3-confidence-credibility/

      https://stats.stackexchange.com/questions/2272/whats-the-difference-between-a-confidence-interval-and-a-credible-interval

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *