En collaboration avec OMalytics, on a décidé de vous faire un tour d’horizon des différentes présentations de l’édition 2017 de l’OPTA Pro Forum, un ensemble de conférences réalisées par des analystes statistiques à l’aide de données fournies par OPTA.
Comment identifier le style de jeu d’une équipe ou d’un joueur ?
Cette présentation de David Perdomo Meza (@dperdomomeza1) est basé sur un article titré “Searching for a Unique Style in Soccer” de Laszlo Gyarmati, Haewoon Kwak et Pablo Rodriguez destiné à prouver que Barcelone a des schémas de passes vraiment à part.
L’idée est de découper une série de passes en séquences de 3 passes. Chaque séquence implique 4 joueurs (différents ou non) et chaque joueur unique se voit assigné une lettre allant de A à D. Il y a donc 5 types de séquences possibles, identifiées par leur acronyme : ABAB, ABAC, ABCA, ABCB et ABCD.
En regardant la fréquence à laquelle chaque équipe utilise les différents types de séquences (appelés motifs), on obtient alors une représentation du “style” de l’équipe. En observant les clubs de Liga, l’étude d’origine a trouvé, sans surprise, que la distribution de ces fréquences était très différente à Barcelone : ils utilisaient ‘ABAB’ et ‘ABAC’ beaucoup plus souvent à l’inverse de ‘ABCD’ qui était plus rare que chez les autres équipes. Les séquences utilisant des une-deux sont donc privilégiés.
L’étape suivante a été de se servir de ces nouvelles données pour regrouper les équipes ayant un style similaire. Pour ça, ils ont utilisé une classification ascendante hiérarchique qui est une méthode de classification automatique permettant de répartir les équipes observées dans un certain nombre de classes. Le résultat peut être affiché sous la forme d’un dendrogramme, ici pour la saison 2015/2016 de Premier League.
Un exemple qui n’est pas anodin puisque l’on voit tout de suite que Leicester (LEI) est complètement à part du reste, assez logique étant donné leur façon de jouer assez unique.
Ce qui est également très important, c’est la répétabilité d’une statistique et cette mesure du style de jeu d’une équipe a l’avantage d’être constante d’une saison à l’autre.
La suite naturelle était d’étendre cette logique aux joueurs. Pour ça, David Perdomo Meza a utilisé différentes méthodes :
- la différence entre le pourcentage de l’équipe et celui du joueur pour chaque motif : si une équipe utilise 40% de ‘ABAB’ et le joueur 43%, il obtient un score de +0,03.
- le pourcentage de chaque motif auquel il a participé par rapport à son total de séquences : par exemple, 5% de ‘ABAB’, 13% de ‘ABAC’, 25% de ‘ABCA’, etc.
- le pourcentage de chaque motif auquel il a participé par rapport au total de l’équipe : si l’équipe a complété 50 ‘ABAB’ et que le joueur a participé à 25 de ceux-ci, il aura un score de 50%.
- le nombre de fois où un joueur a été une lettre donnée pour chaque motif : 15 fois le ‘A’ dans un ‘ABAC’, 7 fois le ‘B’ dans un ‘ABAC’, 12 fois le ‘B’ dans un ‘ABCD’, etc.
- la même chose mais en pourcentage du total de séquences auquel il a participé : s’il a été 15 fois le ‘B’ dans un ‘ABAC’ sur un total de 100 séquence, son score est de 15%.
Au final, chaque joueur est représenté par un vecteur à 45 dimensions. Là aussi le but était d’obtenir un résultat qui se répète entre deux saisons mais aussi de permettre de regrouper les joueurs avec un style similaire.
David Perdomo Meza s’est servi de ça pour présenter la liste des meilleurs joueurs en utilisant les passes clés pour attribuer des points : pour les séquences se terminant par une passe clé, chaque joueur se voir attribuer plus ou moins de points selon sa position dans la série de passes.
Après la Premier League (saison 2015/2016), il a reproduit ça avec la Bundesliga selon le même principe puis à nouveau la Premier League mais en utilisant les ‘Expected Assists (xA)‘ au lieu des passes clés.
Si on part du principe que le modèle fonctionne, le fait que l’ordre soit différent qu’en utilisant simplement le total de passes clés (ou Expected Assists) de chaque joueur signifie que le modèle capte quelque chose en plus. Les joueurs qui sont haut dans le classement sans avoir beaucoup de passes clés sont souvent dans les bons coups mais ça ne ressortait pas dans les statistiques “habituelles”.
David Perdomo Meza a terminé avec une analyse topologique des données dont le but est d’étudier la “forme” des données de grandes dimensions. Le résultat est une représentation en deux dimensions des données originelles où chaque nœud représente un groupe de données (ici de joueurs).
Notre avis
@Birdace : J’aime beaucoup cette présentation parce qu’elle s’intéresse aux passes, un aspect encore trop délaissé dans l’analyse statistique alors que c’est la base de tout. Ici, le concept étudié est inédit alors que l’intérêt semble évident après l’explication de David Perdomo Meza.
Il y a un autre élément important dans cette conférence, la volonté d’identifier le “style” d’une équipe ou d’un joueur. Ça aussi c’est trop souvent mis de côté quand on veut utiliser des données pour recruter : c’est très bien de trouver des bons joueurs mais tout aussi important que ces joueurs collent à leur nouvelle équipe.
Pouvoir identifier des profils similaires est une vraie mine d’or pour une équipe qui souhaite remplacer un joueur sur le départ et trouver une alternative à un joueur convoité.
@OMalytics : Quand j’ai découvert les travaux de l’auteur l’an dernier, j’ai trouvé la façon d’approcher le football très originale et du coup intéressante. Analyser le jeu d’une équipe par sa séquence de passe n’est pas la première idée qui vient en tête quand on regarde un match, alors réussir à classer les équipes et les joueurs est encore plus fascinant et peut être utile dans le cadre du recrutement.
Maintenant, je me pose la question de l’appropriation par le monde du football. Est-il envisageable de faire adhérer un coach ou un directeur sportif à ce type d’analyse, notamment pour évaluer un joueur ? On retrouve un peu l’effet boîte noire évoqué dans l’article sur la prise de décision, qui a tendance à rebuter les coaches puisqu’il est difficile de comprendre facilement pourquoi un joueur est mieux noté qu’un autre.
Il n’en demeure pas moins que ces travaux sont théoriquement passionnants et qu’ils offrent aux experts une nouvelle façon d’appréhender la circulation du ballon au sein d’une équipe et la façon dont les joueurs y contribuent.
La vidéo de la conférence de David Perdomo Meza
Sur le même sujet
Searching for a Unique Style in Soccer : le papier de Laszlo Gyarmati, Haewoon Kwak et Pablo Rodriguez qui a inspiré cette conférence.
Le blog de David Perdomo Meza : souvent assez technique mais chaque article a le mérite d’être très ouvert sur la méthodologie utilisée.
Sa page auteur sur StatsBomb : principalement de la reprise de billets de son blog mais en plus court.
A Family Tree of European Defenses : un autre article sur l’utilisation des passes et de la classification ascendante hiérarchique pour regrouper les équipes au style similaire.