Pour faire ce « pronostic », les étudiants ont combiné big data d’Internet, données socio-démographiques et économiques, et sondages.
Dans un premier temps, ils ont utilisé les données du Web, de l’Insee et de data.gouv afin de déterminer le résultat du premier tour par département, grâce à des données temporelles et départementales, en estimant que les électeurs pouvaient être regroupés en quatre catégories, allant de la gauche à l’extrême-droite, et en considérant Emmanuel Macron comme faisant partie du bloc de gauche.
« À partir de ces données, nous utilisons des modèles de Machine Learning et d’économétrie qui nous permettent de déterminer un taux de vote pour chacun des blocs », expliquent-ils dans le média. Sur la base de ces données, l’extrême-droite obtient 23,5 %, le bloc de gauche 40,1 %, la droite 26% et « le centre hypothétique » 10,4%.
Ensuite, pour prendre en compte l’aspect personnifié du vote et départager les candidats des blocs, les étudiants ont utilisé trois sources de données que sont les sondages, Twitter et Google, et les ont analysées séparément avant de les combiner.
La prédiction finale donne un duel entre Marine Le Pen et François Fillon au second tour, mais Emmanuel Macron n’est qu’à 1 point et demi du candidat des Républicains. La prédiction est en effet la suivante : Marine Le Pen (24,13 %), François Fillon (21,77 %), Emmanuel Macron, 20,32 % et Jean-Luc Mélenchon 18,66 %.
« C’est certain, notre méthode est expérimentale, comporte des biais et repose sur l’hypothèse que le comportement des électeurs du passé sera similaire à celui des électeurs du futur », expliquent-ils au Point, en attendant de voir si leur prédiction se vérifie ou pas.