7 février 2023
trafic routier
Michael Gaida
Le Cerema s'intéresse au suivi et à l'analyse du trafic routier, et développe des méthodes pour traiter ces grandes quantités de données. Cet article présente des travaux de stage réalisés en matière d'analyse automatique des données de trafic routier au Cerema Ouest ces deux dernières années.

Pourquoi s’intéresser à la qualification des données routières ?

capteur mobile de traficPour connaître et optimiser le fonctionnement de leurs infrastructures, les gestionnaires de réseaux routiers s’appuient traditionnellement sur un ensemble de capteurs leur permettant de caractériser l’état du trafic et les volumes moyens s’écoulant en certains points stratégiques.

Cependant, en raison de dysfonctionnements ponctuels d’un ou plusieurs de leurs capteurs, il arrive que les données soient entachées d’erreurs voire indisponibles sur des plages temporelles plus ou moins longues.
A des fins d’études en temps différé, il devient alors intéressant de pouvoir qualifier les données. La qualification consiste généralement à :

  • Détecter automatiquement d’éventuelles anomalies dans les données. Selon la finalité des études, ces données anormales peuvent être soit supprimées si l’utilisateur considère qu’elles sont erronées, soit corrigées lorsque cela s’avère pertinent, soit conservées pour les besoins ultérieurs de l’étude de par l’intérêt qu’elles présentent (journées de circulation particulières dues à un évènement exceptionnel) ;
  • Compléter automatiquement les éventuelles données manquantes.

Cela peut ainsi permettre d’obtenir une compréhension fidèle du fonctionnement du réseau à un instant donné et/ou sur un secteur fixé (identifier les périodes de pointe, évaluer la dureté des congestions, identifier les évènements exceptionnels). Il devient ensuite possible de comparer deux situations distinctes, comme lors de l’évaluation de l’impact d’un aménagement ou de la mise en place d’une régulation du trafic routier.

 

Des travaux exploratoires menés au Cerema dans le cadre de deux stages

Le Cerema Ouest a accueilli en 2021 puis en 2022 deux stagiaires qui se sont intéressés à l’analyse automatique de données issues de stations de comptage.
Ces travaux ont permis :

  1. De réaliser un état de l’art critique des techniques de qualification de données et des outils existants, notamment les méthodes statistiques les plus usuelles et celles, plus innovantes, tirant profit des avancées de l’apprentissage automatique (ou machine learning en anglais) ;
  2. De comparer différentes méthodes pour identifier les avantages et les inconvénients de chacune, selon différents cas d’usage, notamment en fonction du nombre successif de valeurs manquantes ;
  3. De développer une preuve de concept logicielle sous la forme d’un tableau de bord (sous R avec Shiny et en Python avec Dash) permettant de générer des profils-types en analysant les tendances temporelles sur un point de mesure (valeurs moyennes ou médianes lors des périodes de pointe du matin ou du soir ; lors des jours de semaine ou des week-ends) et de produire des comparaisons graphiques.

Ces travaux ont également été utilisés lors du prototypage du module de qualification des données routières de la plateforme AVATAR de suivi du trafic routier.

 

Quelques enseignements

La comparaison des différentes méthodes de complétion de données a été réalisée sur la base des données issues d’une vingtaine de stations de comptage placées sur le périphérique de Nantes et couvrant l’intégralité de l’année 2019. Ces données ont été fournies par la Direction Interdépartementale des Routes Ouest et elles couvrent les trois variables agrégées suivantes :

  • Le débit, exprimé en nombre de véhicules par unité de temps (classiquement en véhicules par heure) ;
  • Le taux d’occupation, décrivant le pourcentage de temps durant lequel un véhicule est détecté par la station ;
  • La vitesse moyenne du flux (en kilomètres par heure).

 

3 graphiques montrant les courbes sur 1 jour des débit, vitesse, taux d'occupation
Evolution temporelle des mesures

 

Ces variables sont indifféremment touchées par des valeurs manquantes. Ainsi, dans le jeu de données mis à disposition, 20% des données sont manquantes. Dans la majorité des cas, les trois variables sont manquantes simultanément. Le taux d’indisponibilité des données est indépendant de l’heure de la journée, mais nous observons des plages plus ou moins importantes de données manquantes (pouvant aller jusqu’à plusieurs semaines sur certains capteurs).

Parmi les méthodes comparées, le choix a été fait de considérer quatre grandes familles de méthodes univariées et unicapteurs (on ne traite qu’une seule variable et qu’un seul capteur à la fois) :

  • Les méthodes basiques comme l’imputation par la valeur moyenne ou l’interpolation linéaire entre les deux valeurs non manquantes les plus proches ;
  • Les méthodes basées sur la prédiction d’une série temporelle comme SARIMA ou Prophet ;
  • Les méthodes de régression issues de l’apprentissage automatique comme les approches basées sur les arbres décisionnels (Random Forest, Gradient Boosting) ou sur les K plus proches voisins ;
  • Les méthodes à base de réseaux de neurones artificiels et de réseaux profonds (ou deep learning en anglais).

capteur de trafic sur un poteauCes méthodes ont été comparées grâce aux métriques usuelles (coefficient de détermination R², écart quadratique moyen et GEH pour les débits) selon trois cas d’usage pour lesquels le nombre consécutif de valeurs manquantes variait :

  • Une valeur isolée manquante ;
  • Une succession de 10 valeurs manquantes, soit une heure de données ;
  • Une suite de 240 valeurs manquantes, soit une journée complète.

Il en ressort qu’une approche différenciée est préférable :

  • Pour les courtes plages de données manquantes (moins d’une heure), une méthode basique comme l’interpolation linéaire s’avère être suffisamment robuste et rapide ;
  • Pour les plages de données manquantes plus larges (au-delà d’une heure), les méthodes à base d’arbres décisionnels comme le Gradient Boosting se révèlent être plus performantes.

Les méthodes à base de réseaux de neurones, notamment les architectures basées sur les réseaux génératifs adverses, semblent très performantes, mais elles requièrent pour leur mise en œuvre d’importantes ressources de calcul et toute une ingénierie complexe d’entraînement. Le gain de performance espéré ne doit pas occulter la difficulté de déploiement opérationnel