L'évaluation des modèles de machine learning repose sur l'utilisation de différentes métriques qui permettent de mesurer la performance d'un modèle sur des données de test. Dans ce cadre, les fonctions d'H2O et de Keras, deux des bibliothèques les plus populaires pour l'apprentissage automatique, offrent des outils puissants pour tester la robustesse et la précision des modèles.

Prenons un exemple d'évaluation de modèles sur un jeu de données de test en utilisant H2O. Après avoir construit et entraîné plusieurs modèles (comme la régression linéaire, le modèle GBM ou encore la forêt aléatoire), nous pouvons calculer les performances de chacun d'eux à l'aide de la fonction h2o.performance(). Cette fonction renvoie un ensemble de métriques qui incluent, entre autres, l'erreur quadratique moyenne (RMSE) et l'erreur absolue moyenne (MAE), deux mesures de l'écart entre les valeurs prédites par le modèle et les valeurs réelles observées.

Examinons les résultats obtenus pour trois modèles différents :

  • Le modèle linéaire (LM) affiche une RMSE de 2,732 et une MAE de 2,296.

  • Le modèle GBM présente des performances nettement meilleures avec une RMSE de 1,373 et une MAE de 0,938.

  • Enfin, la forêt aléatoire (RF) obtient des résultats proches de ceux du modèle GBM, avec une RMSE de 1,399 et une MAE de 1,178.

Par conséquent, dans ce cas, le modèle GBM est celui qui offre les meilleures performances, puisqu'il présente les valeurs les plus basses pour ces deux indicateurs.

Pour prédire sur les données de test, on utilise la fonction h2o.predict() en appliquant le modèle GBM, ce qui permet de générer les prédictions. Il est ensuite essentiel de visualiser les résultats sous forme de graphiques afin de mieux comprendre les performances du modèle. Par exemple, en traçant la relation entre les résidus (les différences entre les valeurs observées et prédites) et les valeurs prédites, il est possible d'observer si les erreurs de prédiction suivent un certain modèle ou si elles sont aléatoires. Le test de normalité des résidus, par le biais des fonctions qqnorm() et qqline(), est une étape cruciale pour vérifier l’adéquation du modèle.

Les résidus peuvent aussi être calculés et visualisés sur un graphique de dispersion, où l'on examine les valeurs des résidus en fonction des valeurs prédites. Une ligne horizontale à zéro peut être ajoutée pour mieux identifier les écarts. Un bon modèle aura des résidus répartis de manière aléatoire autour de zéro, sans aucune tendance particulière. Si les résidus sont normalement distribués, cela indique que le modèle a correctement capturé les tendances des données.

L'ajout de la dimension temporelle aux résultats est également un aspect crucial. En incluant une variable temporelle, on peut observer comment les prédictions évoluent au fil du temps et si le modèle réussit à capturer les tendances saisonnières ou autres fluctuations temporelles dans les données. Les graphiques permettant de comparer les valeurs réelles et prédites au fil du temps permettent de visualiser directement l’efficacité du modèle dans le cadre de séries chronologiques.

Si l'on passe maintenant à un autre domaine d'application, tel que l'infection généralisée, on peut utiliser un modèle SEIR (Susceptible, Exposed, Infected, Recovered) pour simuler la propagation d'une infection dans une population. Ce modèle est couramment utilisé dans la modélisation épidémiologique. Ici, l'utilisation de la bibliothèque Keras, spécialisée dans l'apprentissage profond, devient pertinente. Keras permet de concevoir des réseaux de neurones adaptés à des problèmes complexes, en utilisant des architectures profondes pour traiter de grandes quantités de données.

En utilisant Keras, un modèle d'infection généralisée peut être entraîné pour prédire la probabilité d’infection basée sur des données provenant de réseaux sociaux. Ces données, qui peuvent inclure des informations sur l'adhérence à la distanciation sociale, l'usage du masque, la fréquence du lavage des mains, etc., sont traitées par un réseau de neurones qui apprend à capturer les relations complexes entre les différents facteurs de risque.

Le modèle SEIR est simulé en utilisant des équations différentielles qui décrivent l'évolution des différentes catégories d'individus (susceptibles, exposés, infectés, et récupérés) au fil du temps. Ensuite, les données générées par cette simulation peuvent être combinées avec des données réelles (comme celles provenant des réseaux sociaux) pour ajuster les paramètres du modèle et améliorer la précision des prédictions.

L'exemple ci-dessus montre comment une approche basée sur l’apprentissage automatique peut être utilisée pour prédire l'évolution d'une épidémie en temps réel. En combinant des modèles épidémiologiques avec des données sociales et comportementales, il est possible d’obtenir une vision plus complète de la dynamique de la propagation d’une maladie.

L’évaluation des performances de ces modèles doit également inclure des vérifications sur la distribution des erreurs et l'impact de ces erreurs sur les prédictions à long terme. En particulier, dans des contextes aussi dynamiques et complexes, il est essentiel que le modèle soit capable d’adapter ses paramètres à de nouvelles données, tout en gardant une trace de l’évolution de la situation.

Un aspect essentiel dans l'évaluation des modèles prédictifs est de veiller à la diversité des données utilisées pour l'entraînement et à leur qualité. L'examen des résidus et des erreurs sur les ensembles de test permet de repérer les éventuelles limitations des modèles et de mettre en évidence des zones où ces modèles peuvent encore être améliorés, par exemple en ajoutant de nouvelles variables ou en optimisant les algorithmes sous-jacents.

Comment modéliser et visualiser la propagation des infections dans un réseau de petite taille en Afrique Centrale ?

L’étude de la propagation des maladies infectieuses nécessite une compréhension approfondie des dynamiques spatiales et des patterns de contact humain. Dans ce cadre, la modélisation des réseaux spatiaux joue un rôle clé pour simuler la transmission des infections et déterminer les facteurs influençant leur propagation. Un modèle pertinent pour cette analyse est le réseau de petite taille, ou "small-world network", qui offre une représentation réaliste des interactions humaines.

Les réseaux de petite taille sont caractérisés par un degré élevé de clustering, où les individus sont susceptibles d'interagir avec leurs voisins immédiats tout en maintenant des connexions à longue distance. Cela reflète bien la réalité des sociétés humaines, où des groupes sont souvent constitués de contacts locaux, mais avec quelques liens longs qui permettent la diffusion d'informations ou d'infections à plus grande échelle.

Dans ce contexte, nous avons simulé la propagation des infections en République Centrafricaine (RCA) à l’aide du package {igraph}. Ce modèle permet de créer un réseau avec un nombre de nœuds représentant des individus, et des connexions entre ces nœuds suivant une topologie de type petit monde. En ajustant des paramètres comme le nombre de voisins (k) et la probabilité de réarrangement (p), on peut générer différentes structures de réseaux et observer l'impact de ces structures sur la dynamique de transmission des infections.

Le modèle de transmission commence par l'assignation de 10 nœuds "infectés" choisis au hasard, avec un statut initial "S" (susceptible) pour tous les autres nœuds. Ces infections, représentées par des couleurs spécifiques (noir pour infecté et gris pour susceptible), se propagent selon les liens entre les nœuds du réseau. Chaque nœud connecté à un autre peut potentiellement transmettre l'infection, mais cela dépend de la proximité dans le réseau ainsi que des interactions entre les individus.

En parallèle, des données géospatiales sur la République Centrafricaine sont utilisées pour affiner la simulation. Les coordonnées géographiques des infections observées sont intégrées dans le modèle pour simuler un réseau réaliste où les individus sont localisés selon leurs positions géographiques exactes. Par exemple, la latitude et la longitude des nœuds sont extraites des données spatiales et attribuées aux nœuds du réseau, permettant ainsi de visualiser la propagation géographique de l'infection.

Les résultats de la simulation peuvent être visualisés à l’aide de graphiques, comme ceux générés par la fonction {ggplot}. En affichant des couches supplémentaires, telles que la température maximale des différentes régions, on peut également observer l'influence de l’environnement sur la propagation de l’infection. Par exemple, une chaleur plus intense peut être associée à des points plus denses d’infections, suggérant une possible relation entre la température et la vitesse de transmission du pathogène.

Les visualisations permettent de mieux comprendre comment la structure du réseau et les conditions environnementales interagissent pour affecter la propagation des infections. Les points d'infection sont affichés en rouge sur la carte, et les zones d’influence de la température sont représentées sous forme de carte thermique, avec des couleurs allant du blanc au gris foncé pour illustrer les variations de température.

L'approfondissement de ce modèle passe par l'intégration de nouvelles variables, telles que la mobilité des populations, les comportements de prévention, ou encore les interventions de santé publique. Par exemple, en ajoutant des informations sur les déplacements des individus entre différentes régions, le modèle pourrait simuler l’effet des politiques de confinement ou de vaccination sur la propagation de la maladie.

L'un des éléments les plus cruciaux dans ce type d'analyse est la détermination des nœuds critiques. Ce sont ces individus ou groupes qui jouent un rôle majeur dans la diffusion de l'infection. En identifiant ces nœuds, les autorités sanitaires peuvent cibler plus efficacement les efforts de contrôle, qu'il s'agisse de mesures de quarantaine, de vaccination ciblée ou de distribution de ressources médicales.

Ainsi, la modélisation de la transmission des infections à travers des réseaux de petite taille constitue un outil puissant pour analyser la dynamique de propagation des maladies dans des régions géographiquement complexes. Toutefois, il est essentiel de comprendre que cette approche doit être enrichie par des données réelles et constamment mise à jour pour refléter les évolutions des comportements humains et des conditions environnementales.