La compréhension des facteurs de risque en matière de santé est essentielle pour établir des stratégies de prévention efficaces. En analysant les relations entre ces facteurs, tels que le tabagisme, l'inactivité physique, l'hypertension, ou encore les maladies cardiaques et les AVC, nous pouvons déterminer leurs effets directs et indirects sur les résultats de santé. L'utilisation des graphiques de réseaux, en particulier les Graphiques Acycliques Dirigés (DAG), permet de visualiser et d'analyser ces relations d'une manière plus intuitive. Cela permet non seulement d'observer les effets des facteurs de risque, mais aussi d'identifier des interactions complexes qui seraient autrement difficiles à déceler.

Un exemple de cela peut être vu à travers le package R {ggdag}, qui permet de construire des modèles DAG. Ce type de modèle permet de représenter des relations causales entre une exposition à un risque, des facteurs confondants et un résultat. Par exemple, un DAG pourrait inclure une variable d'exposition (E), comme le tabagisme, un certain nombre de facteurs confondants (C1, C2, C3), et le résultat (O), comme le développement d'un cancer du poumon. En générant des graphiques DAG, les chercheurs peuvent visualiser la structure causale sous-jacente et ainsi mieux comprendre comment chaque facteur contribue au résultat final.

En parallèle, une approche souvent utilisée pour simuler l'exposition à un risque est la régression logistique. En utilisant un modèle DAG pour simuler les effets d'une exposition à des facteurs de risque, il est possible d'estimer la probabilité d'un résultat donné, en fonction de l'exposition à ces risques. Par exemple, avec le package {dagitty} et la fonction simulateLogistic(), on peut simuler des données et estimer le risque relatif d'un événement de santé en fonction de l'exposition à divers facteurs. Cela peut être particulièrement utile pour calculer l'impact des facteurs de risque sur une population donnée.

Un autre concept important dans l'évaluation des risques est celui du "niveau théorique minimal d'exposition au risque" (TMREL). Ce concept repose sur l'idée que certaines expositions, comme le tabagisme ou l'hypertension, ont des niveaux minimaux à partir desquels elles commencent à devenir des facteurs de risque significatifs pour certaines maladies. Par exemple, pour l'hypertension, un niveau de pression artérielle de 110/70 mmHg est souvent cité comme étant optimal, associé à un risque minimal pour les maladies cardiovasculaires. De même, l'exposition à des niveaux de pollution de l'air de particules fines devrait être maintenue aussi basse que possible, selon les lignes directrices de l'Organisation mondiale de la santé.

Les "fractions attribuables à la population" (PAF) sont également un indicateur utile pour comprendre l'impact d'un facteur de risque particulier sur la santé de la population. Le PAF permet d'estimer la proportion de maladies dans une population donnée qui peut être attribuée à un facteur de risque spécifique. Par exemple, si l'on réduit l'exposition au tabagisme dans une population, le PAF indique quel pourcentage des cas de maladies respiratoires pourrait être évité. Cette mesure est cruciale pour les interventions de santé publique, car elle permet d'identifier les risques majeurs et d'allouer des ressources pour les réduire efficacement.

Les relations causales jouent un rôle central dans cette analyse des risques. L'inférence causale permet de comprendre comment une variable, comme l'exercice physique, influence directement une autre, comme la santé cardiovasculaire. Cependant, il est important de distinguer causalité et simple corrélation : une corrélation entre la télévision et l'obésité ne signifie pas nécessairement qu'il existe une relation causale directe entre les deux. L'inférence causale repose donc sur une analyse rigoureuse des données et une prise en compte des facteurs confondants, ceux qui pourraient influencer à la fois la cause et l'effet.

Il existe différentes méthodes pour établir la causalité, en particulier à travers des expérimentations contrôlées. Par exemple, pour démontrer que l'exercice régulier améliore la santé cardiovasculaire, un chercheur pourrait introduire un autre facteur, tel qu'une alimentation riche en fruits, et observer l'effet combiné de ces deux variables sur la santé cardiaque. En procédant ainsi, on obtient non seulement une meilleure compréhension des mécanismes sous-jacents mais aussi des recommandations pratiques pour la prévention.

Il est essentiel que les lecteurs comprennent que bien que l'analyse des risques et la causalité soient des outils puissants, la complexité des interactions entre les facteurs de risque doit toujours être prise en compte. Les modèles DAG et les calculs de PAF sont des méthodes avancées qui nécessitent des connaissances techniques pour être utilisés correctement. De plus, ces outils doivent être complétés par des données fiables et représentatives de la population étudiée pour garantir la précision des résultats. Les décideurs en santé publique doivent également considérer des facteurs contextuels tels que les inégalités sociales, économiques et environnementales, qui influencent également les risques de santé à un niveau plus large.

Comment la dynamique entre hôtes et agents pathogènes influence l'émergence des maladies infectieuses : une approche de modélisation

La dynamique entre les hôtes et les agents pathogènes dans l’émergence et la propagation des maladies infectieuses peut être décrite comme un jeu d’interactions continues et d’adaptations entre les organismes et leur environnement. Ce processus constant de réponse aux changements est essentiel à la survie des espèces. Il trouve un parallèle avec les modèles d'apprentissage machine, où l’environnement d’un modèle évolue et apprend continuellement à travers des ajustements paramétriques. En effet, de la même manière qu'un modèle d'apprentissage machine ajuste ses paramètres pour correspondre à de nouvelles données, les hôtes et pathogènes modifient leurs comportements et stratégies pour maintenir leur équilibre.

Les modèles d'apprentissage machine, qui s'appliquent également à l'analyse des données de santé, s’inspirent de cette dynamique biologique. L’adaptation se fait par des ajustements des paramètres d’un modèle, créant ainsi des simulations d’événements futurs possibles, semblables à des scénarios observés dans des ensembles de données. Les modèles de type Machine Learning (apprentissage automatique) se distinguent de ceux basés sur des équations mécaniques explicites, comme le modèle SIR (susceptible, infectieux, récupéré), un modèle compartimental classique de propagation des maladies infectieuses. Ce modèle repose sur des équations différentielles qui déterminent l’évolution de chaque compartiment au fil du temps, selon les taux de transmission et de guérison.

Cependant, un autre type de modèle, dit empiriquement dirigé, s’appuie sur l’apprentissage des relations présentes dans les données sans recourir à des équations mathématiques explicites. Le modèle Random Forest, par exemple, repose sur un algorithme d'apprentissage machine qui construit plusieurs arbres de décision à partir de sous-ensembles de données, et combine les résultats pour prédire avec précision les résultats. Contrairement aux modèles mécaniques, qui dépendent de relations mathématiques connues, Random Forest et autres modèles d’apprentissage automatique apprennent directement des données sans avoir besoin d'une compréhension préalable des mécanismes sous-jacents.

Les modèles empiriquement dirigés, y compris ceux utilisés dans l’apprentissage machine, fonctionnent sur des principes distincts de ceux des modèles mécaniques. Tandis que les modèles mécaniques reposent sur des équations établies et des relations explicites, les modèles d’apprentissage machine apprennent des structures et des tendances directement à partir des données elles-mêmes. Ce processus d’apprentissage automatisé, où les paramètres du modèle sont ajustés pour minimiser les erreurs de prédiction, constitue l’un des atouts majeurs de l’apprentissage machine pour analyser des données complexes.

Dans cette optique, la construction d’un modèle efficace commence par une compréhension approfondie des procédures de modélisation. Cela inclut le choix du type de méthode d’apprentissage, qu’elle soit supervisée ou non supervisée. L’apprentissage supervisé est utilisé lorsque les données sont étiquetées, c'est-à-dire qu'elles incluent à la fois les variables indépendantes et la variable dépendante (le résultat). En revanche, l'apprentissage non supervisé est utilisé pour les données qui ne contiennent pas de variable cible, permettant au modèle de découvrir des structures ou des relations cachées dans les données. Cela est particulièrement utile pour des tâches comme la réduction de dimensions ou le regroupement.

Une autre distinction importante réside dans l’utilisation des paramètres et hyperparamètres dans les modèles. Les paramètres sont les coefficients internes que le modèle apprend à partir des données d’entraînement. Ils sont ajustés pendant le processus d’apprentissage pour minimiser la fonction de perte et améliorer la précision du modèle. Par exemple, dans un modèle de régression linéaire, les paramètres incluent les coefficients de pente et l’intercept. Ces paramètres sont optimisés au moyen d'algorithmes d'optimisation qui ajustent les valeurs afin de mieux correspondre aux données observées.

Les hyperparamètres, quant à eux, sont les réglages externes du modèle, définis par le praticien avant le début de l'entraînement. Ces paramètres incluent des éléments comme la taille de l’échantillon, le nombre d’arbres dans un modèle Random Forest ou le taux d’apprentissage dans des méthodes comme la régression. L’optimisation des hyperparamètres peut être réalisée à travers des techniques comme la recherche par grille ou la recherche aléatoire, et vise à déterminer les meilleures valeurs permettant de maximiser les performances du modèle.

Lorsque l’on parle de la modélisation des maladies infectieuses, il devient crucial de comprendre comment les variables vont évoluer au fil du temps. La sélection du modèle approprié doit prendre en compte les dynamiques de croissance des agents pathogènes et des populations, un facteur essentiel dans le choix des bons paramètres à intégrer.

En somme, la construction d’un modèle efficace repose sur plusieurs étapes clés. D’abord, la définition du ou des paramètres pertinents (qu’ils soient à la fois indépendants et dépendants). Ensuite, le choix du type de modèle adapté au problème, que ce soit un modèle mécaniquement dirigé ou un modèle basé sur l’apprentissage des données, doit refléter les caractéristiques spécifiques des données disponibles. Ce processus s’accompagne d’une optimisation continue, où les hyperparamètres jouent un rôle essentiel dans l’amélioration des résultats prédictifs. L’évolution des agents pathogènes, la manière dont ils interagissent avec leur environnement et les ajustements constants des hôtes face à ces changements sont des éléments fondamentaux dans la compréhension des dynamiques de propagation des maladies infectieuses.

Les modèles de l’apprentissage machine permettent donc d’intégrer de manière flexible et précise ces interactions biologiques complexes, et constituent des outils puissants pour prédire et comprendre la diffusion des maladies infectieuses dans un environnement donné.

Comment l'utilisation de la proximité spatiale dans les modèles de Krigeage aide à prédire les risques d'infections

Les modèles de Krigeage sont devenus des outils essentiels dans la cartographie des risques d'infections. En se basant sur des principes géostatistiques, le Krigeage permet de prédire des phénomènes spatiaux en tenant compte des données disponibles à différents endroits, mais aussi de l'autocorrélation spatiale entre ces points. Cela permet d'obtenir une estimation précise des risques sanitaires dans des zones géographiques spécifiques, même lorsque les données sont incomplètes ou disparates.

La proximité spatiale dans le Krigeage repose sur l'idée que les phénomènes sanitaires, comme la propagation des maladies infectieuses, ne se répartissent pas de manière uniforme à travers l'espace. Par exemple, les foyers d'infections virales sont souvent localisés dans des régions où des conditions environnementales spécifiques favorisent leur apparition, comme dans les zones urbaines denses ou les régions tropicales. Les modèles de Krigeage, en prenant en compte ces disparités géographiques, permettent non seulement d’estimer les risques mais aussi d'identifier des zones particulièrement vulnérables, souvent avant même qu'une épidémie ne se déclare officiellement.

Le Krigeage, en modélisant les effets de la proximité spatiale, sert ainsi de fondation pour la cartographie des risques sanitaires. Cette approche est particulièrement utile dans les études épidémiologiques, où la localisation géographique joue un rôle clé. Par exemple, dans le cas du choléra ou de la malaria, des cartes peuvent être générées pour prédire les foyers d'infection en fonction de paramètres comme la température, la précipitation ou la densité de population. Grâce à l’application de ces modèles, les autorités sanitaires peuvent planifier des interventions ciblées, optimisant ainsi les ressources et les efforts de prévention.

Un des avantages du Krigeage est sa capacité à intégrer des données de différentes sources, qu’elles proviennent de relevés de terrain ou de données satellitaires, offrant ainsi une vue d'ensemble plus complète du terrain et de ses risques. En modélisant les tendances spatiales et les interactions entre différents facteurs de risque, les épidémiologistes peuvent obtenir une image plus claire des dynamiques de transmission des infections. Ce type d'analyse est crucial pour anticiper les évolutions possibles d'une épidémie, de la zone géographique concernée à l'intensité de la transmission.

La mise en œuvre de ces modèles est particulièrement pertinente dans le contexte des maladies infectieuses émergentes, où les connaissances sur les facteurs environnementaux et sociaux sont encore limitées. Par exemple, lors de la surveillance de nouvelles souches de virus, la capacité à prédire les zones à risque, et à surveiller l’évolution de la maladie à l’échelle locale, devient un outil de gestion primordial. En outre, l’utilisation du Krigeage dans les modèles d’extension spatiale de maladies, comme le virus Ebola ou le COVID-19, peut non seulement offrir une prédiction de la propagation mais aussi évaluer l'impact des interventions sanitaires, telles que la vaccination ou le confinement, sur la dynamique épidémique.

Dans les systèmes de gestion de la santé publique, l’intégration du Krigeage dans les processus de décision permet de réduire l’incertitude associée aux prévisions épidémiques. Cependant, il est important de souligner que ces modèles nécessitent une calibration et une validation continues pour être fiables, car les données locales peuvent varier de manière significative, même à une échelle spatiale relativement réduite.

De plus, il est essentiel pour le lecteur de comprendre que la proximité spatiale ne se limite pas uniquement aux caractéristiques géographiques. Elle inclut également des variables sociales et comportementales qui peuvent influencer la propagation d’une infection. Par exemple, la mobilité des populations, les pratiques culturelles ou même l'accès aux soins de santé peuvent interagir de manière complexe avec les facteurs environnementaux pour déterminer la dynamique d'une épidémie. Il est donc crucial de considérer ces éléments dans la modélisation pour obtenir des prédictions plus robustes et pertinentes.

Les avancées récentes dans les techniques de Krigeage, couplées avec les données en temps réel issues des technologies de surveillance et des analyses big data, permettent d’envisager des prédictions toujours plus précises. Cependant, il est impératif de reconnaître que ces modèles doivent être constamment réévalués et adaptés en fonction de l'évolution des conditions locales et des nouvelles connaissances scientifiques. Par conséquent, l'interprétation des cartes générées par ces modèles doit être accompagnée d'une prise en compte approfondie des spécificités contextuelles pour être réellement utile dans la gestion des risques sanitaires.

Comment évaluer la performance des modèles de régression avec des ensembles de données de santé publique

L'évaluation des modèles de régression dans le domaine de la santé publique est essentielle pour déterminer l'efficacité des prédictions des différentes méthodes sur des ensembles de données complexes. Dans ce contexte, l'objectif est de prédire des indicateurs tels que les DALYs (Disability-Adjusted Life Years) pour des maladies spécifiques à l'aide de diverses techniques de machine learning. Ces approches incluent l'utilisation de modèles comme le XGBoost ou la régression logistique régularisée avec glmnet, et la comparaison de leurs performances en fonction de métriques telles que l'erreur quadratique moyenne (MSE), l'erreur absolue moyenne (MAE) ou l'erreur quadratique moyenne racine (RMSE).

Les étapes initiales dans l'utilisation de ces modèles incluent la préparation des données. Les ensembles de données doivent être nettoyés en supprimant les valeurs manquantes et les variables catégorielles, le cas échéant, avant de les utiliser dans les modèles de machine learning. Une fois les données prêtes, un "task" de régression est défini avec la classe TaskRegr, spécifiant l'objectif de prédiction ainsi que la base de données utilisée pour l'entraînement. Par exemple, dans l'analyse des DALYs dus à la dengue, les variables comme l'année, les DALYs, les YLDs (Years Lived with Disability) et les YLLs (Years of Life Lost) peuvent être pertinentes pour la modélisation.

Une fois le jeu de données préparé et le modèle sélectionné, il est important de définir une stratégie de résampling afin d'estimer la performance de généralisation du modèle. Dans cet exemple, la validation croisée (avec 5 plis) est utilisée pour tester la robustesse des modèles. Ensuite, une grille de benchmark est créée pour comparer les performances de différents modèles, tels que cv_glmnet et xgboost, en utilisant des métriques comme l’erreur quadratique moyenne (MSE).

Les résultats des benchmarks sont cruciaux pour analyser les performances des différents modèles. L'utilisation de benchmark() permet d'exécuter ces comparaisons et d'extraire les métriques des différents tests. L'une des métriques les plus couramment utilisées pour évaluer la performance des modèles de régression est la MSE (Mean Squared Error), qui permet de quantifier la différence entre les valeurs observées et celles prédites par le modèle. Un MSE plus faible indique un meilleur ajustement du modèle aux données. En plus de cela, d’autres mesures comme la RMSE et la MAE peuvent être utilisées pour obtenir une évaluation plus détaillée de la précision des prédictions.

Une fois les résultats obtenus, il est possible d’effectuer une analyse graphique pour visualiser les performances des modèles. Par exemple, un graphique comparant les prédictions des deux modèles (cv_glmnet et xgboost) aux valeurs réelles permet d'observer où chaque modèle réussit ou échoue à capturer les tendances des données. Un tel graphique peut également être utile pour comprendre si un modèle tend à sous-estimer ou surestimer les valeurs, et pour visualiser l'ampleur de ces erreurs.

Les visualisations peuvent être étendues en utilisant ggplot2 pour afficher les prédictions par rapport aux valeurs réelles, en intégrant les courbes des différents modèles et en comparant leurs performances à travers les années, en particulier pour des périodes de temps spécifiques comme les années 1990-2016 dans l'exemple des DALYs dus à la dengue. De plus, des visualisations plus avancées permettent de segmenter les résultats par lieu, ce qui est particulièrement utile dans des études épidémiologiques où les différences géographiques peuvent jouer un rôle crucial dans l’interprétation des données.

Les modèles de machine learning, comme xgboost ou glmnet, ne sont pas seulement des outils puissants pour prédire des résultats sur les données d'entraînement, mais ils peuvent aussi être appliqués à des ensembles de données plus récents pour tester leur performance sur de nouvelles données non observées. C’est ici que la véritable puissance de ces modèles devient apparente, car ils permettent de prédire des indicateurs de santé publique pour des années futures, comme l'impact des maladies pour la période 2017-2021. Ces prédictions peuvent être cruciales pour les décideurs politiques et les experts en santé publique qui cherchent à comprendre et à anticiper les besoins futurs en matière de santé publique.

Il est également essentiel de souligner que l’évaluation des performances des modèles ne doit pas se limiter à l’analyse des résultats en termes de valeurs d’erreur. L’interprétation des modèles doit prendre en compte la complexité des données, la qualité des variables utilisées, et la capacité des modèles à généraliser au-delà des données d’entraînement. En effet, les performances peuvent varier en fonction de la nature des données, de la présence de bruit, et des méthodes de prétraitement appliquées. Par conséquent, une approche combinée, qui inclut des métriques multiples et des validations croisées sur des ensembles de données externes, peut offrir une évaluation plus robuste et plus fiable de la capacité prédictive des modèles.

Il convient également de mentionner l’importance de la reproductibilité dans l’analyse des données. Lorsque l’on travaille avec des modèles de machine learning, il est crucial que les processus de préparation des données, d’entraînement des modèles, et d’évaluation des performances soient transparents et reproductibles. Cela garantit que les résultats obtenus sont fiables et peuvent être reproduits dans d'autres études ou contextes.

Enfin, il est important de noter que l’optimisation des hyperparamètres, comme le nombre d’arbres ou la profondeur maximale dans le cas du xgboost, joue un rôle clé dans l’amélioration des performances des modèles. L’ajustement minutieux de ces paramètres en fonction des spécificités des données peut entraîner des améliorations significatives en termes de précision des prédictions.

Comment utiliser les techniques avancées de visualisation pour analyser les tendances démographiques mondiales ?

La visualisation des données est une composante essentielle dans l’analyse des tendances démographiques, permettant de rendre plus accessibles des ensembles de données souvent complexes. Une méthode particulièrement intéressante est l’utilisation du package R geomtextpath et de la fonction geom_textline(), qui permet d'ajouter des étiquettes le long d'un tracé dans un graphique. Cette technique est particulièrement utile pour les séries temporelles où il est essentiel de mettre en évidence des informations spécifiques tout en préservant la clarté visuelle.

Dans l'exemple suivant, on analyse les perspectives démographiques mondiales selon les Nations Unies, de 1949 à 2021, en représentant la population totale pour chaque année. Le code suivant montre comment extraire les données et les visualiser à l'aide de geomtextpath :

r
all_ages <- popAge1dt %>%
group_by(year, name) %>%
reframe
(tot_pop = sum(pop)) all_ages %>%
filter(!name == "World") %>%
ggplot
(aes(x = year, y = tot_pop, group = name)) + geom_line(color = "grey", linewidth = 0.2) + geomtextpath::geom_textline(data = all_ages %>% filter(name == "World"),
aes(label = name),
color
= "red", linewidth = 1) + labs(title = "United Nations World Population Prospects [1949 - 2021]",
x = "Year", y = "Population in thousands",
caption
= "Data Source: UN World Pop 2022 | Graphic: @fgazzelloni")

Ce code produit un graphique où la ligne représentant la population mondiale est clairement mise en valeur grâce à une étiquette située le long du tracé, ce qui permet de suivre l’évolution de la population mondiale au fil du temps. Il est à noter que l’utilisation de la couleur rouge pour l'étiquette et la ligne aide à attirer l’attention du lecteur sur la donnée spécifique.

Outre l’ajout d’étiquettes, d’autres éléments de visualisation sont essentiels pour une analyse complète des données démographiques. Par exemple, les pyramides des âges sont une représentation classique permettant de visualiser la structure de la population selon l’âge et le sexe. Pour créer une pyramide des âges, les données doivent être transformées en un format "long" avant d’être visualisées avec un graphique en barres. Ce type de graphique est particulièrement utile pour comparer les distributions démographiques dans différents pays ou régions.

L'exemple suivant montre comment créer une pyramide des âges pour différentes catégories de pays en utilisant les données des Nations Unies sur la population :

r
data <- popAge1dt %>%
select(name, year, age, popF, popM) %>% pivot_longer(cols = c(popM, popF), names_to = "sex", values_to = "population") %>%
mutate(value = ifelse(sex == "popF", as.integer(population * -1), as.integer(population)))
data
%>% filter(name == "High-income countries") %>%
ggplot(aes(x = age, y = value, fill = sex)) +
geom_bar
(stat = "identity") + scale_fill_manual(values = c("#CC6666", "#9999CC")) + coord_flip() +
labs(title = "United Nations World Population Prospects 2022",
subtitle
= "High-income countries", x = "Age", y = "Population in thousands", fill = "", caption = "Data Source: UN World Pop | Graphic: @fgazzelloni") + theme_minimal()

Une pyramide des âges se compose généralement de deux barres opposées qui représentent la population masculine et féminine. Le fait de positionner ces barres sur des axes inversés permet de visualiser facilement les différences de population entre les sexes et de repérer d’éventuelles anomalies dans la répartition par âge.

Il est aussi possible de générer des graphiques animés pour suivre l'évolution de ces pyramides des âges au fil des années. En utilisant la fonction gganimate dans R, il est possible de créer une animation fluide qui montre l'évolution de la population en fonction des tranches d’âge et des années.

r
library(gganimate)
pyramid_gif <- pyramid + transition_states(year, transition_length = 1, state_length = 2) + enter_fade() + exit_fade() + ease_aes("cubic-in-out") animate(pyramid_gif, fps = 72, duration = 6, width = 1200, height = 1400, res = 180, renderer = gifski_renderer("images/12_unp_pyramid.gif"))

Cette approche permet de visualiser les changements démographiques au fil du temps, ce qui est particulièrement pertinent dans le contexte des projections de population mondiales. L’ajout de ce type de visualisation dynamique améliore considérablement l’engagement du lecteur, en rendant l’analyse des données plus interactive et compréhensible.

Au-delà de la simple création de graphiques, il est essentiel de considérer plusieurs facteurs contextuels pour une analyse complète. Les données démographiques ne doivent pas être interprétées de manière isolée ; elles sont profondément influencées par des facteurs économiques, sociaux et politiques. Par exemple, la répartition de la population par âge et sexe peut révéler des informations importantes sur les tendances économiques et les défis auxquels une société est confrontée, notamment en ce qui concerne les politiques de santé publique, les systèmes de retraite, ou encore les migrations internationales.

La visualisation des données, lorsqu'elle est correctement mise en œuvre, peut également contribuer à une meilleure prise de décision en matière de politiques publiques. Les représentations graphiques claires permettent de comprendre rapidement les tendances et d’identifier les zones nécessitant une attention particulière. Un autre point crucial est de toujours garder en tête que la précision des données utilisées est primordiale. En effet, des erreurs dans la collecte ou l’interprétation des données peuvent fausser les résultats et mener à des conclusions erronées.