In der modernen Datenanalyse ist es von entscheidender Bedeutung, die zugrunde liegenden Strukturen und Zusammenhänge zwischen verschiedenen Variablen zu verstehen. Ein herausragendes Beispiel hierfür ist die Analyse von Unfällen zwischen Fahrern und Fußgängern, bei denen es darum geht, zu erkennen, welche Faktoren – insbesondere geodemografische Merkmale – einen Einfluss auf das Unfallgeschehen haben. Dieser Abschnitt behandelt, wie statistische Modelle, speziell Residuen-Analysen und Poisson-Regressionen, zur Aufklärung von Mustern in den Daten verwendet werden können.

Im ersten Schritt wird das Dataset vorbereitet. Dazu verwenden wir die dplyr-Bibliothek, um Gruppierungen vorzunehmen und die Marginalwerte für jede Gruppe zu berechnen. Die Funktion mutate(grand_total=n()) wird genutzt, um eine neue Variable zu erstellen, die die Gesamtzahl aller Unfälle im Datensatz darstellt. Es wird dann nach den Quintilen der Fahrer (driver_quintile) gruppiert, und mit der Funktion mutate(row_total=n()) wird die Gesamtzahl der Unfälle pro Fahrergruppe berechnet. Ähnlich wird nach den Quintilen der Fußgänger (casualty_quintile) gruppiert, wobei die Gesamtzahl der Unfälle pro Fußgängergruppe mit mutate(col_total=n()) berechnet wird.

Die zentrale Berechnung für diese Analyse erfolgt durch das Erstellen von erwarteten Werten, die auf der Annahme beruhen, dass Unfälle unabhängig von den geodemografischen Merkmalen von Fahrern und Fußgängern auftreten. Diese Erwartungswerte (Eij) werden berechnet, indem die Marginalwerte der jeweiligen Gruppen multipliziert und durch die Gesamtzahl aller Unfälle geteilt werden:

Eij=Ci×RjGTE_{ij} = \frac{C_i \times R_j}{GT}

Diese Formel liefert die erwartete Anzahl von Unfällen für jedes Zellenpaar der Heatmap, das später visualisiert wird.

Ein wichtiger Teil der Analyse ist die Berechnung der Residuen, also der Differenzen zwischen den beobachteten und den erwarteten Werten. Die Residuen werden wie folgt berechnet:

resid=observedexpectedexpectedresid = \frac{observed - expected}{\sqrt{expected}}