I moderne forretningsdrift er forståelsen af regression og sandsynlighedsmodeller en nødvendighed for at træffe informerede beslutninger og optimere operationelle processer. Specifikt inden for forsyningskæder, hvor usikkerheder og risici kan have stor indvirkning, bliver statistiske modeller afgørende for at vurdere og forudse mulige fremtidige hændelser. Regressionsteknikker, såsom simpel lineær regression, tilbyder en kraftfuld metode til at forstå forholdet mellem variabler og hvordan disse kan anvendes til risikovurdering.

Når beslutningstagere forsøger at forudsige værdier af en afhængig variabel ud fra en eller flere uafhængige variabler, opstår behovet for at bruge statistiske modeller, som kan hjælpe med at identificere mønstre og relationer i data. I denne sammenhæng giver regressionsteori et solidt fundament til at bygge sådanne modeller. En af de primære anvendelser af regression er at forudsige fremtidige tendenser, som for eksempel efterspørgslen på en given vare, baseret på faktorer som pris og markedsføring. Dette er et centralt aspekt i mange forsyningskæder, hvor præcise prognoser kan reducere lageromkostninger og optimere leveringspræcisionen.

I regression findes der to hovedkategorier af modeller, der ofte benyttes i erhvervslivet: (1) tidsserie regression, hvor den uafhængige variabel er tid, og formålet er at forudsige fremtidige værdier, og (2) regression af tværsnitsdata, hvor data samles for et enkelt tidsinterval, og flere uafhængige variabler analyseres samtidig. I komplekse forsyningskæder, der er præget af usikkerhed og ændringer over tid, bliver brugen af tidsserie regression og værktøjer som ARIMA-modeller (autokorrelerede glidende gennemsnit) meget relevante.

Når man arbejder med lineær regression, er det nødvendigt at anvende en metode som mindste kvadraters estimation for at finde de bedste skønnede værdier for parameterne, der definerer forholdet mellem de afhængige og uafhængige variabler. Denne metode minimerer summen af kvadraterne af fejlene, som opstår mellem de observerede data og de skønnede værdier. Dette giver en forståelse af, hvordan de valgte uafhængige variabler påvirker den afhængige variabel, og hvordan man kan bruge disse informationer til at lave præcise forudsigelser.

Et centralt mål i regression er koefficienten for bestemmelse, R², som angiver, hvor stor en del af variationen i den afhængige variabel der kan forklares af de uafhængige variabler. En høj R²-værdi indikerer, at modellen er god til at forklare dataene, men det er vigtigt at være opmærksom på, at en høj R² ikke altid betyder, at modellen er bedst egnet til det pågældende formål. I mange tilfælde, som i markedsføringsundersøgelser, vil en R²-værdi på 0,6 eller højere blive betragtet som en god pasform.

Når man arbejder med multiple regression, bliver det endnu vigtigere at forstå, hvordan man udvælger de mest relevante uafhængige variabler og vurderer modellens tilpasningsevne. Regression er ikke kun et spørgsmål om at finde de bedste statistiske værdier, men også om at forstå, hvordan disse værdier kan bruges praktisk i beslutningstagning og risikovurdering. I en forsyningskæde, der kan være udsat for både planlagte og uforudsete forstyrrelser, vil en effektiv brug af regression kunne hjælpe med at forudse ændringer i efterspørgslen, vurdere risici for forsinkelser og optimere produktionsplanlægning.

Et eksempel på anvendelsen af regression i en forsyningskæde kunne være forudsigelsen af lagerbeholdninger under varierende efterspørgsel og produktvarianter. Ved at bruge regression til at analysere data om tidligere efterspørgsel, lagerbeholdning og salgsfaktorer, kan en virksomhed identificere mønstre og udvikle en effektiv strategi for lagerstyring. Desuden kan metoder som Monte Carlo-simulering og Bayesianske netværk anvendes til at vurdere risici og usikkerheder i forsyningskæden. Dette giver mulighed for at simulere forskellige scenarier og forstå de potentielle konsekvenser af beslutninger under usikkerhed.

Det er også vigtigt at erkende, at regression og sandsynlighedsmodeller ikke nødvendigvis giver præcise forudsigelser, men snarere sandsynlige udfald. I en forsyningskæde med mange variable faktorer, som økonomiske ændringer, politiske beslutninger eller pludselige markedsforstyrrelser, er det nødvendigt at supplere statistiske modeller med viden om eksterne faktorer og menneskelige beslutningstagning. Dette understreger vigtigheden af en holistisk tilgang til risikovurdering, hvor både dataanalyse og systemforståelse er integreret.

Således giver regression og sandsynlighedsmodeller ikke kun et værktøj til at forstå fortiden og forudsige fremtiden, men fungerer også som fundamentet for at træffe informerede beslutninger, der kan minimere risici og maksimere effektiviteten i forsyningskæder. Disse metoder kan anvendes til at håndtere både langvarige og kortvarige forstyrrelser og til at skabe robuste strategier for både produktions- og logistikstyring i et stadig mere komplekst og dynamisk erhvervsliv.

Hvordan bruger man regressionsmodeller til at forudsige og klassificere risici?

Estimering af parametre for en lineær regressionsmodel foretages ved hjælp af metoden for mindste kvadraters metode. Regressions betydning vurderes ved at betragte regressionsanalyse som en form for variansanalyse. De centrale statistikker, der anvendes til at evaluere resultaterne, er bestemmelseskoefficienten, korrelationskoefficienten og ANOVA F-testen. Det er vigtigt at være opmærksom på de underliggende antagelser, der anvendes i metoden for mindste kvadrater: normalfordelte fejl og konstant varians. Hvis disse antagelser ikke overholdes, kan den statistiske betydning af resultaterne være tvivlsom.

I modeller for multipel regression bør man være forsigtig med multikolinearitet, som kan undgås ved nøje valg af uafhængige variabler, der ikke indeholder overlappende information. Dog afhænger behovet for at undgå multikolinearitet af den tiltænkte anvendelse af modellen. Multikolinearitet hindrer ikke regressionens evne til at forudsige, men det kan være fornuftigt at inkludere flere uafhængige variabler, der indeholder overlappende information, hvis det giver mening ud fra et teoretisk perspektiv (for eksempel hvis man forventer, at den uafhængige variabel har en påvirkning på den afhængige variabel).

Når vi ser på klassifikationsværktøjer, begynder vi med logistisk regression, går videre til support vector machines, neurale netværk og beslutningstræer (inklusive random forests). Vi demonstrerer disse metoder ved hjælp af R-programmering, som også inkluderer boosting. Klassifikation bruger et træningssæt til at identificere klasser eller klynger, som derefter bruges til at kategorisere data. Typiske anvendelser inkluderer kategorisering af risici og afkast for investeringer samt kreditrisiko for låneansøgere. I denne sammenhæng bruger vi et dataset om konkursrisiko for organisationer i Kina.

Dataene stammer fra Kaggle.com og indeholder 32.581 observationer, hvoraf 7.108 har misligholdt et lån, og 25.473 har ikke. Der er nogle manglende data for variablerne ansættelsestid og lånerente. Dette dataset beskriver attributterne for låntagerne og lånet, som giver en indikation af deres risikoprofil. De vigtigste variabler omfatter låntagers alder, indkomst, lånebeløb, rente, lånerisiko, og tidligere betalingshistorik. Vi udelader de kategoriske variabler som boligstatus og låneformål samt de variabler, hvor der mangler data.

Logistisk regression bruges her, fordi nogle af de data, vi arbejder med, er ordinale eller nominale. For eksempel er køn og uddannelsesniveau binære variabler. I vores model for kreditrisiko er låneansøgernes status binær (godkendt eller misligholdt), mens kreditvurdering er ordinal. Da regressionsanalyse kræver numeriske data, koder vi de binære variabler som 0 eller 1. For eksempel tildeles mænd værdien 0, mens kvinder får værdien 1. Ansøgere med en universitetsgrad får værdien 1, mens de uden en grad får 0.

Formålet med logistisk regression er at klassificere observationer i den mest sandsynlige kategori. Logistisk regression giver et sæt β-koefficienter for interceptet (eller intercepts i tilfælde af ordinal data med flere kategorier) og uafhængige variabler, som derefter kan anvendes på en logistisk funktion for at estimere sandsynligheden for at tilhøre en bestemt outputklasse. Den matematiske formel for sandsynligheden for at acceptere en given observation i en bestemt kategori j er:

Pj=11+e(β0+βixi)P_j = \frac{1}{1 + e^{ -(β_0 + ∑β_i x_i)}}

Her er β-koefficienterne, som er fundet gennem den logistiske regressionsmodel.

For at køre en logistisk regressionsmodel i R kan man benytte følgende kode:

r
# China Credit Risk Data Set
CCreditRisk = as.data.frame(read.csv(“Chinacredit_risk_dataset.csv”)) # variabelkonvertering
CCreditRisk$loan_status = as.factor(CCreditRisk$loan_status)
# data partitionering set.seed(123) training.index = sample(c(1:dim(CCreditRisk)[1]), dim(CCreditRisk)[1] * 0.8)
training.data = CCreditRisk[training.index,]
test.data
= CCreditRisk[-training.index,] # kør den logistiske regressionsmodel
log_m1 <- glm(loan_status ~ person_age + person_income + loan_grade + loan_amt + loan_percent_income + cb_person_default_on_file + cb_person_credit_hist_length,
data
= training.data, family = “binomial”)

Denne kode giver en model, der estimerer sandsynligheden for, at en ansøger enten vil tilbagebetale eller misligholde et lån.

Logistisk regression giver også odds ratio for hver variabel, som gør det muligt at forstå, hvordan hver uafhængig variabel påvirker sandsynligheden for, at låneansøgeren vil misligholde et lån. For eksempel, hvis oddset for et bestemt lånebeløb er 17,294, betyder det, at sandsynligheden for at misligholde lånet øges betydeligt, når lånebeløbet stiger.

Endelig er det vigtigt at understrege, at klassifikationsmodeller som logistisk regression ikke kun giver indsigt i de faktorer, der driver en bestemt beslutning, men også kan bruges til at forudsige sandsynligheden for en given begivenhed. Det kræver dog, at antagelserne for den valgte model er opfyldt, og at de valgte variabler er korrekt kodet og valgt.

Hvordan R og RStudio Understøtter Effektiv Dataanalyse og Modellering

R er et programmeringssprog og en softwareplatform, der anvendes til statistisk analyse og datavisualisering. Det understøttes af flere operativsystemer, herunder Linux, Mac OS X og Windows, og er tilgængeligt gratis på www.r-project.org. R har vundet stor popularitet indenfor en lang række fagområder som bioinformatik, statistik, økonometrik, psykologi, maskinlæring og statistisk computing. Dets anvendelse er også i kraftig vækst indenfor erhvervslivet, især i forretningsanalyse som risikostyring, finansiel modellering, marketing og forudsigende analyser.

Når R er blevet downloadet, får brugeren adgang til en grafisk brugerflade (GUI), der fremgår i Figur 2.1. Selvom det er praktisk at udføre enkle operationer direkte i konsollen, bliver det hurtigt mere udfordrende, når operationerne bliver mere komplekse. Derfor kan RStudio IDE (Integrated Development Environment) være et nyttigt værktøj, som vi også benytter i denne bog. RStudio tilbyder en mere brugervenlig oplevelse ved at gøre det muligt at skrive og køre kode i et redigeringsvindue, i stedet for kun at skrive i konsollen. Det giver også mulighed for nemt at justere koden, genkøre den og analysere resultaterne.

I RStudio vises R-scriptet i den øverste venstre panel, mens konsollen vises nederst til venstre. Det globale miljø, hvor de dataobjekter, der er oprettet under arbejdsessionen, gemmes, vises i den øverste højre panel. Den nederste højre panel giver adgang til filer, plots, pakker og hjælpemuligheder. RStudio giver desuden fleksibilitet til at flytte rundt på panelerne alt efter brugerens præferencer.

I denne bog vil vi anvende RStudio til at demonstrere grundlæggende operationer i R, og hvordan man installerer og bruger pakker, der er nødvendige for forskellige modelleringsmetoder. Mange modeller kræver specifikke pakker, som skal installeres og indlæses, før de kan bruges. Installation af pakker kan gøres med install.packages("pakke_navn"), og pakkerne indlæses med biblioteket library(pakke_navn).

Når data skal behandles i R, bruger vi ofte strukturerede datafiler som .csv-filer, som kan importeres og læses ind i RStudio som datarammer. For eksempel, i denne bog anvender vi filen CreditCardFraud.csv til at oprette en dataframe. Når filen er indlæst, kan man analysere dens struktur ved hjælp af str() funktionen. For at transformere variabler, f.eks. for at omdanne en numerisk variabel til en kategorisk, kan man bruge funktioner som as.factor().

En af de mest anvendte funktioner i R er arbejdet med pakker, som indeholder funktioner og datasæt til specielle formål, såsom tidserier, statistiske tests og visualiseringer. I denne bog vil vi ofte bruge pakker som "caret", "randomForest", "xgboost" og flere andre, som er nyttige til at udvikle modeller, evaluere ydeevne og plotte ROC-kurver. For at bruge disse pakker skal de først installeres med install.packages() og derefter indlæses med library().

Når man arbejder med datamining, er en vigtig praksis at partitionere dataene til træning, test og validering af modellerne. I denne bog vil vi bruge et forhold på 70-80 % af dataene til træning og de resterende 20-30 % til test. For at sikre en tilfældig opdeling og undgå dataselektion bias, kan man bruge funktionerne set.seed() og sample() i R. Dette giver mulighed for at oprette en indeksvektor, som kan anvendes til at opdele dataene i trænings- og testdata.

Når man arbejder med modeller, er det vigtigt at forstå, hvordan man håndterer datatransformationer og korrekt opdeling af data til træning og test. At vælge den rette metode til dataopdeling er en grundlæggende færdighed, især når man arbejder med store datamængder, hvor det er nødvendigt at undgå overfitting og sikre, at modellen generaliserer godt til nye, usete data. At kunne justere data og vælge de rigtige funktioner er også centralt for at opnå præcise forudsigelser.

I arbejdet med R og RStudio er det essentielt at forstå, hvordan man effektivt kan manipulere data, installere og bruge pakker samt arbejde med datadeling og transformation. En god forståelse af disse værktøjer giver en solid grundlag for at udvikle komplekse modeller, der kan anvendes i forudsigende analyser, finansiel modellering og risikostyring.