Når man arbejder med regressionsmodeller, er valget af modelstruktur afgørende for at opnå præcise og pålidelige forudsigelser. Dette gælder især i tilfælde, hvor man søger at forstå sammenhængen mellem to variabler, som tid og projektomkostninger, eller afstand og koncentration af et stof. I sådanne tilfælde kan både valget af en lineær model og en model uden skæring (zero-intercept model) have stor betydning for de resultater, man opnår, samt kvaliteten af de forudsigelser, man laver.
Et eksempel på en regressionsanalyse, der anvender en zero-intercept model, stammer fra et ingeniørprojekt, hvor omkostningerne ved et byggeprojekt blev estimeret over tid. I denne analyse blev en lineær, zero-intercept, bivariant model anvendt til at forudsige omkostningerne (Y) i millioner af dollars, hvor X repræsenterede tiden i måneder fra projektets start. Modellen kunne beskrives ved følgende formel:
Ŷ = 0.50421X
Her blev det tydeligt, at denne model undervurderede omkostningerne i midten af perioden og overestimerede dem i starten og slutningen. Standardfejlen for estimeringen var relativt høj (7,73 millioner dollars), hvilket indikerede, at modellen ikke var særligt præcis. Selvom modellen var bedre end blot at bruge gennemsnittet som estimering, viste den sig at være biased, da den gennemsnitligt undervurderede værdierne med omkring 520.000 dollars. Dette betyder, at en zero-intercept model kan have en tendens til at give systematiske fejl, hvilket skal tages i betragtning, når man vælger modelstruktur.
I modsætning til dette blev der også præsenteret en lineær model med en intercept, som gav et mere præcist og ubiased estimat. Denne model kunne beskrives med følgende ligning:
Ŷ = 2.36 + 0.4570X
Denne model havde en langt lavere standardfejl (2.651 millioner dollars) og forklarede 94% af variationen i de observerede værdier. Selvom modellen stadig havde nogle lokale bias i residualerne, især for tidsperioder mellem 18 og 48 måneder, viste den sig at være mere præcis og pålidelig end zero-intercept modellen. Dette skyldes, at interceptet i modellen indikerede en realistisk startværdi for omkostningerne, mens zero-intercept modellen, som havde en forudset værdi på nul for projektstarten, ikke stemte overens med virkeligheden.
I begge modeller, zero-intercept og lineær, var der dog nogle problemer med residualerne, især i de tidlige og sene faser af projektet, hvilket indikerede, at ingen af modellerne var helt ideelle. Dog, som i mange praktiske anvendelser, kan disse modeller være tilstrækkelige til at give et overordnet estimat af fremtidige omkostninger eller udfordringer i projekter.
En vigtig betragtning ved valg af modelstruktur er, at en zero-intercept model, selvom den kan virke intuitiv i visse sammenhænge, kan introducere bias, der ikke er let at opdage, medmindre man nøje analyserer residualerne og ser på modelens præstation på forskellige tidspunkter eller intervaller. En lineær model med intercept kan ofte være mere realistisk, især når man har at gøre med data, der kræver en ikke-nul startværdi.
Det er også vigtigt at forstå, at valget af model kan afhænge af dataenes karakteristika og formålet med analysen. I eksemplet med koncentrationen af 241Am i jordprøver, som blev målt i nærheden af et atomkraftværk, kunne en ekstrem måling (et outlier) have stor indflydelse på den oprindelige regressionsmodel. Ved at udelade denne ekstreme måling og bruge en model baseret på de resterende syv målinger, kunne en mere præcis regressionslinje opnås, som havde en bedre standardfejl og et højere korrelationskoefficient. Dette eksempel understreger vigtigheden af at være opmærksom på ekstreme data og overveje deres indflydelse på regressionsmodellen.
Endelig, når man arbejder med regression, er det også afgørende at overveje transformationer af de variabler, man bruger. I nogle tilfælde kan en transformation som at bruge den reciprokke værdi af en uafhængig variabel (som i tilfælde af brændstofforbrug og hastighed) føre til en model, der giver bedre forudsigelser og reducerer fejlene i analysen. Dette viser, at variabeltransformationer kan være en effektiv metode til at forbedre regressionens præcision.
I sidste ende er det ikke kun modelens præcision, der betyder noget, men også dens evne til at afspejle de virkelige forhold og forretningsmæssige krav. Selv de bedste modeller kan have visse begrænsninger, og det er ofte nødvendigt at justere eller vælge alternative modeller for at opnå de bedst mulige forudsigelser.
Hvordan bestemme sandsynlighedstætheden og forventningsværdien for funktioner af stokastiske variable?
I tilfælde hvor en stokastisk variabel følger en kendt sandsynlighedsfordeling, og vi ønsker at finde sandsynlighedstætheden for en funktion af denne variabel, såsom , kan dette gøres ved hjælp af transformationer og anvendelse af kædereglerne for sandsynlighedstætheder. Denne metode kræver først, at vi udtrykker den omvendte funktion og derefter finder dens afledte for at bruge den generelle formel for transformation af sandsynlighedstætheder. For en funktion som , hvor følger en eksponentiel fordeling med parameter , kan den omvendte funktion findes som , og den afledte af med hensyn til er givet ved . Ved at indsætte disse i den generelle transformationsformel, opnår vi sandsynlighedstætheden for , som ikke vil være en eksponentiel fordeling.
Denne tilgang viser, at sandsynlighedstætheder for funktioner af stokastiske variable kan afvige fra de oprindelige fordelinger, og det er vigtigt at forstå, hvordan transformationer påvirker resultaterne. I praksis er det ofte nødvendigt at udføre beregninger med både numeriske og analytiske metoder, især når funktionerne eller fordelingerne er komplekse.
Når vi beskæftiger os med stokastiske variable i anvendte matematiske og ingeniørmæssige kontekster, er det ikke altid sandsynligt, at vi er interesseret i hele sandsynlighedsfunktionen for en stokastisk variabel . I mange tilfælde er det tilstrækkeligt at bestemme de centrale momenter for , såsom dens forventningsværdi og varians. Dette kan gøres effektivt ved hjælp af den matematiske forventning. For en kontinuert stokastisk variabel og en funktion , gives den matematiske forventning ved formelen
Hvor er sandsynlighedstætheden for . Denne formel kan anvendes til at bestemme forventningen for enhver funktion , og den er særligt nyttig i praktiske beregninger, hvor vi kun er interesseret i de statistiske egenskaber ved uden nødvendigvis at skulle kende hele dens fordeling.
Matematisk forventning er lineær, hvilket betyder, at hvis , så er forventningen af givet ved . Variansen af vil være , uanset hvilken fordeling følger. Denne lineære egenskab gør beregningerne lettere, da vi ikke behøver at bekymre os om 's fordelingstype, så længe vi kender dens første og anden moment.
I tilfældet med flere stokastiske variable , kan den generelle funktion anvendes til at bestemme forventningen og variansen af . Forventningen af er simpelthen summen af de vægtede forventninger for hver variabel, og variansen af kan findes ved at tage hensyn til kovariansen mellem de involverede variable:
Når -variablene er uafhængige, forenkles dette udtryk betydeligt, da kovariansen bliver nul for . Denne simplificering gør det muligt hurtigt at beregne variansen, især i praktiske applikationer hvor uafhængighed er en rimelig antagelse.
For mere komplekse funktioner af flere stokastiske variable, hvor , og de involverede variable er statistisk uafhængige, kan forventningen af udtrykkes som produktet af de individuelle forventninger:
Variansen kan bestemmes ved en udvidelse af variansformlerne, men denne formel kræver, at man først beregner anden moment af hver variabel. I praksis er det ofte tilstrækkeligt at arbejde med approximationer og anvende de første ordens momenter, hvilket giver en hurtigere, hvis endda lidt mindre præcis, løsning.
Endelig er det ikke altid muligt at finde lukkede løsninger for komplekse stokastiske funktioner, og derfor er det ofte nødvendigt at anvende approximative metoder som Taylor-serieudvikling for at finde en tilnærmet løsning. For en enkelt stokastisk variabel og en funktion , kan Taylor-serieudviklingen give en førsteordens approximation af forventning og varians ved at udvide funktionen omkring dens middelværdi. Denne metode kan udvides til flere stokastiske variable ved at bruge en multivariat Taylor-serie.
Når præcision ikke er afgørende, kan approximative metoder være et nyttigt værktøj til at opnå tilstrækkelige resultater hurtigt. Det er dog vigtigt at være opmærksom på, at disse metoder kan introducere fejl, som kan blive betydningsfulde i nogle tilfælde, og derfor bør de anvendes med forsigtighed.
Hvordan effektivt fjerne støj i tekstklassifikation og anvende trænings- og testdatasæt i maskinlæring
Hvordan syntetiske strategier skaber nye muligheder i polyoxometalater og deres anvendelser i MOF-materialer
Hvordan vi genopbygger verden efter en katastrofe

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский