I residui relativi alle equazioni 13.50 e 13.51 sono presentati nella Tabella 13.14. Mentre la somma dei residui per l'Equazione 13.51 è pari a zero, la somma dei residui per l'Equazione 13.50 non lo è. Tuttavia, la somma dei residui per l'Equazione 13.49 risulta zero nello spazio del logaritmo naturale. La somma non nulla dei residui indica che il modello è distorto, con un errore medio di 539, che rappresenta il 23,4% della media di Y. Questo errore è molto significativo. Il coefficiente di correlazione e l'errore standard di stima calcolati per il modello nello spazio del logaritmo naturale non sono indicatori validi della precisione delle stime nel dominio della variabile dipendente non trasformata. Ad esempio, il coefficiente di correlazione di 0,9851 calcolato con l'Equazione 13.49 non misura la precisione dell'Equazione 13.50. I valori di Y stimati con l'Equazione 13.50 sono riportati nella Tabella 13.14, e i relativi residui sono indicati come ee.
Se applicato il concetto di separazione della variazione all'Equazione 13.50, i componenti sono:
I valori risultanti non soddisfano la separazione della variazione per l'Equazione 13.50, in quanto il modello è stato calibrato prendendo i logaritmi. La separazione della variazione si applica, tuttavia, ai logaritmi. Se il coefficiente di correlazione fosse calcolato come il rapporto tra la variazione spiegata e la variazione totale (Equazione 13.20), il risultato sarebbe maggiore di 1, il che non ha senso. Pertanto, piuttosto che il coefficiente di correlazione, l'errore standard di stima dovrebbe essere utilizzato come misura di precisione:
La deviazione standard della variabile dipendente (SY) è 3470,97; pertanto, il modello potenza non è altamente preciso, cioè , e il coefficiente di correlazione calcolato per il modello logaritmico (0,9851) non riflette sicuramente la precisione del modello nel predire Y.
Nel caso di un modello di regressione multivariato, si considera un esempio che riguarda i dati sul rendimento dei sedimenti. Qui, la piccola dimensione delle particelle non può essere inclusa come variabile predittiva, poiché alcune osservazioni sono pari a zero. Il modello regredisce quindi il rendimento dei sedimenti (Y) su tre variabili predittive: il rapporto precipitazioni/temperatura (P), la pendenza del bacino (S) e l'indice di aggregazione del suolo (I). I dati sono riportati nella Tabella 13.15, e l'equazione di regressione risultante in forma di potenza è:
La trasformazione di questa equazione nello spazio X−Y dà il seguente modello:
Il programma informatico fornisce un coefficiente di correlazione di 0,725 e un errore standard di stima di 1,019; tuttavia, questi valori si riferiscono all'Equazione 13.55 e potrebbero non essere indicatori accurati della precisione dell'Equazione 13.56. L'errore standard di stima, espresso in unità logaritmiche, è di 0,595, che può essere confrontato con la deviazione standard di 0,817 per i 37 campioni di rendimento dei sedimenti.
Un modello lineare calibrato usando le stesse tre variabili predittive dà l'equazione seguente:
In questo caso, il coefficiente di correlazione multipla è 0,720 e l'errore standard di stima è 0,592, cioè . Pertanto, per questo esempio, non c'è una differenza significativa nella precisione attesa tra i modelli lineare e di potenza.
Nel caso della stima dei costi di costruzione di una diga frangiflutti, un modello bivariato tra il costo di costruzione e la lunghezza della diga si è rivelato impreciso. L'analisi di regressione multivariata, che include la lunghezza e la profondità media della diga, fornisce un'equazione che descrive accuratamente i costi:
Il coefficiente di correlazione multipla è 0,987, con , indicando che il modello a due predittori fornisce stime accurate dei costi. L'errore standard di stima è di $25,3 \times 10^3, con . Inoltre, la statistica F è particolarmente elevata (210), suggerendo che il modello è significativo.
In generale, è fondamentale evitare l'uso di equazioni di regressione al di fuori dell'intervallo dei dati utilizzati per calibrare i coefficienti, specialmente quando il campione è ridotto. Anche se il modello multivariato spiega una parte significativa della varianza, aggiungere variabili deve sempre essere fatto con cautela, valutando la qualità dell'adattamento e la rilevanza del modello.
Come si determina e interpreta la funzione di massa di probabilità e la funzione di densità per variabili casuali discrete e continue?
La funzione di massa di probabilità (PMF) è uno strumento fondamentale per descrivere il comportamento di variabili casuali discrete. Essa associa a ogni valore possibile della variabile una probabilità, garantendo che la somma di tutte queste probabilità sia pari a uno. Per esempio, considerando il lancio di un dado, ogni faccia ha probabilità 1/6. Tuttavia, quando i dati provengono da un campione limitato, le probabilità calcolate potrebbero non riflettere accuratamente quelle della popolazione. Un piccolo campione, come cinque lanci di dado, può portare a stime distorte: alcune probabilità risultano sovrastimate, altre addirittura nulle per eventi non osservati. L’aumento della dimensione del campione tende a mitigare queste discrepanze, avvicinando le probabilità campionarie a quelle vere della popolazione.
Nel caso di eventi reali come il numero di uragani negli Stati Uniti in un determinato periodo, la funzione di massa di probabilità mostra una distribuzione non uniforme e con una tendenza decrescente all’aumentare del numero di uragani. Sebbene in 15 anni non si siano mai superati sei uragani annuali, si deve comunque considerare la possibilità teorica di valori maggiori. Ciò implica che la funzione di massa della popolazione potrebbe estendersi oltre i dati campionari, riflettendo l’incertezza intrinseca e l’eventuale rarità di eventi estremi.
Per le variabili casuali continue, la probabilità non può essere assegnata a singoli valori, poiché la probabilità che la variabile assuma esattamente un valore specifico è zero. La probabilità è invece definita su intervalli, ed è descritta dalla funzione di densità di probabilità (PDF). Questa funzione, integrata su un intervallo, fornisce la probabilità che la variabile ricada in quell’intervallo. La somma integrale della PDF su tutto il dominio deve essere pari a uno, garantendo che la probabilità totale sia completa. La funzione di distribuzione cumulativa (CDF) è la primitiva della PDF e rappresenta la probabilità che la variabile assuma un valore minore o uguale a una certa soglia.
Un esempio illustrativo considera una variabile casuale continua con densità lineare crescente da zero a due, con costante di normalizzazione calcolata in modo che l’area sotto la curva sia uno. Le probabilità di eventi specifici, come , risultano nulle, mentre la probabilità che assuma un valore entro un intervallo definito si calcola facilmente tramite l’integrale della PDF o tramite la differenza dei valori della CDF agli estremi dell’intervallo. Questo sottolinea la differenza essenziale tra variabili discrete e continue: le prime hanno probabilità assegnate a punti, le seconde a intervalli.
Oltre a comprendere le definizioni matematiche, è cruciale cogliere che le funzioni di probabilità sono strumenti per modellare l’incertezza, e che le osservazioni campionarie non sempre rappresentano fedelmente la realtà sottostante, specie con campioni piccoli. Per variabili continue, l’attenzione si sposta dal valore puntuale alla probabilità su intervalli, aprendo la strada a concetti di densità e distribuzione cumulativa, fondamentali per analisi più sofisticate.
È importante inoltre riconoscere che la scelta della funzione di massa o di densità deve tenere conto delle caratteristiche dell’evento o fenomeno studiato, incluse eventuali limitazioni naturali o teoriche sui valori che la variabile può assumere. Le funzioni stesse sono strumenti flessibili, adattabili alla realtà osservata, ma sempre con l’attenzione a non trascurare possibili eventi rari o estremi, la cui probabilità, pur bassa, non è nulla.
Generative AI e la Protezione dei Dati: Rischi, Sfide e Risposte Regolatorie
Come costruire un pitch vincente: il modello di ricavo e la proposta di valore
Quali sono gli effetti dell'integrazione dei droni cargo nel traffico aereo di avvicinamento aeroportuale?
Religione, Economia e Comportamento: L'influenza della Pietà Protestante sul Conservatorismo Economico
Semplificare le espressioni algebriche e risolvere i problemi matematici
Raccomandazioni per l'insegnante nella gestione di attività progettuali e di ricerca Sforzatevi di sviluppare le inclinazioni e le capacità individuali di ogni bambino Concentratevi sul processo di ricerca Insegnate a identificare le connessioni tra oggetti, eventi e fenomeni Insegnate ai bambini a raccogliere informazioni, analizzarle, sintetizzarle e classificarle Non farete per i bambini ciò che possono fare da soli Insegnate agli studenti ad analizzare le situazioni e a risolvere i problemi di ricerca Ricordate, quando valutate: è meglio lodare senza motivo che criticare senza motivo.
Modello Strutturato e Innovativo del Servizio Metodologico nella Scuola: Approcci, Principi e Strumenti per lo Sviluppo Professionale dei Docenti
Ordine per l'erogazione dei pasti agli studenti della Scuola Media Statale n. 2 di Makaryevo, Distretto Municipale di Makaryevo, Regione di Kostroma

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский