L’algoritmo K-Means rappresenta una delle tecniche più utilizzate nell’apprendimento non supervisionato per la suddivisione di dati in gruppi omogenei, detti cluster. Nel contesto dell’analisi di un dataset, come ad esempio quello relativo alla percezione emotiva durante terremoti, il procedimento si articola in una serie di fasi fondamentali che permettono sia di costruire il modello di clustering sia di valutarne l’efficacia.

Il primo passaggio consiste nella determinazione dei centroidi, punti rappresentativi che sintetizzano la posizione media di ciascun cluster in relazione alle caratteristiche considerate. Ogni cluster è descritto da un vettore centroide che riassume le proprietà medie dei dati in esso contenuti, come mostrato nelle coordinate FCi (feature centroid) per ogni dimensione del dataset. Questo approccio consente una visualizzazione chiara e intuitiva della distribuzione degli elementi all’interno dello spazio delle caratteristiche. Ad esempio, nel caso considerato, si osservano valori specifici per ciascuna feature nei vari cluster, che ne descrivono la composizione media.

Successivamente, una fase cruciale riguarda la validazione del modello costruito. L’impiego di un dataset di test, composto dalle osservazioni non utilizzate per l’addestramento, consente di verificare la robustezza e la capacità predittiva dell’algoritmo. Attraverso funzioni specifiche come pdist2() in MATLAB, si calcola la distanza euclidea tra i punti di test e i centroidi dei cluster già definiti, assegnando ogni nuova osservazione al cluster più vicino. La rappresentazione grafica di questi risultati, mediante funzioni di plotting come gscatter(), permette di confrontare visivamente la collocazione dei punti di test con quella dei cluster originali, offrendo un riscontro immediato sulla bontà del modello.

I risultati di questa metodologia evidenziano come le osservazioni di test vengano correttamente attribuite ai rispettivi cluster, confermando la validità del modello K-Means per il dataset analizzato. La coerenza tra la posizione dei dati reali e quella dei dati previsti sottolinea l’efficacia dell’algoritmo nella classificazione non supervisionata.

Parallelamente, è importante comprendere che la scelta e la manipolazione delle feature rappresentano un fattore determinante per il successo del clustering. Le variabili selezionate devono riflettere le dimensioni più rilevanti del fenomeno studiato per garantire una segmentazione significativa e interpretabile.

Un ulteriore aspetto di rilievo è il riconoscimento che K-Means presuppone una forma sferica dei cluster e una distribuzione simile dei dati, condizioni che non sempre si verificano in contesti reali. Di conseguenza, è fondamentale integrare sempre la fase di validazione con una valutazione critica dei risultati, eventualmente ricorrendo ad altre tecniche di clustering, come quelli gerarchici, per ottenere una visione più articolata e adatta ai dati in esame.

Infine, l’implementazione pratica con strumenti come MATLAB permette di automatizzare l’intero processo, dalla costruzione al test del modello, facilitando l’applicazione di algoritmi complessi anche a dataset di grandi dimensioni, e rendendo possibile un’analisi approfondita e ripetibile.

La padronanza di queste procedure, unitamente alla comprensione delle limitazioni intrinseche dei metodi, è imprescindibile per interpretare correttamente i risultati, evitare sovrainterpretazioni e migliorare continuamente la modellazione dei dati in apprendimento non supervisionato.

Come costruire un modello di regressione lineare multipla con Regression Learner di MATLAB

Per costruire un modello di regressione lineare multipla efficace, è necessario partire da un dataset strutturato in modo adeguato. In questo caso, il dataset modificato, denominato MFire_Database.xls, contiene quattordici variabili indipendenti che fungono da predittori – tra cui temperatura, vento, precipitazioni, FFMC, ISI, BUI e DC – e una variabile dipendente, FWI, che rappresenta la risposta del modello. Il dataset include un totale di 518 osservazioni, suddivisibili tra dati di addestramento, di verifica e di validazione.

Il processo inizia aprendo MATLAB (versione R2023a o successiva) e selezionando l'applicazione Regression Learner tramite la sezione MACHINE LEARNING AND DEEP LEARNING nella scheda App. Una volta aperta l'applicazione, è possibile iniziare una nuova sessione scegliendo di caricare il dataset da un file, opzione preferibile rispetto al caricamento da workspace poiché più diretta. Si seleziona quindi il file MFire_Database.xls e lo si importa nel modello.

Nel passo successivo, è essenziale verificare la configurazione del dataset importato: il nome del dataset, la variabile di risposta (FWI) e i predittori devono essere correttamente identificati. Sotto il gruppo Validation, si trovano le impostazioni di validazione del modello, fondamentali per stimare la precisione predittiva rispetto a nuovi dati. Le tre modalità principali di validazione sono: Cross-Validation, Holdout Validation e Resubstitution Validation. In questo contesto, si preferisce la Cross-Validation, che suddivide automaticamente il dataset in più cartelle per eseguire addestramento, verifica e test del modello, senza la necessità di intervento manuale.

Una volta completata la configurazione, si avvia la sessione cliccando su Start Session. È possibile attivare anche l'opzione per riservare un set di dati specifico per il test, aumentando così la robustezza del modello finale.

Il Regression Learner offre due modalità per l’addestramento del modello: Automated Regression Model Training e Manual Regression Model Training. Nella modalità automatica, l'applicazione prova diversi algoritmi e restituisce una panoramica dei risultati, consentendo all’utente di selezionare il modello con le migliori prestazioni. Per il presente caso, si utilizza questa modalità.

Si espande il pannello dei modelli e si seleziona All Quick-To-Train, così da eseguire rapidamente il fitting di tutti i modelli che richiedono un tempo di addestramento minimo. Avviato l’addestramento con Train All, MATLAB restituisce un elenco di modelli ordinati in base all’errore quadratico medio di validazione (RMSE). Tra i modelli valutati, l'algoritmo basato su albero (Tree Mapping) mostra il valore RMSE più basso, indicando migliori prestazioni predittive. Tuttavia, poiché l’obiettivo è lo studio della regressione lineare, si continua l’analisi con questo specifico algoritmo.

Attraverso l’icona Predicted vs. Actual, si visualizza il confronto tra i valori reali e quelli predetti. Un buon modello lineare presenta punti distribuiti lungo la diagonale, segno di una corrispondenza stretta tra i valori osservati e quelli stimati. Questa visualizzazione è utile per confermare la bontà del fitting. La sezione Summary and Results Table permette inoltre di analizzare i risultati del modello in forma tabellare, e di esaminare le caratteristiche residue del modello selezionando variabili sull’asse X per esplorare il comportamento degli errori.

Terminata la fase di addestramento, è possibile salvare la sessione in formato .mat con un nome desiderato, ad esempio MLR_Fire_Session, per futuri utilizzi. Il modello può anche essere esportato direttamente nello spazio di lavoro MA