Want to create interactive content? It’s easy in Genially!
Bike_Sharing
Aurora Fraudatario
Created on November 26, 2024
Start designing with a free template
Discover more than 1500 professional designs like these:
Transcript
Bike Sharing: un'analisi predittiva con Regressione Binomiale Negativa
Valentina Cascone Vittorio D'Errico Giampiero Esposito Aurora Fraudatario Francesco Girace Simona Sannino
📄
Start
Indice
03
06
05
02
01
04
Conclusioni
Risultati
Regressione Binomiale Negativa
Regressione Poisson
Analisi esplorativa
Introduzione
Introduzione
Bike Sharing
Numero di osservazioni : 365 Dataset : Bike Sharing Dataset Fonte: presso l'UCI Machine Learning Repository Anno di riferimento: 2011 Analisi delle relazioni tra variabili : relazioni tra le variabili che influenzano il noleggio delle biciclette, analizzando l'impatto di fattori stagionali e climatici sulla domanda Obiettivo: analizzare e prevedere il numero totale di biciclette noleggiate Numero Variabili: : 6 di cui due presentano delle sotto categorie (stagioni e giorni della settimana divisi in festivi e lavorativi)
Distribuzione variabile dipendente
Analisi esplorativa
Analisi esplorativa
Analisi esplorativa
Analisi esplorativa
Modello Poisson
+info
+info
Modello Binomiale Negativa
+info
Modello Finale
+info
Selezione modello
Interpretazione ODDS
p-value = 0.1435
DW = 1.9174
Grafico dei residui di Pearson
Validazione modello: MAE e RMSE
MAE = 255.4562 Questo valore rappresenta, in media, l'errore assoluto nelle previsioni del modello. È utile per capire quanto, in media, i valori previsti si discostano dai valori reali. RMSE = 366.9542 Questo valore indica l'entità media dell'errore, pesata in modo maggiore per errori più grandi. È più sensibile rispetto al MAE ai casi in cui il modello fa grandi errori di previsione. Valori più bassi di MAE e RMSE indicano previsioni più accurate. Se RMSE è molto più alto rispetto al MAE, significa che il modello commette errori molto grandi in alcuni casi. In questo caso, il modello sembra avere errori moderati, con una discreta coerenza tra MAE e RMSE.
Discussione risultati
L'obiettivo principale di questa analisi era identificare i fattori che influenzano il numero di noleggi di biciclette e sviluppare un modello predittivo accurato utilizzando un approccio di regressione a binomiale negativa. Questo metodo si è rivelato adatto per gestire la natura dei dati, caratterizzati da conteggi e presenza di overdispersione. Abbiamo visto come fattori quali le stagioni, le condizioni metereologiche, la temperatura e i giorni festivi influenzino particolarmente la scelta dell'individuo. Il modello sviluppato si dimostra efficace nel prevedere il numero di noleggi e offre diverse applicazioni pratiche per l'ottimizzazione della gestione delle risorse aziendali:
- Previsioni a breve termine: L'inclusione del termine lag ha migliorato l'accuratezza del modello, consentendo previsioni più precise a breve termine, particolarmente utile per pianificare la distribuzione delle biciclette nelle stazioni o per gestire la manutenzione preventiva.
- Ottimizzazione operativa: Le previsioni accurate permettono di adattare le operazioni aziendali alle fluttuazioni della domanda, ad esempio incrementando la disponibilità di biciclette durante i periodi di alta richiesta (es. estate) o predisporre strategie alternative nei giorni con condizioni climatiche sfavorevoli.
- Gestione delle risorse: Conoscere l'impatto di fattori climatici e stagionali consente di allocare risorse in modo efficiente, ottimizzando costi operativi e migliorando l'esperienza del cliente.
Principali punti di interesse
GRAZIE PER L'ATTENZIONE
Devianza nulla-->228892 su 364 gradi di libertà Devianza Residua-->48121 su 353 gradi di libertà Funzione pchisq--> restituisce la probabilità cumulativa di osservare un valore della statistica chi-quadrato inferiore o uguale a un valore specifico, dato un numero di gradi di libertà (df) Dev Residua/Df= 48121/353=136.3 dalla statistica calcolata e dal p-value (0), ottenuto dalla funzione pchisq, si conferma la presenza di dispersione nel modello
OVERDISPERSION
Test sull'indipendenza delle osservazioni
DW= 1.184 p-value= 3.444e-16 Il p-value molto piccolo indica che l'autocorrelazione nei residui è stastisticamente significativa. Rigettiamo l'ipotesi nulla di assenza di autocorrelazione.
Variabili indipendenti
- Stagioni--> categorica
- Giorni festivi e lavorativi--> binaria
- Condizioni meteroelogiche-> categorica
- Temperatura--> numerica
- Livello umidità--> numerica
- Velocità vento-->numerica
- Devianza nulla--> 1736.4
- Devianza Residua-->368.2
- AIC-->5794
- Theta-->21.28
- Std. Err-->1.58
Distribuzione casuale dei residui: I punti sembrano distribuiti casualmente attorno alla linea rossa senza un pattern evidente. Questo è un buon segno e indica che: - Non ci sono errori sistematici nel modello. - Il modello cattura adeguatamente la relazione tra le variabili.Varianza costante (omoschedasticità) La dispersione verticale dei residui è abbastanza uniforme lungo tutto l'asse X. Non ci sono segnali di eteroschedasticità (ovvero, varianza non costante nei residui), che potrebbe indicare problemi nel modello. Residui estremi (outlier) Non ci sono residui che si discostano in modo significativo dalla linea rossa. Questo indica che il modello non è influenzato da osservazioni estreme (outlier). Conclusione
- Il grafico suggerisce che il modello si adatta bene ai dati.
- Non presenta problemi di eteroschedasticità o errori sistematici.
- Non sembra essere influenzato da outlier evidenti.
MAE e RMSE
metriche utilizzate per valutare la precisione di un modello di previsione confrontando i valori previsti con quelli reali del set di dati di validazione.
- MAE (Mean Absolute Error): È la media degli errori assoluti, ovvero la somma delle differenze in valore assoluto tra i valori previsti e quelli reali, divisa per il numero totale di osservazioni.
- MAE è utile per avere una stima immediata e intuitiva dell'errore medio in unità della variabile osservata.
- RMSE (Root Mean Squared Error): È la radice quadrata della media degli errori al quadrato. Penalizza maggiormente gli errori più grandi rispetto al MAE, poiché gli errori vengono elevati al quadrato.
- RMSE evidenzia quanto un modello sia penalizzato da errori di previsione più grandi.
- II BIC è più basso per il modello 2 (5840 vs. 5880), indicando che tale modello ha una migliore capacità di adattamento rispetto al primo considerando la complessità del modello.
- Anche per l'AIC si registra un valore più basso per il modello 2 (5794 vs. 5837), confermando che il modello con il lag temporale, offre un migliore adattamento dei dati.
Questa Heatmap ha lo scopo di osservare quali siano i giorni della settimana dove si osservano il maggior numero di noleggi, in particolare confrontando i giorni infrasettimanali e quelli del finesettimana. Qui si conferma di nuovo che il periodo invernale è quello che regista meno noleggi in assoluto rispetto gli altri periodi. Dalla tabella non si evince una significativa differenza del tipo di giorno della settimana per il numero di noleggi.
Risultati del test di verifica del modello Confronto tra il Modello Completo e il Modello Nullo:
- Il LogLik (log-verosimiglianza) migliora significativamente nel Modello Completo (-2885) rispetto al Modello Nullo (-3172).
- Il test LRT (Likelihood Ratio Test) mostra una chi-square (Chisq) di 575 con un p-value estremamente basso (< 2.2e-16***), indicando che il Modello Completo si adatta ai dati significativamente meglio del Modello Nullo.
Le variabili che risultano correlate positivamente sono temperatura e periodo stagionale, in particolare la prima risulta la più correlata in termini assoluti. Le variabili che risultano correlate negativamente sono la presenza di vento e di temporali. Le variabili dell'umidità e dei giorni della settimana risultano incorrelati, questo conferman le osservazioni delle tabelle descrittive
La distribuzione non è uniforme, si possono chiaramente osservare due intervalli dove si concentrano i valori, presentando due gobbe. Questo è dovuto dalla presenza di fattori che influenzano la scelta degli individui che verranno studiate nelle slide successive.
Analisi di multicollinearità: VIF (Variance Inflation Factor)
GVIF (Generalized Variance Inflation Factor): quantifica quanto una variabile indipendente sia correlata linearmente con le altre variabili nel modello.
- GVIF = 1 indica nessuna multicollinearità.
- GVIF maggiore di 5 o 10 può indicare multicollinearità significativa.
- È utile soprattutto per le variabili categoriche con più livelli.
- Un valore inferiore a 2-5 è generalmente considerato accettabile.
- Multicollinearità: Non ci sono problemi significativi di multicollinearità, dato che tutti i valori corretti (GVIF^(1/(2*Df))) sono inferiori a 5.
- La variabile con il valore più alto è temp (2.15), ma rientra comunque in un intervallo accettabile.
La retta rappresenta la tendenza generale tra temperatura e noleggi che risulta positiva. Quindi nel periodi dove le temperature sono alte c'è un maggior numero di noleggi di biciclette sia per attività ricreative che come semplice mezzo di trasporto. La dispersione generale dei punti è data dalla presenza degli altri fattori da noi analizzati
La stagionalità è un fattore che influenza in modo consistente il numero di noleggi. Si può osservare che il numero di noleggi è alto nel periodo estivo, autunnale e primaverile e decresce in modo significatico nel periodo invernale. Qui si evince che è presente anche una possibile relazione tra temperature e noleggi, dove i periodi più caldi hanno un maggior numero di noleggi rispetto a quello invernale Un'altra osservazione è data dalla dispersione dei box che nel periodo autunnale e primaverile, che è maggiore rispetto a quella estiva e invernale, questo può essere causato dagli eventi atmosferici caratteristi di quel periodo. L'analisi degli outlayer può mostrare che essi derivino da possibili eventi estremi, sportivi o festivi registati in quel giorno.
Gli odds ratio rappresentano l’effetto moltiplicativo delle variabili indipendenti sul numero di biciclette noleggiate.Variabili categoriche:Stagioni (rispetto all’inverno, corner point):
- In estate il noleggio di biciclette è circa il 37% maggiore rispetto all'inverno.
- In autunno il noleggio è circa il 65% maggiore rispetto all'inverno.
- I noleggi in primavera sono circa il 45% maggiori rispetto all'inverno.
- I noleggi, durante i giorni di nebbia, sono circa l’8% inferiori rispetto al tempo sereno.
- Durante i giorni di neve o pioggia i noleggi si riducono di circa il 50%, un calo significativo, indicando che il maltempo scoraggia fortemente l’uso delle biciclette.
- Nei giorni festivi il numero di biciclette noleggiate è circa il 16% inferiore rispetto ai giorni normali.
- Per ogni unità di aumento della temperatura (ad esempio, da 20 °C a 21 °C), il numero di biciclette noleggiate è quasi triplicato (+196%), suggerendo che il clima caldo favorisce fortemente il noleggio.
- Per ogni unità di aumento dell’umidità, i noleggi si riducono di circa il 22%, indicando che un clima umido scoraggia i ciclisti.
- Per ogni unità di aumento della velocità del vento, il numero di biciclette noleggiate diminuisce di circa il 42%, confermando che condizioni ventose sono un deterrente.
Da questo grafico si evince assenza di correlazione tra umidità e numero di noleggi. Questo lo si analizza dalla retta che risulta parallela all'asse delle ascisse, e dalla disperisione dei punti che non richiama nessu pattern lineare
Da questo grafico si evince presenza di correlazione tra velocità del vento e numero di noleggi. Questo lo si analizza dalla retta che risulta con una pendenza negativa.
Il grafico mostra chiaramente come le diverse condizioni meteorologiche influenzano il numero di noleggi. Nei giorni sereni si registra il numero medio di noleggi più alto, seguito dai giorni con nebbia, questo è dovuta dalla possibilità che la nebbia riduce la visibilità generale e questo scoraggia l'utilizzo. I giorni di pioggia o neve leggera, il numero medio di noleggi è decisamente più basso rispetto alle altre due condizioni, questo è in linea con le aspettative.