Want to create interactive content? It’s easy in Genially!

Get started free

Bike_Sharing

Aurora Fraudatario

Created on November 26, 2024

Start designing with a free template

Discover more than 1500 professional designs like these:

Transcript

Bike Sharing: un'analisi predittiva con Regressione Binomiale Negativa

Valentina Cascone Vittorio D'Errico Giampiero Esposito Aurora Fraudatario Francesco Girace Simona Sannino

📄

Start

Indice

03

06

05

02

01

04

Conclusioni

Risultati

Regressione Binomiale Negativa

Regressione Poisson

Analisi esplorativa

Introduzione

Introduzione

Bike Sharing

Numero di osservazioni : 365 Dataset : Bike Sharing Dataset Fonte: presso l'UCI Machine Learning Repository Anno di riferimento: 2011 Analisi delle relazioni tra variabili : relazioni tra le variabili che influenzano il noleggio delle biciclette, analizzando l'impatto di fattori stagionali e climatici sulla domanda Obiettivo: analizzare e prevedere il numero totale di biciclette noleggiate Numero Variabili: : 6 di cui due presentano delle sotto categorie (stagioni e giorni della settimana divisi in festivi e lavorativi)

Distribuzione variabile dipendente

Analisi esplorativa

Analisi esplorativa

Analisi esplorativa

Analisi esplorativa

Modello Poisson

+info

+info

Modello Binomiale Negativa

+info

Modello Finale

+info

Selezione modello

Interpretazione ODDS

p-value = 0.1435

DW = 1.9174

Grafico dei residui di Pearson

Validazione modello: MAE e RMSE

MAE = 255.4562 Questo valore rappresenta, in media, l'errore assoluto nelle previsioni del modello. È utile per capire quanto, in media, i valori previsti si discostano dai valori reali. RMSE = 366.9542 Questo valore indica l'entità media dell'errore, pesata in modo maggiore per errori più grandi. È più sensibile rispetto al MAE ai casi in cui il modello fa grandi errori di previsione. Valori più bassi di MAE e RMSE indicano previsioni più accurate. Se RMSE è molto più alto rispetto al MAE, significa che il modello commette errori molto grandi in alcuni casi. In questo caso, il modello sembra avere errori moderati, con una discreta coerenza tra MAE e RMSE.

Discussione risultati

L'obiettivo principale di questa analisi era identificare i fattori che influenzano il numero di noleggi di biciclette e sviluppare un modello predittivo accurato utilizzando un approccio di regressione a binomiale negativa. Questo metodo si è rivelato adatto per gestire la natura dei dati, caratterizzati da conteggi e presenza di overdispersione. Abbiamo visto come fattori quali le stagioni, le condizioni metereologiche, la temperatura e i giorni festivi influenzino particolarmente la scelta dell'individuo. Il modello sviluppato si dimostra efficace nel prevedere il numero di noleggi e offre diverse applicazioni pratiche per l'ottimizzazione della gestione delle risorse aziendali:

  • Previsioni a breve termine: L'inclusione del termine lag ha migliorato l'accuratezza del modello, consentendo previsioni più precise a breve termine, particolarmente utile per pianificare la distribuzione delle biciclette nelle stazioni o per gestire la manutenzione preventiva.
  • Ottimizzazione operativa: Le previsioni accurate permettono di adattare le operazioni aziendali alle fluttuazioni della domanda, ad esempio incrementando la disponibilità di biciclette durante i periodi di alta richiesta (es. estate) o predisporre strategie alternative nei giorni con condizioni climatiche sfavorevoli.
  • Gestione delle risorse: Conoscere l'impatto di fattori climatici e stagionali consente di allocare risorse in modo efficiente, ottimizzando costi operativi e migliorando l'esperienza del cliente.

Principali punti di interesse

GRAZIE PER L'ATTENZIONE

Devianza nulla-->228892 su 364 gradi di libertà Devianza Residua-->48121 su 353 gradi di libertà Funzione pchisq--> restituisce la probabilità cumulativa di osservare un valore della statistica chi-quadrato inferiore o uguale a un valore specifico, dato un numero di gradi di libertà (df) Dev Residua/Df= 48121/353=136.3 dalla statistica calcolata e dal p-value (0), ottenuto dalla funzione pchisq, si conferma la presenza di dispersione nel modello

OVERDISPERSION

Test sull'indipendenza delle osservazioni

DW= 1.184 p-value= 3.444e-16 Il p-value molto piccolo indica che l'autocorrelazione nei residui è stastisticamente significativa. Rigettiamo l'ipotesi nulla di assenza di autocorrelazione.

Variabili indipendenti

  • Stagioni--> categorica
  • Giorni festivi e lavorativi--> binaria
  • Condizioni meteroelogiche-> categorica
  • Temperatura--> numerica
  • Livello umidità--> numerica
  • Velocità vento-->numerica
  • Devianza nulla--> 1736.4
  • Devianza Residua-->368.2
  • AIC-->5794
  • Theta-->21.28
  • Std. Err-->1.58
Un valore elevato di θ indica una varianza relativamente stabile e conferma che la distribuzione binomiale negativa è appropriata per gestire l’overdispersione nei dati rispetto al modello di Poisson.

Distribuzione casuale dei residui: I punti sembrano distribuiti casualmente attorno alla linea rossa senza un pattern evidente. Questo è un buon segno e indica che: - Non ci sono errori sistematici nel modello. - Il modello cattura adeguatamente la relazione tra le variabili.Varianza costante (omoschedasticità) La dispersione verticale dei residui è abbastanza uniforme lungo tutto l'asse X. Non ci sono segnali di eteroschedasticità (ovvero, varianza non costante nei residui), che potrebbe indicare problemi nel modello. Residui estremi (outlier) Non ci sono residui che si discostano in modo significativo dalla linea rossa. Questo indica che il modello non è influenzato da osservazioni estreme (outlier). Conclusione

  1. Il grafico suggerisce che il modello si adatta bene ai dati.
  2. Non presenta problemi di eteroschedasticità o errori sistematici.
  3. Non sembra essere influenzato da outlier evidenti.

MAE e RMSE

metriche utilizzate per valutare la precisione di un modello di previsione confrontando i valori previsti con quelli reali del set di dati di validazione.
  • MAE (Mean Absolute Error): È la media degli errori assoluti, ovvero la somma delle differenze in valore assoluto tra i valori previsti e quelli reali, divisa per il numero totale di osservazioni.
  • MAE è utile per avere una stima immediata e intuitiva dell'errore medio in unità della variabile osservata.
  • RMSE (Root Mean Squared Error): È la radice quadrata della media degli errori al quadrato. Penalizza maggiormente gli errori più grandi rispetto al MAE, poiché gli errori vengono elevati al quadrato.
  • RMSE evidenzia quanto un modello sia penalizzato da errori di previsione più grandi.
  • II BIC è più basso per il modello 2 (5840 vs. 5880), indicando che tale modello ha una migliore capacità di adattamento rispetto al primo considerando la complessità del modello.
  • Anche per l'AIC si registra un valore più basso per il modello 2 (5794 vs. 5837), confermando che il modello con il lag temporale, offre un migliore adattamento dei dati.

Questa Heatmap ha lo scopo di osservare quali siano i giorni della settimana dove si osservano il maggior numero di noleggi, in particolare confrontando i giorni infrasettimanali e quelli del finesettimana. Qui si conferma di nuovo che il periodo invernale è quello che regista meno noleggi in assoluto rispetto gli altri periodi. Dalla tabella non si evince una significativa differenza del tipo di giorno della settimana per il numero di noleggi.

Risultati del test di verifica del modello Confronto tra il Modello Completo e il Modello Nullo:

  • Il LogLik (log-verosimiglianza) migliora significativamente nel Modello Completo (-2885) rispetto al Modello Nullo (-3172).
  • Il test LRT (Likelihood Ratio Test) mostra una chi-square (Chisq) di 575 con un p-value estremamente basso (< 2.2e-16***), indicando che il Modello Completo si adatta ai dati significativamente meglio del Modello Nullo.

Le variabili che risultano correlate positivamente sono temperatura e periodo stagionale, in particolare la prima risulta la più correlata in termini assoluti. Le variabili che risultano correlate negativamente sono la presenza di vento e di temporali. Le variabili dell'umidità e dei giorni della settimana risultano incorrelati, questo conferman le osservazioni delle tabelle descrittive

La distribuzione non è uniforme, si possono chiaramente osservare due intervalli dove si concentrano i valori, presentando due gobbe. Questo è dovuto dalla presenza di fattori che influenzano la scelta degli individui che verranno studiate nelle slide successive.

Analisi di multicollinearità: VIF (Variance Inflation Factor)

GVIF (Generalized Variance Inflation Factor): quantifica quanto una variabile indipendente sia correlata linearmente con le altre variabili nel modello.

  • GVIF = 1 indica nessuna multicollinearità.
  • GVIF maggiore di 5 o 10 può indicare multicollinearità significativa.
Df (Degrees of Freedom): Indica i gradi di libertà associati alla variabile. È rilevante per variabili categoriche che possono avere più livelli (es. una variabile season con 4 livelli avrà Df = 3).GVIF^(1/(2*Df)): Questo è il valore di GVIF reso comparabile per le variabili che hanno diversi gradi di libertà. In altre parole, è una versione scalata del GVIF.
  • È utile soprattutto per le variabili categoriche con più livelli.
  • Un valore inferiore a 2-5 è generalmente considerato accettabile.
Conclusione sull'analisi
  • Multicollinearità: Non ci sono problemi significativi di multicollinearità, dato che tutti i valori corretti (GVIF^(1/(2*Df))) sono inferiori a 5.
  • La variabile con il valore più alto è temp (2.15), ma rientra comunque in un intervallo accettabile.

La retta rappresenta la tendenza generale tra temperatura e noleggi che risulta positiva. Quindi nel periodi dove le temperature sono alte c'è un maggior numero di noleggi di biciclette sia per attività ricreative che come semplice mezzo di trasporto. La dispersione generale dei punti è data dalla presenza degli altri fattori da noi analizzati

La stagionalità è un fattore che influenza in modo consistente il numero di noleggi. Si può osservare che il numero di noleggi è alto nel periodo estivo, autunnale e primaverile e decresce in modo significatico nel periodo invernale. Qui si evince che è presente anche una possibile relazione tra temperature e noleggi, dove i periodi più caldi hanno un maggior numero di noleggi rispetto a quello invernale Un'altra osservazione è data dalla dispersione dei box che nel periodo autunnale e primaverile, che è maggiore rispetto a quella estiva e invernale, questo può essere causato dagli eventi atmosferici caratteristi di quel periodo. L'analisi degli outlayer può mostrare che essi derivino da possibili eventi estremi, sportivi o festivi registati in quel giorno.

Gli odds ratio rappresentano l’effetto moltiplicativo delle variabili indipendenti sul numero di biciclette noleggiate.Variabili categoriche:Stagioni (rispetto all’inverno, corner point):

  • In estate il noleggio di biciclette è circa il 37% maggiore rispetto all'inverno.
  • In autunno il noleggio è circa il 65% maggiore rispetto all'inverno.
  • I noleggi in primavera sono circa il 45% maggiori rispetto all'inverno.
Condizioni meteorologiche (rispetto al tempo sereno, corner point):
  • I noleggi, durante i giorni di nebbia, sono circa l’8% inferiori rispetto al tempo sereno.
  • Durante i giorni di neve o pioggia i noleggi si riducono di circa il 50%, un calo significativo, indicando che il maltempo scoraggia fortemente l’uso delle biciclette.
Giorni festivi (binaria, 1 = festivo, 0 = non festivo):
  • Nei giorni festivi il numero di biciclette noleggiate è circa il 16% inferiore rispetto ai giorni normali.
Variabili continue:
  • Per ogni unità di aumento della temperatura (ad esempio, da 20 °C a 21 °C), il numero di biciclette noleggiate è quasi triplicato (+196%), suggerendo che il clima caldo favorisce fortemente il noleggio.
  • Per ogni unità di aumento dell’umidità, i noleggi si riducono di circa il 22%, indicando che un clima umido scoraggia i ciclisti.
  • Per ogni unità di aumento della velocità del vento, il numero di biciclette noleggiate diminuisce di circa il 42%, confermando che condizioni ventose sono un deterrente.

Da questo grafico si evince assenza di correlazione tra umidità e numero di noleggi. Questo lo si analizza dalla retta che risulta parallela all'asse delle ascisse, e dalla disperisione dei punti che non richiama nessu pattern lineare

Da questo grafico si evince presenza di correlazione tra velocità del vento e numero di noleggi. Questo lo si analizza dalla retta che risulta con una pendenza negativa.

Il grafico mostra chiaramente come le diverse condizioni meteorologiche influenzano il numero di noleggi. Nei giorni sereni si registra il numero medio di noleggi più alto, seguito dai giorni con nebbia, questo è dovuta dalla possibilità che la nebbia riduce la visibilità generale e questo scoraggia l'utilizzo. I giorni di pioggia o neve leggera, il numero medio di noleggi è decisamente più basso rispetto alle altre due condizioni, questo è in linea con le aspettative.