MSPC-9-M8-R1
CEV PUCE
Created on June 20, 2021
Over 30 million people build interactive content in Genially.
Check out what others have designed:
ARTICLES
Presentation
AGRICULTURE DATA
Presentation
THE OCEAN'S DEPTHS
Presentation
C2C VOLUNTEER ORIENTATION
Presentation
LAYOUT ORGANIZATION
Presentation
TALK ABOUT DYS TEACHER-TEACHER
Presentation
TALK ABOUT DYS WITH TEACHER
Presentation
Transcript
Maestría en Sostenibilidad y Planificación de la Conservación
Análisis de Datos
REGRESIÓN:Supuestos, Modelo II, Intervalos,abusos
Yi = valor esperado (predecido) de la variable dependiente en base a un valor dado de XX = valor de la variable independientea = Y intercepto, o valor de Y cuando X es 0 b = pendiente = COEFICIENTE DE REGRESIÓN = cambio en la variable dependiente asociado a un cambio de una unidad en la variable independiente.
Ecuación de la LÍNEA de Regresión
Ecuación de la de Regresión
Objetivo de la regresión: minimizar la suma de cuadrados de los errores de las observacionesREGRESIÓN DE MÍNIMOS CUADRADOS
VARIACIÓN DE la variable dependiente Y explicada por X (ANOVA)
Descomposición de la variabilidad en regresión
1. Independencia 2. Distribución normal del error 3. Homogeneidad de varianza (Homocedasticidad)4. Linealidad 5. Continuidad 6. Ausencia de errores de los valores x´s
Supuestos para una regresión lineal
Todas y cada una de las observaciones y´s deben ser independientes de las otras y´s. Los Errores también.Por ejemplo, si incluimos varias medidas de la cabeza del mismo individuo para estudiar la relación entre longitud total vs. tamaño de la cabeza de una especie de vertebrado. Tenemos que asegurarnos que exista independencia en nuestros muestreos o experimentos.
1. Independencia
Ej. Falta de independencia en modelamiento de nichos ecológicos
Los residuos siguen una distribución Normal, ya que representan variación aleatoria. Debemos tener muchos residuos con valores absolutos muy pequeños (cercanos a 0) y solamente algunos con valores grandes (lejanos a 0). No deben estar correlacionados con ninguna de la variables independientes, ni estar autocorrelacionados.
2. Distribución normal del error
Histograma de distribución de residuos
Se aprecia que se ajustan aproximadamente a la recta x = y, por lo que puede concluirse que los residuos tienen una distribución aproximadamente normal.
Gráfico de Probabilidad Normal
- Homocedasticidad : la variancia del error es constante para los distintos valores de la variable independiente. (Breusch–Pagan test).
- Los residuos (o errores) no deben mostrar una tendencia a incrementarse (o decrecer) a medida que los valores x´s se incrementan (dependencia de los residuos).
3. Homogeneidad de variancias
Gráfico de los valores estimados vs. Residuos
La variabilidad de los residuos y - ŷ no varía en dependencia del valor estimado ŷ Efectivamente se observa un comportamiento aleatorio de los residuales Con esto se puede concluir que el análisis de regresión es valido.
En este caso los residuos sí muestran variación en dependencia de los valores estimados del costo, vemos que valores muy pequeños o muy altos tienen variabilidad mayor que los que están alrededor de un costo de 200, es decir no hay un comportamiento aleatorio. Esto significa que no es valido el modelo de regresión. Las consecuencias de no realizar este análisis es que las estimaciones de los coeficientes de la regresión pueden no ser adecuados y las predicciones pueden ser incorrectas.
La relación entre la variable dependiente (respuesta) y la independiente (predictor) debe ser descrita por una línea recta.Si la verdadera relación es una curva, el modelo de regresión no es una descripción apropiada de los datos, y por lo tanto, las conclusiones sobre la pendiente de la línea de regresión no tienen ningún valor.
4. Linealidad
Si se viola la linealidad, se observará una falta de linealidad también en los residuos
Idealmente, ambas variables (X y Y) deben ser medidas en una escala continua (ej. Kilogramos, minutos, centímetros) en lugar de ser conteos, proporciones o rangos. Los conteos y proporciones son usualmente usados en análisis de regresión, sin embargo, es probable que se viole el supuesto de homogeneidad de variancias.
5. Continuidad
- Dentro de un contexto ideal, las observaciones x´s no deberían tener error. Las medidas x´s deberían ser lo más exactas como sea posible, sin embargo, siempre existen los errores de medición.
- Si se sospecha la existencia de sesgo en nuestras observaciones de X, los errores de los valores x´s afectarán la estimación de la pendiente de la línea de regresión.
6. Ausencia de errores de los valores x´s
- Algunos aspectos del análisis clásico de regresión (OLS) , como predicción y pruebas de hipótesis, podrían no verse afectados por que X sea una variable aleatoria…..pero los coeficientes de regresión pueden perder exactitud.
- Si el principal objetivo del análisis de regresión es la descripción de la verdadera relación natural entre Y y X (estimación de b), entonces OLS podría no ser la más apropiada.
Modelo II regresión: tanto X como Y son variables aleatorias
Misma ecuación a partir de diferentes patrones de observaciones
Y= 3.00 + 0.5X
X vs. Y
NORMALIDAD DE RESIDUOS
NORMALIDAD DE RESIDUOS
HOMOCEDASTICIDAD DE RESIDUOS
Intervalos de confianza Objetivo: conocer la confiabilidad de los estadísticos de las muestras para estimar los parámetros poblacionales. Los verdaderos valores de los parámetros son casi siempre desconocidos, por lo que comúnmente se estima la confiabilidad de los estadísticos estableciendo límites de confianza.
Intervalos de confianza en el análisis de regresión
t: valor tabular, usualmente con una p de 0.05 y n-2 grados de libertad. n: número de puntos del gráfico (pares de observaciones). EMS: Error o residual mean square SSX: sum of squares of the deviation of the x values about the mean of x
Es el rango dentro del cual existe el 95% (u otro valor) de confianza de que se encuentre la pendiente de la línea de regresión de toda la población. El ancho del rango es un indicativo de la precisión de la pendiente.
Límites de confianza para la pendiente (b) de la línea de regresión
La línea de regresión es definida por dos parámetros (a y b) Para establecer el intervalo dentro del cual la línea de regresión se encontrará con cierta probabilidad, tenemos que tomar en cuenta la incertidumbre de la pendiente (b) y el Y-intercepto (a)
Límites de confianza para línea de regresión
A medida que nos aproximamos hacia los extremos, tenemos menos confianza sobre la verdadera ubicación de la línea de regresión
Un intervalo de predicción es un estimado de un intervalo en el cual observaciones futuras se encontrarán con una cierta probabilidad (ej. 0.95 --- 95%). Es calculado en base a los datos observados.
Intervalos de predicción en el análisis de regresión
Bandas de confianza y de predicción
Extrapolación Generalización Correlación ecológica Tendencias temporales Causalidad
Abusos que se pueden cometer en regresión
Aplicar el mismo modelo de valores de la variable explicativa distintos de los observados
Extrapolación
Utilizar un único modelo para conjuntos de datos que proceden de distintas poblaciones
Generalización
Datos del número de pie en función de la altura de varios estudiantes de ambos sexos.
Ejemplo
Cuando no existe relación entre dos variables en ninguna de las poblaciones pero al juntar varias poblaciones aparece una falsa correlación.
Correlación Ecológica
Cuando se ajusta una recta de regresión para explicar la tendencia de datos temporales, estamos diciendo que el futuro es determinista.
Tendencias Temporales
Correlación no implica Causalidad
Admitir que existe una relación de causalidad entre las Xs y las Ys porque se ajusta bien un modelo
Causalidad