Want to create interactive content? It’s easy in Genially!

Get started free

Infografía Estadística Multivariable y Supuestos básicos

JAFET GUADALUPE PEDRAZA AGUILAR

Created on November 6, 2021

Start designing with a free template

Discover more than 1500 professional designs like these:

Advent Calendar

Tree of Wishes

Witchcraft vertical Infographic

Halloween Horizontal Infographic

Halloween Infographic

Halloween List 3D

Magic and Sorcery List

Transcript

Estadística Multivariable

La estadística multivariante se refiere a diferentes métodos que estudian y examinan el efecto simultáneo de múltiples variables, los diferentes objetivos y antecedentes de cada una de las diferentes formas de análisis multivariante y cómo se relacionan entre sí, particularmente cuando varias cantidades diferentes son de interés para el mismo análisis.

- Normalidad

En el caso de dos o más variables, si la distribución es normal multivariada, implica que todas las variables individuales que intervienen deben ser normal univariante y sus combinaciones son también normales, Mide el grado de ajuste a una recta de las observaciones de la muestra representadas en un gráfico de probabilidad normal, de forma que se rechazará la hipótesis nula de normalidad cuando el ajuste sea malo, situación que se corresponde con valores pequeños del estadístico de contraste..

- Heterocedasticidad

La heterocedasticidad es, en estadística, cuando los errores no son constantes a lo largo de toda la muestra. El término es contrario a homocedasticidad. En otras palabras, en los modelos de regresión lineales se dice que hay heterocedasticidad cuando la varianza de los errores no es igual en todas las observaciones realizadas. Así, no se cumple uno de los requisitos básicos de las hipótesis de los modelos lineales. La palabra heterocedasticidad se puede desglosar en dos partes, hetero (diferente) y cedasticidad (dispersión). De tal manera que, si unimos estas dos palabras adaptadas del griego, obtendríamos algo así como diferente dispersión.

- Multicolinealidad

La multicolinealidad es la relación de dependencia lineal fuerte entre más de dos variables explicativas en una regresión múltiple que incumple el supuesto de Gauss-Márkov cuando es exacta, En otras palabras, la multicolinealidad es la correlación alta entre más de dos variables explicativas. Es muy habitual que las variables explicativas de la regresión estén correlacionadas. Entonces, se debe puntualizar que esta relación debe ser fuerte, pero nunca perfecta, para que sea considerada un caso de multicolinealidad. La relación lineal sería perfecta si el coeficiente de correlación fuese 1. Cuando esta fuerte relación lineal (pero no perfecta) se produce sólo entre dos variables explicativas, decimos que se trata de un caso de colinealidad. Sería multicolinealidad cuando la relación lineal fuerte se produce entre más de dos variables independientes. El supuesto de Gauss-Márkov sobre no multicolinealidad exacta define que las variables explicativas en una muestra no pueden ser constantes. Además, no deben existir relaciones lineales exactas entre variables explicativas (no multicolinealidad exacta). Gauss-Márkov no nos permite la multicolinealidad exacta, pero si la multicolinealidad aproximada.

Multicolinealidad exacta La multicolinealidad exacta se produce cuando más de dos variables independientes son una combinación lineal de otras variables independientes de la regresión.

Multicolinealidad aproximada La multicolinealidad aproximada se produce cuando más de dos variables independientes no son exactamente (aproximación) una combinación lineal de otras variables independientes de la regresión.

- Autocorrelación

La autocorrelación es uno de los problemas que habitualmente encontramos en modelos econométricos, su definición explica la relación que existe en la memoria de la serie observada a través del tiempo, también se debe entender como autocorrelación la relación que existe entre el término de perturbación y cualquiera de los regresores del modelo. Definición: La perturbación de una observación cualquiera (u_i) está correlacionada con la perturbación de cualquier otra observación => las observaciones no son independientes.

La autocorrelación es habitual en los datos de series temporales => correlación serial. En los datos de sección cruzada es menos común, aunque posible => correlación espacial.

Causas comunes: La autocorrelación es un fenómeno que se presenta en muestras que contengan de datos asociados al tiempo, aunque también puede presentarse cuando se trabaja con datos de corte transversal, en cuyo caso hablamos de “autocorrelación espacial”.

Consecuencias: 1) Continúa siendo la solución única del sistema de ecuaciones normales (SEN) que se obtienen al aplicar el método de estimación por mínimos cuadrados ordinarios (MCO). 2) Continúa siendo un estimador lineal e insesgado de los coeficientes del modelo. Estas propiedades del método de estimación MCO en contexto del MODELO BÁSICO DE REGRESIÓN LINEAL (MBRL) no dependen de las hipótesis sobre las perturbaciones, por lo que también se mantienen en el caso más general del MODELO DE REGRESIÓN LINEAL GENERALIZADO (MRLG), donde la matriz de varianzas -covarianzas del término de error no es escalar. 3) NO ES ÓPTIMO en el contexto del MODELO DE REGRESIÓN LINEAL GENERALIZADO (MRLG). 4) β será un estimador sesgado. 5) Como consecuencia de (4), se invalidan los contrastes de hipótesis “F ” y “t” y los intervalos de confianza obtenidos por el estimador por mínimos cuadrados ordinarios.

- Linealidad

La linealidad es un supuesto implícito de todas las técnicas multivariantes basadas en medidas de correlación, incluyendo la regresión múltiple, la logística, el análisis factorial y los modelos de ecuaciones estructurales. La forma más común de evaluar la linealidad es examinar los gráficos de dispersión de las variables e identificar cualquier pauta no lineal en los datos. Otra forma es realizar el análisis de regresión múltiple y realizar el análisis de los residuos. La corrección más directa de la no linealidad, es la transformación de una o ambas variables para conseguir la linealidad.

- Análisis de los residuos

Denominados residuos, son los valores que en la muestra toman estas variables.

Distribución normal (ji-cuadrado o Kolmogorov-Smirnov) y de homocedasticidad (Bartlett). El planteamiento habitual es considerar que, como todas ellas son normales con la misma media (0) y la misma varianza (s2), los residuos ( ) también tienen una distribución normal con media 0 y varianza desconocida s2 y, simplemente, contrastar este extremo. Al conjunto de técnicas que se usan para ello se le denomina análisis de los residuos.

El análisis de los residuos consiste en contrastar que , i=1,...,n provienen de una población normal con media 0 y varianza s 2 con las pruebas habituales de ji-cuadrado, Kolmogorov-Smirnov. Una falta de normalidad de los residuos puede ser debida también a que el modelo sea inapropiado o a existencia de heterocedasticidad; Teniendo en cuenta que (n-(k+1))s2/ s2 se distribuye como una ji-cuadrado con (n-(k+1)) grados de libertad, la variable.

Además para asegurar que globalmente se cumplen las asunciones del modelo, es útil realizar un análisis gráfico de los mismos que permite discriminar entre distintas violaciones de las mismas. Si se representara en una gráfica bidimensional los residuos observados (eje Y) para cada una de las variables Y|x1,...,xk (eje X) y se cumplieran las asunciones se observaría una nube de puntos en dirección horizontal y con anchura constante (la media de cada ex1,...,xk debería ser cero y tener todas la misma varianza).

Ejemplo:

siendo k cualquier número real positivo. Otro modo alternativo de escribirlo es

Por lo tanto, un modo de contrastar, sin la asunción de normalidad, la hipótesis nula.H0 : ai = a es calcular el cociente

y la probabilidad de error tipo I al rechazarla es £ 1/k2. Esta prueba tampoco se puede usar si no se cumple la homocedasticidad, pues en ese caso la estimación de EE(ai) no es válida. Recordando la 2ª formulación del modelo, las asunciones se pueden resumir en que las variables ex1,...,xk son independientes, distribuidas normalmente con media cero y todas con la misma varianza s2 ex1,...,xk es un conjunto de variables, una para cada combinación x1,...,xk de valores de las variables X1,...,Xk.