EstadisticaMultivariable
05/11/2022
Alumno: Abraham Trinidad Atilano Matricula: 19300914 Carrera:
Desarrollo de Negocios, Licenciatura en Innovación de Negocios y Mercadotecnia
Materia: Estadística Aplicada a los Negocios Docente: Mtro. René Assef Silahua Arciniega Universidad Tecnológica de Tula – Tepeji
Esto es un párrafo listo para contener creatividad, experiencias e historias geniales.
Heterocedasticidad
Multicolinealidad
Concepto
Normalidad
Análisis de los residuos
Linealidad
Autocorrelación
¿Estadística Multivariable?
Concepto
La estadística multivariable es una rama de las estadísticas que abarca la observación y el análisis simultáneos de más de una variable respuesta. La aplicación de la estadística multivariable es llamada análisis multivariable. La estadística multivariable trata de comprender los diferentes objetivos y antecedentes de cada una de las diferentes formas de análisis multivariante y cómo se relacionan entre sí. La aplicación práctica de la estadística multivariable a un problema particular puede involucrar varios tipos de análisis univariados y multivariados para comprender las relaciones entre las variables y su relevancia para el problema que se está estudiando.
¿Cuando se lleva normalidad?
Se lleva cuando la normalidad univariante resulta ser una condición necesaria pero no suficiente para que conjuntamente sigan una normal multivariante, es decir, si la distribución conjunta es normal multivariante, cada una de las marginales es una normal univariante, pero no a la inversa. Por este motivo, se hace necesario comprobar en primer lugar que todas las variables consideradas individualmente se distribuyen normalmente para, a continuación, contrastar que todas ellas en conjunto cumplen la normalidad multivariante
Normalidada Univariante
Para estudiar la normalidad univariante de los datos, podemos comenzar realizando una inspección visual de los mismos utilizando para ello el histograma, que nos permitirá observar si la forma de la distribución es similar a la de la campana de Gauss (unimodal, campaniforme, simétrica,…).
Otra opción es el gráfico de probabilidad normal, en el que se representan los datos frente a la teórica distribución normal de forma que los puntos deberían aproximarse a una línea recta para poder admitir que son normales, aunque conviene tener en cuenta que siempre tenderá a observarse una mayor desviación en los extremos. Además, los gráficos de probabilidad normal también permiten conocer la causa de esa desviación: si los puntos se disponen en forma de "U" o con alguna curvatura, ello se debe a que la distribución es asimétrica, mientras que si presentan forma de "S" significará que la distribución no es mesocúrtica.
¿Cuando se lleva la Heterocedasticidad?
La heterocedasticidad es, en estadística, cuando los errores no son constantes a lo largo de toda la muestra. El término es contrario a homocedasticidad
Uno de los supuestos del modelo de regresión lineal es la homocedasticidad de la perturbación aleatoria, es decir, que todos los términos de la perturbación se distribuyen de la misma forma alrededor de la recta de regresión: tienen la misma varianza (varianza constante): 𝑉𝑎𝑟[𝑢𝑖] = 𝑉𝑎𝑟[𝑢𝑗] = 𝜎 2,∀i ≠ j Cuando no se cumple esta condición, es decir, cuando la dispersión de los términos de perturbación es diferente para diferentes valores de la variable explicativa, nos encontramos con la heterocedasticidad. La heterocedasticidad tiene importantes consecuencias en el método de estimación MCO. Los estimadores de los coeficientes siguen siendo insesgados, pero la estimación de los errores estándar de esos parámetros no es válida (que denotaremos SE estimado). Por esta razón, no podemos construir intervalos de confianza ni hacer pruebas de hipótesis correctas, pues para hacerlos se utiliza el error estándar.
Solución
Una solución utilizada habitualmente para resolver el problema de la heterocedasticidad consiste en utilizar los estimadores calculados mediante el método de mínimos cuadrados ordinarios (MCO), pero no sus Errores Estándar (SE), sino en su lugar los llamados Errores Estándar Robustos (o errores estándar de Eicker-White, que denotaremos RSE). Esta técnica tiene la ventaja de que puede aplicarse sin necesidad de conocer el patrón concreto que sigue la heterocedasticidad en cada caso. Los RSE son estimadores de los errores estándar de los coeficientes estimados que tienen en cuenta la heterocedasticidad de la muestra de datos, de forma que pueden utilizarse para realizar inferencia estadística inmune a la heterocedasticidad. Lo vemos con más detalle en el caso del modelo econométrico de dos variables:
¿Cuando se lleva la Multicolinealidad?
El término colinealidad (o multicolinealidad) en Econometría se refiere a una situación en
la que dos o más variables explicativas se parecen mucho y, por tanto, resulta difícil
medir sus efectos individuales sobre la variable explicada.
Este fenómeno puede presentarse con frecuencia en un contexto de series temporales y con series macroeconómicas. Por ejemplo, la población y el PIB en general suelen estar altamente correlacionados.Podemos encontrar:
- Multicolinealidad exacta: Se da cuando los valores de una variable explicativa se obtienen como combinación lineal exacta de otras.
- Multicolinealidad de grado: Se da cuando los valores de diferentes variables están tan correlacionados que se hace casi imposible estimar con precisión los efectos individuales de cada uno de ellos.
Multicolinealidad Exacta
En el caso de la multicolinealidad exacta, el determinante:
|𝑋′𝑋| = 0 Lo que significa que el sistema de ecuaciones de los estimadores MCO,
𝑋′𝑋 Β̂ = 𝑋´Y tiene infinitas soluciones.
Multicolinealidad de Grado
Cuando dos o más variables explicativas en un modelo están altamente correlacionadas en la muestra, es muy difícil separar el efecto parcial de cada una de estas variables sobre la variable dependiente
La información muestral que incorpora una de estas variables es casi la misma que la del resto de las correlacionadas con ella.En este caso, el determinante |𝑋 ′𝑋| ≅ 0. Matemáticamente, existirá una solución única al problema de la mínima suma de cuadrados, pero también existirán muchas soluciones casi iguales a ella.Los síntomas de este problema que podemos encontrar son fundamentalmente:
- Las estimaciones de los parámetros MCO son muy sensibles a la muestra:
- pequeños cambios en los datos o en la especificación provocan grandes cambios en las etimaciones de los coeficientes.
- Las estimaciones de los coeficientes presentan signos distintos a los esperados o magnitudes poco razonables.
- El efecto más pernicioso de la existencia de un alto grado de multicolinealidad es el de incrementar las varianzas de los coeficientes estimados por MCO. Como consecuencia, los test de significatividad de los parámetros individuales no son fiables (se tiende a concluir que las variables no son significativas individualmente.
Soluciones para la Multicolinealidad
El problema de colinealidad se reduce a que la muestra no contiene suficiente información para estimar todos los parámetros. Por ello, resolver el problema requiereañadir nueva información, sea muestral o extramuestral, o cambiar la especificación. Algunas posibles soluciones en esta línea son:
- Añadir nuevas observaciones. Si realmente es un problema muestral, una posibilidad es cambiar de muestra porque puede ser que con nuevos datos el problema se resuelva, aunque esto no siempre ocurre.
- Restringir parámetros. Si la Teoría Económica o la experiencia sugieren algunas restricciones sobre los parámetros más afectados por la colinealidad, imponerlas permitirá reducir el problema. Obviamente, se corre el riesgo de imponer restricciones que no son ciertas.
- Suprimir variables. Si se suprimen variables que están correlacionadas con otras, la pérdida de capacidad explicativa será pequeña y la colinealidad se reducirá. Esta medida puede provocar otro tipo de problemas, ya que si la variable que eliminamos del modelo realmente sí es significativa, estaremos omitiendo una variable relevante.
¿Cuando se lleva la Autocorrelación?
La autocorrelación es uno de los problemas que habitualmente encontramos en modelos, junto a la heteroscedasticidad, son causantes de ajustes pobres y espurios.
La perturbación de una observación cualquiera u_i está correlacionada con la perturbación de cualquier otra observación => las observaciones no son independientes. La autocorrelación es habitual en los datos de series temporales => correlación serial En los datos de sección cruzada es menos común, aunque posible => correlación espacial.
CAUSAS DE LA AUTOCORRELACIÓN:
La autocorrelación es un fenómeno que se presenta en muestras que contengan de datos asociados al tiempo, aunque también puede presentarse cuando se trabaja con datos de corte transversal, en cuyo caso hablamos de “autocorrelación espacial”.
Otras causas posibles de la existencia de autocorrelación en algunas situaciones específicas, como, por ejemplo:
a) Por la existencia de ciclos y tendencias en los datos: Si la variable a explicada presenta un comportamiento cíclico que no viene explicado por las variables explicativas, entonces dicho comportamiento cíclico estará recogido en el término de error del modelo. b) Cuando se comete un error de especificación inicial del modelo por omisión de variables relevantes. La omisión de variables relevantes, en principio, no debería suponer autocorrelación en el término de error salvo que dichas variables omitidas estén correlacionadas entre sí. c) Cuando se comete un error de especificación en la forma funcional del modelo. Una mala especificación de la forma funcional del modelo pueden provocar ”rachas” de residuos positivos seguidas de otras de residuos negativos y así sucesivamente.
¿Cuando se lleva la Linealidad?
La linealidad es un supuesto implícito de todas las técnicas multivariantes basadas en medidas de correlación, incluyendo la regresión múltiple, la logística, el análisis factorial y los modelos de ecuaciones estructurales. La forma más común de evaluar la linealidad es examinar los gráficos de dispersión de las variables e identificar cualquier pauta no lineal en los datos. Otra forma es realizar el análisis de regresión múltiple y realizar el análisis de los residuos. La corrección más directa de la no linealidad, es la transformación de una o ambas variables para conseguir la linealidad
¿Cuando se lleva el Análisis de los residuos?
Si bien para la estimación por mínimos cuadrados de los coeficientes de un modelo de regresión, sólo es necesaria la asunción de linealidad, la normalidad de los mismos, en base a la cual se realizan los contrastes de hipótesis, está basada también en las asunciones de normalidad y homoscedasticidad. Por consiguiente, conviene asegurar que dichas asunciones se cumplen en cada caso.
Hay que tener en cuenta que, en caso de que no se cumpla la normalidad, no se puede utilizar la t ni la F para los contrastes de hipótesis. Puede usarse, sin embargo, la desigualdad de Tchebysheff, que establece que para cualquier variable aleatoria
¿En que consiste?
Generalmente, sin embargo, no se tienen suficientes de estos valores muestrales para cada variable (para el problema del ejemplo 5, por ejemplo, existe una variable ex1,...,xk para cada valor de la edad, del consumo de grasas y del ejercicio; el residuo para el primer paciente corresponde a la variable e80,35,0; el del segundo a la variable e30,40,2; etc., es decir, para cada variable sólo se tiene un valor muestral. El análisis de los residuos consiste, por tanto, en contrastar que , i=1,...,n provienen de una población normal con media 0 y varianza s 2 con las pruebas habituales de ji-cuadrado, Kolmogorov-Smirnov.
Hay que tener en cuenta que de este modo se están contrastando globalmente todas las asunciones y, por consiguiente, una falta de normalidad de los residuos puede ser debida también a que el modelo sea inapropiado o a existencia de heterocedasticidad.
Teniendo en cuenta que (n-(k+1))s2/ s2 se distribuye como una ji-cuadrado con (n-(k+1)) grados de libertad, la variable
Fuentes de consulta
- colaboradores de Wikipedia. (2021a, marzo 30). Estadística multivariante. Wikipedia, la enciclopedia libre. https://es.wikipedia.org/wiki/Estad%C3%ADstica_multivariante
- NORMALIDAD Y OTROS SUPUESTOS EN ANÁLISIS DE COVARIANZAS. (s. f.). covarianzas. Recuperado 4 de noviembre de 2021, de http://gide.unileon.es/admin/UploadFolder/covarianzas.pdf
- Heterocedasticidad. (s. f.). Heterocedasticidad. Recuperado 4 de noviembre de 2021, de https://www.centro-virtual.com/recursos/biblioteca/pdf/econometria/unidad3_pdf1.pdf
- Miranda, D. E. L. T. V. J. (2021, 10 junio). Autocorrelación. TODO ECONOMETRÍA. Recuperado 4 de noviembre de 2021, de https://todoeconometria.wordpress.com/2017/08/08/autocorrelacion/
- ANÁLISIS MULTIVARIANTE: CLASIFICACIÓN, ORGANIZACIÓN Y VALIDACIÓN DE RESULTADOS. (s. f.). ANÁLISIS MULTIVARIANTE: CLASIFICACIÓN, ORGANIZACIÓN Y VALIDACIÓN DE RESULTADOS. Recuperado 4 de noviembre de 2021, de http://www.laccei.org/LACCEI2006-PuertoRico/Papers%20-pdf/EDU072_Alvarez.pdf
Esto es un párrafo listo para contener creatividad, experiencias e historias geniales.
¡Gracias!
Esto es un párrafo listo para contener creatividad, experiencias e historias geniales.
DEFINICIÓN Y SUPUESTOS DE ESTADÍSTICA MULTIVARIABLE
trinidadatilanoabraham
Created on November 3, 2021
estadística multivariable
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Animated Chalkboard Presentation
View
Genial Storytale Presentation
View
Blackboard Presentation
View
Psychedelic Presentation
View
Chalkboard Presentation
View
Witchcraft Presentation
View
Sketchbook Presentation
Explore all templates
Transcript
EstadisticaMultivariable
05/11/2022
Alumno: Abraham Trinidad Atilano Matricula: 19300914 Carrera: Desarrollo de Negocios, Licenciatura en Innovación de Negocios y Mercadotecnia Materia: Estadística Aplicada a los Negocios Docente: Mtro. René Assef Silahua Arciniega Universidad Tecnológica de Tula – Tepeji
Esto es un párrafo listo para contener creatividad, experiencias e historias geniales.
Heterocedasticidad
Multicolinealidad
Concepto
Normalidad
Análisis de los residuos
Linealidad
Autocorrelación
¿Estadística Multivariable?
Concepto
La estadística multivariable es una rama de las estadísticas que abarca la observación y el análisis simultáneos de más de una variable respuesta. La aplicación de la estadística multivariable es llamada análisis multivariable. La estadística multivariable trata de comprender los diferentes objetivos y antecedentes de cada una de las diferentes formas de análisis multivariante y cómo se relacionan entre sí. La aplicación práctica de la estadística multivariable a un problema particular puede involucrar varios tipos de análisis univariados y multivariados para comprender las relaciones entre las variables y su relevancia para el problema que se está estudiando.
¿Cuando se lleva normalidad?
Se lleva cuando la normalidad univariante resulta ser una condición necesaria pero no suficiente para que conjuntamente sigan una normal multivariante, es decir, si la distribución conjunta es normal multivariante, cada una de las marginales es una normal univariante, pero no a la inversa. Por este motivo, se hace necesario comprobar en primer lugar que todas las variables consideradas individualmente se distribuyen normalmente para, a continuación, contrastar que todas ellas en conjunto cumplen la normalidad multivariante
Normalidada Univariante
Para estudiar la normalidad univariante de los datos, podemos comenzar realizando una inspección visual de los mismos utilizando para ello el histograma, que nos permitirá observar si la forma de la distribución es similar a la de la campana de Gauss (unimodal, campaniforme, simétrica,…).
Otra opción es el gráfico de probabilidad normal, en el que se representan los datos frente a la teórica distribución normal de forma que los puntos deberían aproximarse a una línea recta para poder admitir que son normales, aunque conviene tener en cuenta que siempre tenderá a observarse una mayor desviación en los extremos. Además, los gráficos de probabilidad normal también permiten conocer la causa de esa desviación: si los puntos se disponen en forma de "U" o con alguna curvatura, ello se debe a que la distribución es asimétrica, mientras que si presentan forma de "S" significará que la distribución no es mesocúrtica.
¿Cuando se lleva la Heterocedasticidad?
La heterocedasticidad es, en estadística, cuando los errores no son constantes a lo largo de toda la muestra. El término es contrario a homocedasticidad
Uno de los supuestos del modelo de regresión lineal es la homocedasticidad de la perturbación aleatoria, es decir, que todos los términos de la perturbación se distribuyen de la misma forma alrededor de la recta de regresión: tienen la misma varianza (varianza constante): 𝑉𝑎𝑟[𝑢𝑖] = 𝑉𝑎𝑟[𝑢𝑗] = 𝜎 2,∀i ≠ j Cuando no se cumple esta condición, es decir, cuando la dispersión de los términos de perturbación es diferente para diferentes valores de la variable explicativa, nos encontramos con la heterocedasticidad. La heterocedasticidad tiene importantes consecuencias en el método de estimación MCO. Los estimadores de los coeficientes siguen siendo insesgados, pero la estimación de los errores estándar de esos parámetros no es válida (que denotaremos SE estimado). Por esta razón, no podemos construir intervalos de confianza ni hacer pruebas de hipótesis correctas, pues para hacerlos se utiliza el error estándar.
Solución
Una solución utilizada habitualmente para resolver el problema de la heterocedasticidad consiste en utilizar los estimadores calculados mediante el método de mínimos cuadrados ordinarios (MCO), pero no sus Errores Estándar (SE), sino en su lugar los llamados Errores Estándar Robustos (o errores estándar de Eicker-White, que denotaremos RSE). Esta técnica tiene la ventaja de que puede aplicarse sin necesidad de conocer el patrón concreto que sigue la heterocedasticidad en cada caso. Los RSE son estimadores de los errores estándar de los coeficientes estimados que tienen en cuenta la heterocedasticidad de la muestra de datos, de forma que pueden utilizarse para realizar inferencia estadística inmune a la heterocedasticidad. Lo vemos con más detalle en el caso del modelo econométrico de dos variables:
¿Cuando se lleva la Multicolinealidad?
El término colinealidad (o multicolinealidad) en Econometría se refiere a una situación en la que dos o más variables explicativas se parecen mucho y, por tanto, resulta difícil medir sus efectos individuales sobre la variable explicada.
Este fenómeno puede presentarse con frecuencia en un contexto de series temporales y con series macroeconómicas. Por ejemplo, la población y el PIB en general suelen estar altamente correlacionados.Podemos encontrar:
Multicolinealidad Exacta
En el caso de la multicolinealidad exacta, el determinante: |𝑋′𝑋| = 0 Lo que significa que el sistema de ecuaciones de los estimadores MCO, 𝑋′𝑋 Β̂ = 𝑋´Y tiene infinitas soluciones.
Multicolinealidad de Grado
Cuando dos o más variables explicativas en un modelo están altamente correlacionadas en la muestra, es muy difícil separar el efecto parcial de cada una de estas variables sobre la variable dependiente
La información muestral que incorpora una de estas variables es casi la misma que la del resto de las correlacionadas con ella.En este caso, el determinante |𝑋 ′𝑋| ≅ 0. Matemáticamente, existirá una solución única al problema de la mínima suma de cuadrados, pero también existirán muchas soluciones casi iguales a ella.Los síntomas de este problema que podemos encontrar son fundamentalmente:
Soluciones para la Multicolinealidad
El problema de colinealidad se reduce a que la muestra no contiene suficiente información para estimar todos los parámetros. Por ello, resolver el problema requiereañadir nueva información, sea muestral o extramuestral, o cambiar la especificación. Algunas posibles soluciones en esta línea son:
¿Cuando se lleva la Autocorrelación?
La autocorrelación es uno de los problemas que habitualmente encontramos en modelos, junto a la heteroscedasticidad, son causantes de ajustes pobres y espurios.
La perturbación de una observación cualquiera u_i está correlacionada con la perturbación de cualquier otra observación => las observaciones no son independientes. La autocorrelación es habitual en los datos de series temporales => correlación serial En los datos de sección cruzada es menos común, aunque posible => correlación espacial.
CAUSAS DE LA AUTOCORRELACIÓN:
La autocorrelación es un fenómeno que se presenta en muestras que contengan de datos asociados al tiempo, aunque también puede presentarse cuando se trabaja con datos de corte transversal, en cuyo caso hablamos de “autocorrelación espacial”. Otras causas posibles de la existencia de autocorrelación en algunas situaciones específicas, como, por ejemplo: a) Por la existencia de ciclos y tendencias en los datos: Si la variable a explicada presenta un comportamiento cíclico que no viene explicado por las variables explicativas, entonces dicho comportamiento cíclico estará recogido en el término de error del modelo. b) Cuando se comete un error de especificación inicial del modelo por omisión de variables relevantes. La omisión de variables relevantes, en principio, no debería suponer autocorrelación en el término de error salvo que dichas variables omitidas estén correlacionadas entre sí. c) Cuando se comete un error de especificación en la forma funcional del modelo. Una mala especificación de la forma funcional del modelo pueden provocar ”rachas” de residuos positivos seguidas de otras de residuos negativos y así sucesivamente.
¿Cuando se lleva la Linealidad?
La linealidad es un supuesto implícito de todas las técnicas multivariantes basadas en medidas de correlación, incluyendo la regresión múltiple, la logística, el análisis factorial y los modelos de ecuaciones estructurales. La forma más común de evaluar la linealidad es examinar los gráficos de dispersión de las variables e identificar cualquier pauta no lineal en los datos. Otra forma es realizar el análisis de regresión múltiple y realizar el análisis de los residuos. La corrección más directa de la no linealidad, es la transformación de una o ambas variables para conseguir la linealidad
¿Cuando se lleva el Análisis de los residuos?
Si bien para la estimación por mínimos cuadrados de los coeficientes de un modelo de regresión, sólo es necesaria la asunción de linealidad, la normalidad de los mismos, en base a la cual se realizan los contrastes de hipótesis, está basada también en las asunciones de normalidad y homoscedasticidad. Por consiguiente, conviene asegurar que dichas asunciones se cumplen en cada caso.
Hay que tener en cuenta que, en caso de que no se cumpla la normalidad, no se puede utilizar la t ni la F para los contrastes de hipótesis. Puede usarse, sin embargo, la desigualdad de Tchebysheff, que establece que para cualquier variable aleatoria
¿En que consiste?
Generalmente, sin embargo, no se tienen suficientes de estos valores muestrales para cada variable (para el problema del ejemplo 5, por ejemplo, existe una variable ex1,...,xk para cada valor de la edad, del consumo de grasas y del ejercicio; el residuo para el primer paciente corresponde a la variable e80,35,0; el del segundo a la variable e30,40,2; etc., es decir, para cada variable sólo se tiene un valor muestral. El análisis de los residuos consiste, por tanto, en contrastar que , i=1,...,n provienen de una población normal con media 0 y varianza s 2 con las pruebas habituales de ji-cuadrado, Kolmogorov-Smirnov. Hay que tener en cuenta que de este modo se están contrastando globalmente todas las asunciones y, por consiguiente, una falta de normalidad de los residuos puede ser debida también a que el modelo sea inapropiado o a existencia de heterocedasticidad. Teniendo en cuenta que (n-(k+1))s2/ s2 se distribuye como una ji-cuadrado con (n-(k+1)) grados de libertad, la variable
Fuentes de consulta
Esto es un párrafo listo para contener creatividad, experiencias e historias geniales.
¡Gracias!
Esto es un párrafo listo para contener creatividad, experiencias e historias geniales.