Want to create interactive content? It’s easy in Genially!

Get started free

ME - 9 - M5 - R1

CEV PUCE

Created on October 11, 2020

Start designing with a free template

Discover more than 1500 professional designs like these:

Geniaflix Presentation

Vintage Mosaic Presentation

Shadow Presentation

Newspaper Presentation

Zen Presentation

Audio tutorial

Pechakucha Presentation

Transcript

Regresión Logística

Bioestadística aplicada a problemas de salud

Epidemiología para la salud pública

Introducción

En un modelo de regresión lineal simple podemos analizar la asociación entre dos variables. Sin embargo, nuestra variable dependiente no siempre será una variable numérica continua. De hecho, en epidemiología, encontramos muchas variables dependientes categóricas con dos valores (por ejemplo presencia o ausencia de una enfermedad). El modelo de regresión logística nos permite modelizar esta respuesta, ajustando por otras variables potencialmente confusoras.

Lorem ipsum

Preguntas básicas

En clases anteriores (epidemiología básica, estadística 1) aprendieron a estudiar la influencia de una sola característica (exposición) en un outcome de salud cualitativo (enfermedad si o no). Par ello estimábamos el OR y su intervalo de confianza como medida de asociación.

¿Cómo podemos extender los métodos (odds ratio, intervalo de confianza, jicuadrado) que evaluan la relación entre dos variables cualitativas (por ejemplo: cáncer de pulmon y exposición a amianto) cuando debemos incluir más variables (en ejemplo: hábito tabáquico, edad, etc.)?

Qué herramienta estadística nos permite estudiar de forma simultánea la relación/asociación de varias variables independientes (cualitativas y/o cuantitativas) sobre una variable dependiente cualitativa?

Modelo de regresión logística

El denominado modelo de regresión logística se ha convertido en el método estándar de análisis de esta situación (describir la relación entre una variable dependiente cualitativa dicotómica y varias variables independientes). Mediante la regresión logística se modeliza la probabilidad de que “ocurra” el suceso de interés en función de ciertas variables que se creen relevantes (¿Que factores influyen sobre la probabilidad de presentar/ desarrollar el suceso?).

Preguntas básicas

En resumen, cuando queramos valorar la relación (asociación) entre una variable dependiente y las variables independientes, el análisis multivariable utilizado dependerá de la naturaleza/tipo de la variable dependiente (respuesta). Se suele usar:

  • Regresión lineal para variable dependiente cuantitativa.
  • Regresión logística para variable dependiente cualitativa.
  • Regresión Poisson para variable dependiente de conteo.
  • Regresión de Cox para variable dependiente tiempo hasta un evento.

Usos de la regresión logística

  • Modelos Explicativos:
  • Valorar la asociación entre determinados factores de interés y la salud controlando la confusión que pueden producir otras variables. Permitirá obtener medidas de asociación ajustadas por la confusión y valorar la interacción.
    • En Regresión Logística, la medida de asociación utilizada será la odds ratio. Podremos obtener odds ratio ajustadas por factores confusores, el intervalo de confianza de la odds ratio ajustada y el valor p
  • Modelos Predictivos:
  • Determinar el diagnóstico de una enfermedad.
    • En Regresión logística, podemos predecir la probabilidad de un suceso de interés en función de una serie de valores de las variables: ¿Cuál es la probabilidad de que un individuo de 40 años, hombre, hipertenso, etc. desarrolle un infarto de miocardio?)

Usos de la regresión logística

Usos de la regresión logística

  • El modelo de regresión logística múltiple (multivariable) para la probabilidad de que “ocurra” el suceso de interés en función de un conjunto de variables, P(Y = 1| X1 ,...,Xk ), se define como:

Fórmula "lineal"

Modelo de regresión logística

El modelo recibe este nombre, por que se considera que la probabilidad de que ocurra el suceso en función de las variables independientes sigue una función logística. La función logística para un valor z se define como:

  • f(z) esta en el rango [0,1]
  • Una probabilidad esta en [0,1]

Modelo de regresión logística

Expresando Modelo de forma lineal

Usando la transformación logit podemos expresar el modelo de la siguientes formas: o

Expresando Modelo de forma lineal

  • Nótese que en la primera fórmula de la diapositiva anterior, es una odds (p/1-p).
    • Es la odds de Y=1 en función de las variables X1, X2, ..., Xk.
  • Por lo tanto, mediante la regresión logística podremos obtener de forma natural la medida de frecuencia odds y la medida de asociación denominada odds ratio.

Estimando el modelo de regresión - ejemplo

  • Set de observaciones independientes.
  • LOW = Bajo peso al nacer
  • Queremos determinar la asociación entre bajo peso al nacer (variable dependiente; NO=0, SI=1) y otras variables de interés (variables independientes).
  • Variable RACE tiene múltiples categorías – hacemos “dummies”:

Estimando el modelo de regresión - ejemplo

  • Podemos plantear la siguiente ecuación:
  • LOW = Bajo peso al nacer
  • Queremos determinar la asociación entre bajo peso al nacer (variable dependiente; NO=0, SI=1) y otras variables de interés (variables independientes).
  • Dónde π(x) = P(LOW=1|AGE,LWT,RACE2,RACE3,FTV).
  • Objetivo: obtener una estimación de los parámetros β0, β1, β2, β3, β4 y β5 que nos aportará información sobre la relación entre la variable dependiente LOW y las variables independientes AGE, LWT, RACE y FTV.

Estimando el modelo de regresión - ejemplo

  • Para el modelo de regresión lineal el método utilizado para estimar los parámetros desconocidos era el método de mínimos cuadrados. Para el caso de variable respuesta cualitativa este método proporciona estimaciones que no presentan buenas propiedades.
  • En este caso se aplicará un método general de estimación denominado método de máxima verosimilitud (máximum likelihood).
  • De una forma general, la idea de este método es dar como estimaciones de los parámetros desconocidos aquellos que hacen máxima la probabilidad de obtener el conjunto de datos observados.

Estimando el modelo de regresión - ejemplo

Para aplicar el método de máxima verosimilitud:

  1. Se obtiene una función denominada función de verosimilitud (likelihood function). Esta función expresa la probabilidad de los datos observados en función de los parámetros desconocidos.
  2. Seguidamente se obtienen como estimaciones de los parámetros aquellas estimaciones que maximimizan esta función. Los estimadores obtenidos mediante este método se denominan estimadores máximo verosímiles (maximum likelihood estimators
Muchas veces, por facilidad en los cálculos, en lugar de maximizar la función de verosimilitud se máximiza su logaritmo, que se denomina en términología anglosajona log likelihood. Estimaciones son iguales de las dos maneras

Estimando el modelo de regresión - ejemplo

Estimaciones del Modelo

Con esta ecuación (parámetros) podemos estimar:

  • Probabilidad de presentar bajo peso al nacer en función de valores de variables explicativas:
  • Odds de bajo peso al nacer en función de valores de las covariables:
  • Cocientes de probabilidades y cocientes de odds (odds ratios)