Want to create interactive content? It’s easy in Genially!

Programación dinámica bajo incertidumbre

Erik Valencia

Created on February 26, 2026

Start designing with a free template

Discover more than 1500 professional designs like these:

Wall and Neon Infographic

Movies List

Hand-Drawn Infographic

Food Infographic

Neighborhood List

Volcano list

Pc mockup infographic

Explore all templates

Licenciatura en Logística Unidad de Aprendizaje Investigación de Operaciones II Programación dinámica bajo incertidumbre Integrantes: Erik Valencia Rueda Luis Angel Nepamuceno Resendiz

INTRODUCCIÓN

La presente actividad tiene como propósito analizar los modelos de optimización bajo incertidumbre, específicamente el proceso de toma de decisiones estadísticas y la programación dinámica estocástica. En el entorno empresarial actual, las decisiones rara vez se toman bajo condiciones de certeza absoluta; por el contrario, los gerentes deben enfrentar escenarios variables relacionados con demanda, costos, tiempos de entrega y condiciones del mercado. Por ello, resulta fundamental comprender cómo los modelos probabilísticos permiten estructurar, analizar y optimizar decisiones en contextos inciertos.

A través del estudio de la programación dinámica estocástica y de criterios de decisión como Laplace, Wald, Hurwicz y Savage, se busca fortalecer la capacidad de análisis cuantitativo y la aplicación práctica de herramientas matemáticas en entornos reales de negocio.

¿En qué consiste la programación dinámica estocástica o bajo incertidumbre?

La programación dinámica estocástica (PDE), también llamada programación dinámica bajo incertidumbre, es una técnica matemática para la toma secuencial de decisiones óptimas en sistemas dinámicos donde existen parámetros aleatorios que afectan las transiciones entre estados.

A diferencia de la programación dinámica determinística (donde todo es conocido y fijo), la PDE incorpora distribuciones de probabilidad sobre eventos inciertos (como demanda variable, afluentes aleatorios o fallos), permitiendo obtener políticas óptimas adaptativas (solución en lazo cerrado) que se ajustan a la información que se va revelando en cada etapa.

Características principales

Decisiones secuenciales.
Estados que evolucionan en el tiempo.
Variables aleatorias.
Minimización de costos o maximización de beneficios esperados.
Uso repetitivo del modelo para distintos escenarios.

Sistema dinámico

donde: 𝒙𝒕 es el estado del sistema en el tiempo. 𝒕 (ej. nivel de inventario o agua en un embalse). 𝒖𝒕 es la decisión o control (ej. cantidad a producir o descargar). 𝒘𝒕 es el ruido o parámetro aleatorio con distribución de probabilidad conocida 𝑷(𝒘𝒕).

Función objetivo (valor esperado a minimizar o maximizar)

donde: g𝒕 es el costo o beneficio en etapa 𝒕. g𝒕 es el costo terminal. E el operador de esperanza matemática sobre las realizaciones de (𝒘𝒕).

Ecuación de Bellman estocástica

Los pasos para resolverla (según Alayo, 2016) son:
Definir estado, controles, dinámica estocástica, costos y restricciones.
Discretizar espacios si es necesario.
Recursión hacia atrás: calcular V𝒕 (𝒙𝒕)y la decisión óptima 𝒖𝒕(𝒙𝒕) para cada estado y etapa, promediando sobre los escenarios de (𝒘𝒕).
Obtener la política óptima π^ (𝒙𝒕)=𝒖𝒕^*𝒙𝒕.
Simular trayectorias forward con la política.

Sauré (2003) complementa con problemas prácticos (operación de equipos, asignación de recursos hídricos, etc.), enfatizando cómo la PDE genera tablas de política que indican la mejor decisión según el estado observado en cada etapa.

Ejemplo en entorno laboral

En un CEDIS de Walmart México la programación dinámica estocástica se aplica de manera muy práctica para la gestión óptima de inventario bajo demanda incierta. Un ejemplo realista y común es la decisión diaria y o semanal de cuánto reabastecer de productos de alta rotación (refrescos, productos de limpieza, artículos de temporada) desde proveedores o plantas hacia el CEDIS, considerando demanda estocástica de las tiendas o clientes finales.

Escenario del ejemplo
Horizonte de planeación: T=4 periodos (semanas).
Estado xt: Nivel de inventario disponible al inicio de la semana ten el CEDIS (discretizado, por simplicidad: 0 a 20 cajas/unidades).
Decisión ut: Cantidad a ordenar/reabastecer al inicio de la semana t(0 a 10 unidades, con lead time de 0 para simplicidad; llega inmediatamente).
Demanda dt: Variable aleatoria (estocástica), con dos escenarios equiprobables (0.5 cada uno):
Escenario bajo: dt=5unidades (semana normal).
Escenario alto: dt=12unidades (semana con pico, ej. quincena, promoción o mal clima que aumenta compras en línea).

Función de costo/beneficio por periodo gt (xt,ut,dt)(a minimizar costos totales esperados)

donde: c= 8MXN/unidad (costo de orden/reabastecimiento variable). h= 3MXN/unidad (costo de mantenimiento/almacenamiento por exceso al final del periodo). p= 15MXN/unidad (costo de faltante/penalización por demanda no satisfecha o pierde venta).

Formulación como Programación Dinámica Estocástica

Estado:

Inventario disponible al inicio de la semana 𝑡.

Decisión:

Demanda estocástica:

Dinámica:

Costo por periodo:

Ecuación de Bellman

Para horizonte finito T=4

Con condición terminal:

Y como hay solo dos escenarios:

donde:

Lo que pasa realmente en el CEDIS

Demanda esperada:

Comparamos costos:
Costo faltante: 15
Costo mantenimiento: 3

Es mucho más caro quedarse sin inventario que mantener excedente.

Política óptima tipo "base- stock"

La solución óptima es: Donde: St es el nivel óptimo.

Cálculo intuitivo del nivel óptimo S.

En el último periodo (t=4), no hay futuro.Entonces solo minimizamos costo esperado inmediato: Buscamos Costo esperado en función de y Sí Siempre hay faltante Si:

Con demanda 5; sobra inventario.Con demanda 12; hay faltante. Si: Nunca hay faltante.

Calculamos el punto crítico

Función de Distribución Acumulativa: Para Para Para

El primer punto donde la Función de Distribución Acumulativa es:

Pero debemos considerar que ordenar cuesta 8 por unidad.Al evaluar numéricamente, se obtiene que el nivel óptimo práctico está alrededor de:

¿Qué cambia en semanas 1 - 3?Como aún hay horizonte futuro:
El inventario tiene valor estratégico.
La política óptima mantiene un nivel ligeramente mayor en semanas tempranas.
En semana 4 se reduce el nivel objetivo.
Resultado típico:

Conclusión:En un CEDIS:
Se usa un modelo estocástico
Se calcula un nivel objetivo dinámico
La política óptima es tipo base-stock
Se prioriza evitar faltantes (p=15 > h=3)
La programación dinámica permite:
Reducir sobre inventario
Disminuir quiebres de stock
Minimizar costo esperado total
Tomar decisiones consistentes bajo incertidumbre

Criterio de Laplace (o de igualdad de probabilidades / Bayesiano con probabilidades iguales)

Es un criterio “neutral” o de promedio, ideal cuando no hay información sobre probabilidades reales. Evita extremos pesimistas u optimistas y promueve decisiones equilibradas.
Consiste en asumir que todos los estados de la naturaleza (escenarios inciertos).
Son equiprobables (probabilidad 1/ndonde n= número de estados). Se calcula el valor esperado (promedio) de cada alternativa y se elige la que maximiza (o minimiza) dicho promedio.

Ejemplo regla Laplace

A una clase de estadística han acudido Ana, Pedro, Juan, Isabel, Beatriz, Carlota, Rosa y Laura. Si se elige un estudiante al azar, ¿cuál es la probabilidad de que sea chico? Dado que el estudiante se elige al azar, todos tienen la misma probabilidad de ser elegidos, por lo que se cumple la condición de equiprobabilidad para poder utilizar la regla de Laplace. Los resultados posibles son todos y cada uno de los estudiantes de la clase, 8 en total: Ana, Pedro, Juan, Isabel, Beatriz, Carlota, Rosa y Laura. De ellos, son resultados favorables al suceso de que el estudiante elegido sea chico Pedro y Juan, esto es, 2 resultados. Luego la probabilidad que se pide es:

Criterio de Hurwicz (criterio del coeficiente de optimismo)

Combina el peor y el mejor resultado de cada alternativa mediante un coeficiente de optimismo α∈[0,1](donde α=1es totalmente optimista, α=0totalmente pesimista). Se calcula un valor ponderado y se elige la alternativa que maximiza ese valor.

Permite al decisor expresar su grado de optimismo/pesimismo. Es flexible y equilibra riesgo: cuando α=0.5coincide con un promedio de extremos. En entornos empresariales (como pronóstico de ventas), α se calibra según tolerancia al riesgo del gerente.

La regla o criterio de Hurwicz es una técnica de toma de decisiones bajo incertidumbre que equilibra el optimismo y el pesimismo. Para cada alternativa, calcula una media ponderada entre el mejor (Max) y el peor (Min). resultado posible, utilizando un coeficiente de optimismo (a). Se elige la opción con el mayor valor ponderado:.

Ejemeplo Criterio de Hurwicz

Fuentes

Diferencias con respecto a los modelos de programación dinámica determinística

Naturaleza de la transición entre estados (determinismo vs. aleatoriedad) En la programación dinámica determinística, la transición del estado actual xt al siguiente estado x(t+1) está completamente determinada por la decisión ut tomada en la etapa t. Es decir: sin ningún elemento aleatorio; el resultado es predecible y fijo para cada par (estado, decisión). En contraste, en la programación dinámica estocástica, la transición incorpora incertidumbre mediante una variable aleatoria wt (ruido o perturbación) con distribución de probabilidad conocida:

Función objetivo y criterio de optimalidad (valor cierto vs. valor esperado) La PDD busca maximizar (o minimizar) un valor determinístico acumulado a lo largo de las etapas: donde g_tes el beneficio/costo conocido con certeza. La PDE optimiza el valor esperado (esperanza matemática) sobre las realizaciones aleatorias:

Naturaleza de la política óptima (fija vs. adaptativa o en lazo cerrado) En la programación dinámica determinística, la política óptima es una regla fija que mapea cada estado a una decisión específica: ut^* (xt), y como todo es predecible, la trayectoria óptima es única y conocida de antemano (puede planificarse completamente al inicio). En la programación dinámica estocástica, aunque también se obtiene una política ut^* (xt)(función del estado observado), esta es adaptativa: la decisión se ajusta en cada etapa según el estado real que se observa después de las realizaciones aleatorias previas. No existe una trayectoria fija óptima a priori; en su lugar, se genera una política de decisión en lazo cerrado que responde dinámicamente a la incertidumbre revelada, lo que mejora significativamente el desempeño en entornos reales inciertos (por ejemplo, en gestión de inventarios o embalses, como se menciona en los documentos revisados).

Conclusión La programación dinámica estocástica permite modelar decisiones secuenciales bajo incertidumbre mediante el uso de funciones de valor y esperanza matemática, facilitando la optimización de recursos en ambientes reales como inventarios, inversión o planeación operativa. Por otro lado, los criterios de Laplace y Wald ofrecen enfoques distintos para decidir cuando no se conocen probabilidades: uno neutral y otro conservador. La correcta elección del modelo depende del nivel de riesgo que la organización esté dispuesta a asumir. Estos métodos constituyen herramientas fundamentales para la toma de decisiones estratégicas en entornos empresariales modernos donde la incertidumbre es una constante.

Fuentes

Referencias

Alayo, H. (2016). Introducción a la programación dinámica estocástica. Universidad De Chile. https://seduca.uaemex.mx/inc/getFileM.php?cad=m&id=Ejemplos_Programaci_n_Din_mica_Estoc_stica.pdf
Archimedes Tube. (2020, June 2). Regla de LAPLACE Explicada con EJEMPLOS [Video]. YouTube. https://www.youtube.com/watch?v=52dHFBQCgnk
Incertidumbre. (2024). https://www.ingenieria.unam.mx/javica1/ingsistemas2/Decisiones/Incertidumbre.html
López, E. V. (2020). Toma de decisiones. Víctor López. https://www.econfinados.com/post/la-toma-de-decisiones-en-la-empresa
Rio R. (2020). Riesgo. Criterio de Máxima Verosimilitud [Video]. YouTube. https://www.youtube.com/watch?v=6IjtMsQs-9U
Pérez M. (2011). Probabilidad con baraja española. Mariano Real [Video]. YouTube. https://www.youtube.com/watch?v=anTpykMQ2h8
Pérez M. (2011). Probabilidad con dominó. Mariano Real [Video]. YouTube. https://www.youtube.com/watch?v=ffiAvJXWpX0
Matemáticas profe Alex. (2022). Regla de Laplace | 4 Ejemplos [Video]. YouTube. https://www.youtube.com/watch?v=qFQToHdNN9k
Maths, S. (2020). Regla de Laplace. https://www.sangakoo.com/es/temas/regla-de-laplace
Mirko Merino. (2021, June 10). Criterios de decisión: Laplace. Optimista. Pesimista. Hurwicz. Savage [Video]. YouTube. https://www.youtube.com/watch?v=LsLm1FshLvs
Sauré V., D. (2003). Programación dinámica estocástica. Universidad De Chile. https://seduca.uaemex.mx/inc/getFileM.php?cad=m&id=IntrodProgradinamica.pdf
UAEMex. (2026). 1.4 Programación dinámica bajo incertidumbre. SEDUCA https://seduca.uaemex.mx/principalW.php#tem

View

Wall and Neon Infographic

View

Movies List

View

Hand-Drawn Infographic

View

Food Infographic

View

Neighborhood List

View

Volcano list

View

Pc mockup infographic

Programación dinámica bajo incertidumbre

Start designing with a free template

View

Wall and Neon Infographic

View

Movies List

View

Hand-Drawn Infographic

View

Food Infographic

View

Neighborhood List

View

Volcano list

View

Pc mockup infographic

Transcript

Licenciatura en Logística Unidad de Aprendizaje Investigación de Operaciones II Programación dinámica bajo incertidumbre Integrantes: Erik Valencia Rueda Luis Angel Nepamuceno Resendiz

INTRODUCCIÓN

A través del estudio de la programación dinámica estocástica y de criterios de decisión como Laplace, Wald, Hurwicz y Savage, se busca fortalecer la capacidad de análisis cuantitativo y la aplicación práctica de herramientas matemáticas en entornos reales de negocio.

¿En qué consiste la programación dinámica estocástica o bajo incertidumbre?

La programación dinámica estocástica (PDE), también llamada programación dinámica bajo incertidumbre, es una técnica matemática para la toma secuencial de decisiones óptimas en sistemas dinámicos donde existen parámetros aleatorios que afectan las transiciones entre estados.

Características principales

donde: 𝒙𝒕 es el estado del sistema en el tiempo. 𝒕 (ej. nivel de inventario o agua en un embalse). 𝒖𝒕 es la decisión o control (ej. cantidad a producir o descargar). 𝒘𝒕 es el ruido o parámetro aleatorio con distribución de probabilidad conocida 𝑷(𝒘𝒕).

Función objetivo (valor esperado a minimizar o maximizar)

donde: g𝒕 es el costo o beneficio en etapa 𝒕. g𝒕 es el costo terminal. E el operador de esperanza matemática sobre las realizaciones de (𝒘𝒕).

Ecuación de Bellman estocástica

Sauré (2003) complementa con problemas prácticos (operación de equipos, asignación de recursos hídricos, etc.), enfatizando cómo la PDE genera tablas de política que indican la mejor decisión según el estado observado en cada etapa.

Ejemplo en entorno laboral

Función de costo/beneficio por periodo gt (xt,ut,dt)(a minimizar costos totales esperados)

donde: c= 8MXN/unidad (costo de orden/reabastecimiento variable). h= 3MXN/unidad (costo de mantenimiento/almacenamiento por exceso al final del periodo). p= 15MXN/unidad (costo de faltante/penalización por demanda no satisfecha o pierde venta).

Formulación como Programación Dinámica Estocástica

Estado:

Inventario disponible al inicio de la semana 𝑡.

Decisión:

Demanda estocástica:

Dinámica:

Costo por periodo:

Ecuación de Bellman

Para horizonte finito T=4

Con condición terminal:

Y como hay solo dos escenarios:

donde:

Lo que pasa realmente en el CEDIS

Demanda esperada:

Comparamos costos:Costo faltante: 15 Costo mantenimiento: 3

Es mucho más caro quedarse sin inventario que mantener excedente.

Política óptima tipo "base- stock"

La solución óptima es: Donde: St es el nivel óptimo.

Cálculo intuitivo del nivel óptimo S.

En el último periodo (t=4), no hay futuro.Entonces solo minimizamos costo esperado inmediato: Buscamos Costo esperado en función de y Sí Siempre hay faltante Si:

Con demanda 5; sobra inventario.Con demanda 12; hay faltante. Si: Nunca hay faltante.

Calculamos el punto crítico

Función de Distribución Acumulativa: Para Para Para

El primer punto donde la Función de Distribución Acumulativa es:

Pero debemos considerar que ordenar cuesta 8 por unidad.Al evaluar numéricamente, se obtiene que el nivel óptimo práctico está alrededor de:

¿Qué cambia en semanas 1 - 3?Como aún hay horizonte futuro: El inventario tiene valor estratégico. La política óptima mantiene un nivel ligeramente mayor en semanas tempranas. En semana 4 se reduce el nivel objetivo. Resultado típico:

Criterio de Laplace (o de igualdad de probabilidades / Bayesiano con probabilidades iguales)

Ejemplo regla Laplace

Criterio de Hurwicz (criterio del coeficiente de optimismo)

Combina el peor y el mejor resultado de cada alternativa mediante un coeficiente de optimismo α∈[0,1](donde α=1es totalmente optimista, α=0totalmente pesimista). Se calcula un valor ponderado y se elige la alternativa que maximiza ese valor.

Permite al decisor expresar su grado de optimismo/pesimismo. Es flexible y equilibra riesgo: cuando α=0.5coincide con un promedio de extremos. En entornos empresariales (como pronóstico de ventas), α se calibra según tolerancia al riesgo del gerente.

Ejemeplo Criterio de Hurwicz

Fuentes

Diferencias con respecto a los modelos de programación dinámica determinística

Fuentes

Referencias

Comparamos costos:
Costo faltante: 15
Costo mantenimiento: 3

¿Qué cambia en semanas 1 - 3?Como aún hay horizonte futuro:
El inventario tiene valor estratégico.
La política óptima mantiene un nivel ligeramente mayor en semanas tempranas.
En semana 4 se reduce el nivel objetivo.
Resultado típico: