Licenciatura en Logística Unidad de Aprendizaje
Investigación de Operaciones II
Programación dinámica bajo incertidumbre Integrantes: Erik Valencia Rueda
Luis Angel Nepamuceno Resendiz
INTRODUCCIÓN
La presente actividad tiene como propósito analizar los modelos de optimización bajo incertidumbre, específicamente el proceso de toma de decisiones estadísticas y la programación dinámica estocástica. En el entorno empresarial actual, las decisiones rara vez se toman bajo condiciones de certeza absoluta; por el contrario, los gerentes deben enfrentar escenarios variables relacionados con demanda, costos, tiempos de entrega y condiciones del mercado. Por ello, resulta fundamental comprender cómo los modelos probabilísticos permiten estructurar, analizar y optimizar decisiones en contextos inciertos.
A través del estudio de la programación dinámica estocástica y de criterios de decisión como Laplace, Wald, Hurwicz y Savage, se busca fortalecer la capacidad de análisis cuantitativo y la aplicación práctica de herramientas matemáticas en entornos reales de negocio.
¿En qué consiste la programación dinámica estocástica o bajo incertidumbre?
La programación dinámica estocástica (PDE), también llamada programación dinámica bajo incertidumbre, es una técnica matemática para la toma secuencial de decisiones óptimas en sistemas dinámicos donde existen parámetros aleatorios que afectan las transiciones entre estados.
A diferencia de la programación dinámica determinística (donde todo es conocido y fijo), la PDE incorpora distribuciones de probabilidad sobre eventos inciertos (como demanda variable, afluentes aleatorios o fallos), permitiendo obtener políticas óptimas adaptativas (solución en lazo cerrado) que se ajustan a la información que se va revelando en cada etapa.
Características principales
Decisiones secuenciales.
Estados que evolucionan en el tiempo.
Variables aleatorias.
Minimización de costos o maximización de beneficios esperados.
Uso repetitivo del modelo para distintos escenarios.
Sistema dinámico
donde:
𝒙𝒕 es el estado del sistema en el tiempo.
𝒕 (ej. nivel de inventario o agua en un embalse).
𝒖𝒕 es la decisión o control (ej. cantidad a producir o descargar).
𝒘𝒕 es el ruido o parámetro aleatorio con distribución de probabilidad conocida 𝑷(𝒘𝒕).
Función objetivo (valor esperado a minimizar o maximizar)
donde:
g𝒕 es el costo o beneficio en etapa 𝒕. g𝒕 es el costo terminal. E el operador de esperanza matemática sobre las realizaciones de (𝒘𝒕).
Ecuación de Bellman estocástica
Los pasos para resolverla (según Alayo, 2016) son:
Definir estado, controles, dinámica estocástica, costos y restricciones.
Discretizar espacios si es necesario.
Recursión hacia atrás: calcular V𝒕 (𝒙𝒕)y la decisión óptima 𝒖𝒕*(𝒙𝒕) para cada estado y etapa, promediando sobre los escenarios de (𝒘𝒕).
Obtener la política óptima π^* (𝒙𝒕)=𝒖𝒕^*𝒙𝒕.
Simular trayectorias forward con la política.
Sauré (2003) complementa con problemas prácticos (operación de equipos, asignación de recursos hídricos, etc.), enfatizando cómo la PDE genera tablas de política que indican la mejor decisión según el estado observado en cada etapa.
Ejemplo en entorno laboral
En un CEDIS de Walmart México la programación dinámica estocástica se aplica de manera muy práctica para la gestión óptima de inventario bajo demanda incierta.
Un ejemplo realista y común es la decisión diaria y o semanal de cuánto reabastecer de productos de alta rotación (refrescos, productos de limpieza, artículos de temporada) desde proveedores o plantas hacia el CEDIS, considerando demanda estocástica de las tiendas o clientes finales.
Escenario del ejemplo
Horizonte de planeación: T=4 periodos (semanas).
Estado xt: Nivel de inventario disponible al inicio de la semana ten el CEDIS (discretizado, por simplicidad: 0 a 20 cajas/unidades).
Decisión ut: Cantidad a ordenar/reabastecer al inicio de la semana t(0 a 10 unidades, con lead time de 0 para simplicidad; llega inmediatamente).
Demanda dt: Variable aleatoria (estocástica), con dos escenarios equiprobables (0.5 cada uno):
Escenario bajo: dt=5unidades (semana normal).
Escenario alto: dt=12unidades (semana con pico, ej. quincena, promoción o mal clima que aumenta compras en línea).
Función de costo/beneficio por periodo gt (xt,ut,dt)(a minimizar costos totales esperados)
donde:
c= 8MXN/unidad (costo de orden/reabastecimiento variable).
h= 3MXN/unidad (costo de mantenimiento/almacenamiento por exceso al final del periodo).
p= 15MXN/unidad (costo de faltante/penalización por demanda no satisfecha o pierde venta).
Formulación como Programación Dinámica Estocástica
Estado:
Inventario disponible al inicio de la semana 𝑡.
Decisión:
Demanda estocástica:
Dinámica:
Costo por periodo:
Ecuación de Bellman
Para horizonte finito T=4
Con condición terminal:
Y como hay solo dos escenarios:
donde:
Lo que pasa realmente en el CEDIS
Demanda esperada:
Comparamos costos:
Costo faltante: 15
Costo mantenimiento: 3
Es mucho más caro quedarse sin inventario que mantener excedente.
Política óptima tipo "base- stock"
La solución óptima es: Donde: St es el nivel óptimo.
Cálculo intuitivo del nivel óptimo S.
En el último periodo (t=4), no hay futuro.Entonces solo minimizamos costo esperado inmediato: Buscamos Costo esperado en función de y Sí Siempre hay faltante Si:
Con demanda 5; sobra inventario.Con demanda 12; hay faltante. Si: Nunca hay faltante.
Calculamos el punto crítico
Función de Distribución Acumulativa: Para Para Para
El primer punto donde la Función de Distribución Acumulativa es:
Pero debemos considerar que ordenar cuesta 8 por unidad.Al evaluar numéricamente, se obtiene que el nivel óptimo práctico está alrededor de:
¿Qué cambia en semanas 1 - 3?Como aún hay horizonte futuro:
El inventario tiene valor estratégico.
La política óptima mantiene un nivel ligeramente mayor en semanas tempranas.
En semana 4 se reduce el nivel objetivo.
Resultado típico:
Conclusión:En un CEDIS:
Se usa un modelo estocástico
Se calcula un nivel objetivo dinámico
La política óptima es tipo base-stock
Se prioriza evitar faltantes (p=15 > h=3)
La programación dinámica permite:
Reducir sobre inventario
Disminuir quiebres de stock
Minimizar costo esperado total
Tomar decisiones consistentes bajo incertidumbre
Criterio de Laplace (o de igualdad de probabilidades / Bayesiano con probabilidades iguales)
Es un criterio “neutral” o de promedio, ideal cuando no hay información sobre probabilidades reales. Evita extremos pesimistas u optimistas y promueve decisiones equilibradas.
Consiste en asumir que todos los estados de la naturaleza (escenarios inciertos).
Son equiprobables (probabilidad 1/ndonde n= número de estados). Se calcula el valor esperado (promedio) de cada alternativa y se elige la que maximiza (o minimiza) dicho promedio.
Ejemplo regla Laplace
A una clase de estadística han acudido Ana, Pedro, Juan, Isabel, Beatriz, Carlota, Rosa y Laura. Si se elige un estudiante al azar, ¿cuál es la probabilidad de que sea chico?
Dado que el estudiante se elige al azar, todos tienen la misma probabilidad de ser elegidos, por lo que se cumple la condición de equiprobabilidad para poder utilizar la regla de Laplace.
Los resultados posibles son todos y cada uno de los estudiantes de la clase, 8 en total: Ana, Pedro, Juan, Isabel, Beatriz, Carlota, Rosa y Laura. De ellos, son resultados favorables al suceso de que el estudiante elegido sea chico Pedro y Juan, esto es, 2 resultados. Luego la probabilidad que se pide es:
Criterio de Hurwicz (criterio del coeficiente de optimismo)
Combina el peor y el mejor resultado de cada alternativa mediante un coeficiente de optimismo α∈[0,1](donde α=1es totalmente optimista, α=0totalmente pesimista). Se calcula un valor ponderado y se elige la alternativa que maximiza ese valor.
Permite al decisor expresar su grado de optimismo/pesimismo. Es flexible y equilibra riesgo: cuando α=0.5coincide con un promedio de extremos. En entornos empresariales (como pronóstico de ventas), α se calibra según tolerancia al riesgo del gerente.
La regla o criterio de Hurwicz es una técnica de toma de decisiones bajo incertidumbre que equilibra el optimismo y el pesimismo. Para cada alternativa, calcula una media ponderada entre el mejor (Max) y el peor (Min). resultado posible, utilizando un coeficiente de optimismo (a). Se elige la opción con el mayor valor ponderado:.
Ejemeplo Criterio de Hurwicz
Fuentes
Diferencias con respecto a los modelos de programación dinámica determinística
Naturaleza de la transición entre estados (determinismo vs. aleatoriedad) En la programación dinámica determinística, la transición del estado actual xt al siguiente estado x(t+1) está completamente determinada por la decisión ut tomada en la etapa t. Es decir: sin ningún elemento aleatorio; el resultado es predecible y fijo para cada par (estado, decisión). En contraste, en la programación dinámica estocástica, la transición incorpora incertidumbre mediante una variable aleatoria wt (ruido o perturbación) con distribución de probabilidad conocida:
Función objetivo y criterio de optimalidad (valor cierto vs. valor esperado) La PDD busca maximizar (o minimizar) un valor determinístico acumulado a lo largo de las etapas: donde g_tes el beneficio/costo conocido con certeza. La PDE optimiza el valor esperado (esperanza matemática) sobre las realizaciones aleatorias:
Naturaleza de la política óptima (fija vs. adaptativa o en lazo cerrado) En la programación dinámica determinística, la política óptima es una regla fija que mapea cada estado a una decisión específica: ut^* (xt), y como todo es predecible, la trayectoria óptima es única y conocida de antemano (puede planificarse completamente al inicio). En la programación dinámica estocástica, aunque también se obtiene una política ut^* (xt)(función del estado observado), esta es adaptativa: la decisión se ajusta en cada etapa según el estado real que se observa después de las realizaciones aleatorias previas. No existe una trayectoria fija óptima a priori; en su lugar, se genera una política de decisión en lazo cerrado que responde dinámicamente a la incertidumbre revelada, lo que mejora significativamente el desempeño en entornos reales inciertos (por ejemplo, en gestión de inventarios o embalses, como se menciona en los documentos revisados).
Conclusión
La programación dinámica estocástica permite modelar decisiones secuenciales bajo incertidumbre mediante el uso de funciones de valor y esperanza matemática, facilitando la optimización de recursos en ambientes reales como inventarios, inversión o planeación operativa.
Por otro lado, los criterios de Laplace y Wald ofrecen enfoques distintos para decidir cuando no se conocen probabilidades: uno neutral y otro conservador. La correcta elección del modelo depende del nivel de riesgo que la organización esté dispuesta a asumir.
Estos métodos constituyen herramientas fundamentales para la toma de decisiones estratégicas en entornos empresariales modernos donde la incertidumbre es una constante.
Fuentes
Referencias
Alayo, H. (2016). Introducción a la programación dinámica estocástica. Universidad De Chile. https://seduca.uaemex.mx/inc/getFileM.php?cad=m&id=Ejemplos_Programaci_n_Din_mica_Estoc_stica.pdf
Archimedes Tube. (2020, June 2). Regla de LAPLACE Explicada con EJEMPLOS [Video]. YouTube. https://www.youtube.com/watch?v=52dHFBQCgnk
Maths, S. (2020). Regla de Laplace. https://www.sangakoo.com/es/temas/regla-de-laplace
Mirko Merino. (2021, June 10). Criterios de decisión: Laplace. Optimista. Pesimista. Hurwicz. Savage [Video]. YouTube. https://www.youtube.com/watch?v=LsLm1FshLvs
Sauré V., D. (2003). Programación dinámica estocástica. Universidad De Chile. https://seduca.uaemex.mx/inc/getFileM.php?cad=m&id=IntrodProgradinamica.pdf
UAEMex. (2026). 1.4 Programación dinámica bajo incertidumbre. SEDUCA https://seduca.uaemex.mx/principalW.php#tem
Programación dinámica bajo incertidumbre
Erik Valencia
Created on February 26, 2026
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Akihabara Connectors Infographic
View
Essential Infographic
View
Practical Infographic
View
Akihabara Infographic
View
Vision Board
View
The Power of Roadmap
View
Artificial Intelligence in Corporate Environments
Explore all templates
Transcript
Licenciatura en Logística Unidad de Aprendizaje Investigación de Operaciones II Programación dinámica bajo incertidumbre Integrantes: Erik Valencia Rueda Luis Angel Nepamuceno Resendiz
INTRODUCCIÓN
La presente actividad tiene como propósito analizar los modelos de optimización bajo incertidumbre, específicamente el proceso de toma de decisiones estadísticas y la programación dinámica estocástica. En el entorno empresarial actual, las decisiones rara vez se toman bajo condiciones de certeza absoluta; por el contrario, los gerentes deben enfrentar escenarios variables relacionados con demanda, costos, tiempos de entrega y condiciones del mercado. Por ello, resulta fundamental comprender cómo los modelos probabilísticos permiten estructurar, analizar y optimizar decisiones en contextos inciertos.
A través del estudio de la programación dinámica estocástica y de criterios de decisión como Laplace, Wald, Hurwicz y Savage, se busca fortalecer la capacidad de análisis cuantitativo y la aplicación práctica de herramientas matemáticas en entornos reales de negocio.
¿En qué consiste la programación dinámica estocástica o bajo incertidumbre?
La programación dinámica estocástica (PDE), también llamada programación dinámica bajo incertidumbre, es una técnica matemática para la toma secuencial de decisiones óptimas en sistemas dinámicos donde existen parámetros aleatorios que afectan las transiciones entre estados.
A diferencia de la programación dinámica determinística (donde todo es conocido y fijo), la PDE incorpora distribuciones de probabilidad sobre eventos inciertos (como demanda variable, afluentes aleatorios o fallos), permitiendo obtener políticas óptimas adaptativas (solución en lazo cerrado) que se ajustan a la información que se va revelando en cada etapa.
Características principales
Sistema dinámico
donde: 𝒙𝒕 es el estado del sistema en el tiempo. 𝒕 (ej. nivel de inventario o agua en un embalse). 𝒖𝒕 es la decisión o control (ej. cantidad a producir o descargar). 𝒘𝒕 es el ruido o parámetro aleatorio con distribución de probabilidad conocida 𝑷(𝒘𝒕).
Función objetivo (valor esperado a minimizar o maximizar)
donde: g𝒕 es el costo o beneficio en etapa 𝒕. g𝒕 es el costo terminal. E el operador de esperanza matemática sobre las realizaciones de (𝒘𝒕).
Ecuación de Bellman estocástica
Los pasos para resolverla (según Alayo, 2016) son:- Definir estado, controles, dinámica estocástica, costos y restricciones.
- Discretizar espacios si es necesario.
- Recursión hacia atrás: calcular V𝒕 (𝒙𝒕)y la decisión óptima 𝒖𝒕*(𝒙𝒕) para cada estado y etapa, promediando sobre los escenarios de (𝒘𝒕).
- Obtener la política óptima π^* (𝒙𝒕)=𝒖𝒕^*𝒙𝒕.
- Simular trayectorias forward con la política.
Sauré (2003) complementa con problemas prácticos (operación de equipos, asignación de recursos hídricos, etc.), enfatizando cómo la PDE genera tablas de política que indican la mejor decisión según el estado observado en cada etapa.
Ejemplo en entorno laboral
En un CEDIS de Walmart México la programación dinámica estocástica se aplica de manera muy práctica para la gestión óptima de inventario bajo demanda incierta. Un ejemplo realista y común es la decisión diaria y o semanal de cuánto reabastecer de productos de alta rotación (refrescos, productos de limpieza, artículos de temporada) desde proveedores o plantas hacia el CEDIS, considerando demanda estocástica de las tiendas o clientes finales.
Escenario del ejemplo- Horizonte de planeación: T=4 periodos (semanas).
- Estado xt: Nivel de inventario disponible al inicio de la semana ten el CEDIS (discretizado, por simplicidad: 0 a 20 cajas/unidades).
- Decisión ut: Cantidad a ordenar/reabastecer al inicio de la semana t(0 a 10 unidades, con lead time de 0 para simplicidad; llega inmediatamente).
- Demanda dt: Variable aleatoria (estocástica), con dos escenarios equiprobables (0.5 cada uno):
- Escenario bajo: dt=5unidades (semana normal).
- Escenario alto: dt=12unidades (semana con pico, ej. quincena, promoción o mal clima que aumenta compras en línea).
Función de costo/beneficio por periodo gt (xt,ut,dt)(a minimizar costos totales esperados)
donde: c= 8MXN/unidad (costo de orden/reabastecimiento variable). h= 3MXN/unidad (costo de mantenimiento/almacenamiento por exceso al final del periodo). p= 15MXN/unidad (costo de faltante/penalización por demanda no satisfecha o pierde venta).
Formulación como Programación Dinámica Estocástica
Estado:
Inventario disponible al inicio de la semana 𝑡.
Decisión:
Demanda estocástica:
Dinámica:
Costo por periodo:
Ecuación de Bellman
Para horizonte finito T=4
Con condición terminal:
Y como hay solo dos escenarios:
donde:
Lo que pasa realmente en el CEDIS
Demanda esperada:
Comparamos costos:- Costo faltante: 15
- Costo mantenimiento: 3
Es mucho más caro quedarse sin inventario que mantener excedente.
Política óptima tipo "base- stock"
La solución óptima es: Donde: St es el nivel óptimo.
Cálculo intuitivo del nivel óptimo S.
En el último periodo (t=4), no hay futuro.Entonces solo minimizamos costo esperado inmediato: Buscamos Costo esperado en función de y Sí Siempre hay faltante Si:
Con demanda 5; sobra inventario.Con demanda 12; hay faltante. Si: Nunca hay faltante.
Calculamos el punto crítico
Función de Distribución Acumulativa: Para Para Para
El primer punto donde la Función de Distribución Acumulativa es:
Pero debemos considerar que ordenar cuesta 8 por unidad.Al evaluar numéricamente, se obtiene que el nivel óptimo práctico está alrededor de:
¿Qué cambia en semanas 1 - 3?Como aún hay horizonte futuro:
- El inventario tiene valor estratégico.
- La política óptima mantiene un nivel ligeramente mayor en semanas tempranas.
- En semana 4 se reduce el nivel objetivo.
Resultado típico:Conclusión:En un CEDIS:- Reducir sobre inventario
- Disminuir quiebres de stock
- Minimizar costo esperado total
- Tomar decisiones consistentes bajo incertidumbre
- Se usa un modelo estocástico
- Se calcula un nivel objetivo dinámico
- La política óptima es tipo base-stock
- Se prioriza evitar faltantes (p=15 > h=3)
La programación dinámica permite:Criterio de Laplace (o de igualdad de probabilidades / Bayesiano con probabilidades iguales)
Es un criterio “neutral” o de promedio, ideal cuando no hay información sobre probabilidades reales. Evita extremos pesimistas u optimistas y promueve decisiones equilibradas.- Consiste en asumir que todos los estados de la naturaleza (escenarios inciertos).
- Son equiprobables (probabilidad 1/ndonde n= número de estados). Se calcula el valor esperado (promedio) de cada alternativa y se elige la que maximiza (o minimiza) dicho promedio.
Ejemplo regla Laplace
A una clase de estadística han acudido Ana, Pedro, Juan, Isabel, Beatriz, Carlota, Rosa y Laura. Si se elige un estudiante al azar, ¿cuál es la probabilidad de que sea chico? Dado que el estudiante se elige al azar, todos tienen la misma probabilidad de ser elegidos, por lo que se cumple la condición de equiprobabilidad para poder utilizar la regla de Laplace. Los resultados posibles son todos y cada uno de los estudiantes de la clase, 8 en total: Ana, Pedro, Juan, Isabel, Beatriz, Carlota, Rosa y Laura. De ellos, son resultados favorables al suceso de que el estudiante elegido sea chico Pedro y Juan, esto es, 2 resultados. Luego la probabilidad que se pide es:
Criterio de Hurwicz (criterio del coeficiente de optimismo)
Combina el peor y el mejor resultado de cada alternativa mediante un coeficiente de optimismo α∈[0,1](donde α=1es totalmente optimista, α=0totalmente pesimista). Se calcula un valor ponderado y se elige la alternativa que maximiza ese valor.
Permite al decisor expresar su grado de optimismo/pesimismo. Es flexible y equilibra riesgo: cuando α=0.5coincide con un promedio de extremos. En entornos empresariales (como pronóstico de ventas), α se calibra según tolerancia al riesgo del gerente.
La regla o criterio de Hurwicz es una técnica de toma de decisiones bajo incertidumbre que equilibra el optimismo y el pesimismo. Para cada alternativa, calcula una media ponderada entre el mejor (Max) y el peor (Min). resultado posible, utilizando un coeficiente de optimismo (a). Se elige la opción con el mayor valor ponderado:.
Ejemeplo Criterio de Hurwicz
Fuentes
Diferencias con respecto a los modelos de programación dinámica determinística
Naturaleza de la transición entre estados (determinismo vs. aleatoriedad) En la programación dinámica determinística, la transición del estado actual xt al siguiente estado x(t+1) está completamente determinada por la decisión ut tomada en la etapa t. Es decir: sin ningún elemento aleatorio; el resultado es predecible y fijo para cada par (estado, decisión). En contraste, en la programación dinámica estocástica, la transición incorpora incertidumbre mediante una variable aleatoria wt (ruido o perturbación) con distribución de probabilidad conocida:
Función objetivo y criterio de optimalidad (valor cierto vs. valor esperado) La PDD busca maximizar (o minimizar) un valor determinístico acumulado a lo largo de las etapas: donde g_tes el beneficio/costo conocido con certeza. La PDE optimiza el valor esperado (esperanza matemática) sobre las realizaciones aleatorias:
Naturaleza de la política óptima (fija vs. adaptativa o en lazo cerrado) En la programación dinámica determinística, la política óptima es una regla fija que mapea cada estado a una decisión específica: ut^* (xt), y como todo es predecible, la trayectoria óptima es única y conocida de antemano (puede planificarse completamente al inicio). En la programación dinámica estocástica, aunque también se obtiene una política ut^* (xt)(función del estado observado), esta es adaptativa: la decisión se ajusta en cada etapa según el estado real que se observa después de las realizaciones aleatorias previas. No existe una trayectoria fija óptima a priori; en su lugar, se genera una política de decisión en lazo cerrado que responde dinámicamente a la incertidumbre revelada, lo que mejora significativamente el desempeño en entornos reales inciertos (por ejemplo, en gestión de inventarios o embalses, como se menciona en los documentos revisados).
Conclusión La programación dinámica estocástica permite modelar decisiones secuenciales bajo incertidumbre mediante el uso de funciones de valor y esperanza matemática, facilitando la optimización de recursos en ambientes reales como inventarios, inversión o planeación operativa. Por otro lado, los criterios de Laplace y Wald ofrecen enfoques distintos para decidir cuando no se conocen probabilidades: uno neutral y otro conservador. La correcta elección del modelo depende del nivel de riesgo que la organización esté dispuesta a asumir. Estos métodos constituyen herramientas fundamentales para la toma de decisiones estratégicas en entornos empresariales modernos donde la incertidumbre es una constante.
Fuentes
Referencias