Modelo Con Etapas Infinitas 1
-
Upload
rocio-milagros-farfan-silva -
Category
Documents
-
view
283 -
download
0
description
Transcript of Modelo Con Etapas Infinitas 1
UNIVERSIDAD TECNOLOGICA DEL PERÚAREQUIPA
FACULTAD DE INGENIERIASCARRERA PROFESIONAL DE INGENIERIA INDUSTRIAL
2014 – II
“MODELO CON ETAPAS INFINITAS”
CURSO:Teoría de Decisiones
ALUMNO:
CCAPA SULLA, Yuliana Sandra
ESPIRILLA TORRES, Washington
FLORES FLORES, Jessica Mabel
GONZALES AYNAYA, Ana Karen
PARILLO SAICO, Pedro pablo
Arequipa – Perú2014
INDICE
MÉTODO CON ETAPAS INFINITAS.......................................................................................3
1. MÉTODO DE ENUMERACIÓN EXHAUSTIVA......................................................6
2. METODO DE ITERACIÓN DE POLITICA SIN DESCUENTO............................10
3. MÉTODO DE ITERACIÓN DE POLÍTICA CON DESCUENTO.........................15
CONCLUSIONES.....................................................................¡Error! Marcador no definido.
BIBLIOGRAFIA....................................................................................................................19
2
MÉTODO CON ETAPAS INFINITAS
Hay dos métodos para resolver el problema con etapas infinitas. En el primero se deben
evaluar todas las políticas estacionarias del problema de decisión. Esto equivale a un proceso
de enumeración exhaustiva y sólo se puede usar si la cantidad de políticas estacionarias es
razonablemente pequeña. El segundo método, llamado iteración de política, en general es más
eficiente, porque determina en forma iterativa la política óptima
Ejemplo
Cada año, al comenzar la estación para trabajar los jardines (de marzo a septiembre) un
jardinero usa una prueba química para determinar el estado del suelo. Dependiendo de los
resultados de las pruebas, la productividad para la nueva estación cae en uno de tres estados:
1) bueno, 2) regular y 3) malo.
A través de los años el jardinero observó que las condiciones meteorológicas prevalecientes
durante el invierno (de octubre a febrero) juegan un papel importante en la determinación de
la condición del suelo, dejándolo igual o empeorándolo, pero nunca mejorándolo. En este
respecto, el estado del suelo en el año anterior es un factor importante para la productividad
del presente año. Usando los datos de las pruebas hechas por el jardinero, las probabilidades
de transición durante un periodo de un año, de un estado de productividad a otro, se
representa con la siguiente cadena de Markov:
3
Las probabilidades de transición en P1 indican que la productividad de determinado año no
puede ser mejor que la del año anterior. Por ejemplo, si las condiciones del suelo en el
presente año son regulares (estado 2), la productividad en el próximo año permanecerá regular
con una probabilidad de 0.5, o se volverán malas (estado 3) con una probabilidad de 0.5.
El jardinero puede alterar las probabilidades de transición P1 con otras acciones. En el caso
normal, se aplica fertilizante para mejorar las condiciones del suelo, y se produce la siguiente
matriz de transición:
Para poner en perspectiva el problema de decisión, el jardinero asocia una función de ingreso
(o una estructura de recompensa) con la transición de un estado a otro. La función de ingreso
expresa la ganancia o la pérdida durante un periodo de 1 año, dependiendo de los estados
entre los que se hace la transición. Como el jardinero tiene la opción de usar fertilizante o no,
la ganancia o la pérdida varían dependiendo de la decisión tomada. Las matrices R1 y R2
resumen las funciones de ingreso, en cientos de $, correspondientes a las matrices P1 y P2,
respectivamente
4
Los elementos rij2 de R2 tienen en cuenta el costo de aplicar el fertilizante. Por ejemplo, si las
condiciones del suelo fueron regulares el año anterior (estado 2) y se vuelven malas (estado 3)
en este año, su ganancia será r 23 2 = 0 en comparación con r 23 1= 1 cuando no se usa
fertilizante.
A este respecto, R expresa la recompensa neta después de haber introducido el costo del
fertilizante.
¿Qué clase de problema de decisión tiene el jardinero? Primero, se debe conocer si la
actividad de jardinería continuará durante una cantidad limitada de años, o en forma
indefinida. Aestos casos se les llama problemas de decisión con etapas finitas o con etapas
infinitas. En ambos casos, el jardinero usa el resultado de las pruebas químicas (estado del
sistema) para determinar la mejor acción (fertilizar o no) que maximice el ingreso esperado.
También, al jardinero le puede interesar evaluar el ingreso esperado que resulte de las
acciones especificadas de antemano para determinado estado del sistema. Por ejemplo, se
puede aplicar fertilizante siempre que las condiciones del suelo sean malas (estado 3). Se dice
que el proceso de toma de decisiones en este caso se representa por una política estacionaria.
Cada política estacionaria corresponderá a matrices de transición y de ingreso distintas, que se
obtienen a partir de las matrices P1, P2, R1 y R2. Por ejemplo, para la política estacionaria de
aplicar fertilizante sólo cuando las condiciones del suelo sean malas (estado 3), las matrices
resultantes de transición y de ingreso son:
5
Estas matrices son distintas de P1 y R1 sólo en los terceros renglones, que se toman
directamente de P2 y R2, las matrices asociadas con la aplicación del fertilizante
1. MÉTODO DE ENUMERACIÓN EXHAUSTIVA
Consiste en enumerar todas las soluciones posibles, a partir de los valores tomados
para las variables enteras y realizar todas las combinaciones posibles hasta encontrar
una combinación que nos proporcione el valor óptimo de la función objetivo y que
cumpla con todas las restricciones del problema. Una de las objeciones principales que
presenta éste método es el número de variables, ya que se presentan demasiadas
combinaciones antes de encontrar la solución óptima.
Supongamos que el problema de decisión tiene S políticas estacionarias, y
supondremos que Ps y R s son las matrices de transición y de ingreso (de un paso)
correspondientes a la política, s = 1, 2, ..., S. Los pasos del método de enumeración
son los siguientes:
Paso 1. Calcule V is, el ingreso esperado de un paso (un periodo) de la política s, dado
el estado i, i = 1, 2, ..., m.
Paso 2. Calcule π is, las probabilidades estacionarias a largo plazo de la matriz de
transición Ps asociadas con la política s. Estas probabilidades, cuando existen, se
calculan con las ecuaciones
6
Paso 3. Determine E s, el ingreso esperado de la política s por paso (periodo) de
transición, con la fórmula
Paso 4. Se determina la política óptima s* tal que:
Ilustraremos el método resolviendo el problema del jardinero con un horizonte de
planeación de periodos infinitos.
Ejemplo:
El problema del jardinero tiene un total de ocho políticas estacionarias, como se ve en
la siguiente tabla:
7
Las matrices Ps y R s de las políticas 3 a 8 se deducen de las correspondientes a las
políticas 1 y 2, y son las siguientes:
Así, se pueden calcular los valores de V is que aparecen en la tabla siguiente:
Los cálculos de las probabilidades
estacionarias se hacen con las ecuaciones
Por ejemplo, si s =2, las ecuaciones correspondientes son
8
(Observe que una de las tres primeras ecuaciones es redundante.) La solución es:
En este caso, el ingreso anual esperado es:
En la tabla siguiente se resumen πs y E s para todas las políticas estacionarias.
(Aunque no afectará esto a los cálculos en modo alguno, observe que cada una de las
políticas 1, 3, 4 y 6 tiene un estado absorbente: el estado 3. Es la razón por la que
π1=π2=0 y π3 = 1 para todas esas políticas.)
9
La política 2 produce el máximo ingreso anual esperado. La política óptima a largo
plazo es aplicar fertilizante independientemente del estado del sistema.
2. METODO DE ITERACIÓN DE POLITICA SIN DESCUENTO
El método de iteración por política está basado principalmente en el desarrollo
siguiente. Para cualquier política específica el rendimiento total esperado en la etapa n
se expresa a través de la ecuación recursiva (Thaja, 2004)
f n (i )=v i+∑j=1
m
Pij f n+1 ( j ) , i=1,2 ,…… .. , m
Esta acción recursiva es la base del desarrollo del método de iteración de política. Sin
embargo, se debe modificar un poco la forma actual, para permitir el estudio del
comportamiento asintótico del proceso. Se definirá como la cantidad de etapas
restantes por considerar. Es distinto de n en la ecuación, que define a la etapa n. La
ecuación recursiva se escribe entonces como sigue: (Thaja, 2004)
f η (i )=v i+∑j=1
m
Pij f η−1 ( j ) , i=1,2,3 , . …… ..,m
Obsérvese que f η es el ingreso esperado acumulado siη es la cantidad de etapas que
faltan por considerar. Con la nueva definición, se puede estudiar el comportamiento
asintótico del proceso haciendo que η →∝ CITATION Ham04 \l 13322 (Thaja, 2004)
Ya que
π=(π1 , π2 ,……. , πm)
10
Es el vector de probabilidades de estado estable de la matriz de transición
P=∥ pij ∥ y π=(π1 v1 , π2 v2+……. ,πm vm)es el ingreso esperado por etapa, como se
calculó en el problema anterior, se puede demostrar que cuando es muy grande,
f η ( i )=ηE+f (i)
Donde f (i )es un término constante que representa la intersección asintótica de f η dado
el estado i
Ya quef η ( i ) es el ingreso óptimo acumulado cuando hayη etapas restantes, dado el
estadoi y comoE es el ingreso esperado por etapa, se puede ver en forma intuitiva por
quéf η ( i ) es igual a ηE más un factor de correcciónf (i) para tener en cuenta el estado
específicoi . En este resultado se supone que η → ∞
Ahora, con esta información, la ecuación recursiva se escribe como sigue:
ηE+ f ( i )=vi+∑j=1
m
Pij {(η−1 ) E+ f ( j)} , i=1,2 , …. , m
Luego se simplifica y se obtiene
E+ f ( i)−∑j=1
m
Pij f ( j )=v i , i=1,2 , …. ,m
En este caso hay m ecuaciones con m +1 incógnitas, f(1), f(2), ..., f(m) y E. como en el
problema anterior , el objetivo es determinar la política óptima que produce el valor
máximo deE. Como hay m ecuaciones conm+1 incógnitas, el valor óptimo de E no se
puede determinar en un paso. En lugar de ello se usa un método iterativo de dos pasos
que, a partir de una política arbitraria, determina una nueva política que produce un
valor mejor deE .
El proceso iterativo termina cuando hay dos políticas sucesivas que son idénticas.
11
1º Paso de determinación de valor: Se elige la política s en forma arbitraria. Con sus
matrices correspondientes Ps y R sy suponiendo, en forma arbitraria, que f s (m )=0 , se
resuelven las ecuaciones
ES+f s (i )−∑j=1
m
PSij f
s ( j )=v i ,i=1,2,…. , m
Con las incógnitas ES,f s (1),..., yf s (m – 1). Continuar en el paso de mejoramiento de
política
2º Paso de mejoramiento de política: Para cada estado i, determinar la política t que
corresponde a
Los valores de f s ( j ) , j=1,2 ,…. ,m son los que se determinan en el paso de
determinación de valor. Las decisiones óptimas resultantes para los estados 1, 2, ..., y
m son la nueva política t. Si s y t son idénticas, t es óptima. En caso contrario, hacer s
= t y regresar al paso de determinación de valor.
Ejemplo
Se resolverá el problema del jardinero con el método de iteración de política. Se
comienza con la política arbitraria que indica no aplicar fertilizante. Las matrices
correspondientes son
12
Las ecuaciones del paso de iteración de valores son
Si en
forma arbitraria f(3) = 0, la solución de las ecuaciones es
Continuación se aplica el paso de mejoramiento de política. Los cálculos
correspondientes se ven en el cuadro siguiente.
cuadro nº 01 mejoramiento de la calidad
La nueva política indica aplicar fertilizante independientemente del estado. Como es
distinta de la anterior, se hace de nuevo el paso de determinación de valor. Las
matrices correspondientes a la nueva política son
13
Estas matrices definen las siguientes ecuaciones:
De nuevo si f (3) =0, se llega a la solución
Los cálculos del paso de mejoramiento de política se ven en el siguiente cuadro
La nueva política, que establece aplicar fertilizante independientemente del estado, es
idéntica a la anterior. Entonces esta última política es óptima, y termina el proceso
iterativo. Es la misma conclusión a la que se llega con el método de enumeración
exhaustiva. Sin embargo, obsérvese que el método de iteración de política converge
14
con rapidez hacia al política óptima; ésta es una característica normal del nuevo
método.
3. MÉTODO DE ITERACIÓN DE POLÍTICA CON DESCUENTO
El algoritmo de iteración de política se puede ampliar para abarcar descuentos. Dado
el factor de descuento α (< 1), la ecuación recursiva de etapas finitas se puede plantear
como sigue:
(Nótese que η representa la cantidad de etapas que faltan.) Se puede demostrar que
cuando η→∞ (modelo infinito), fη(i) =f (i), siendo f (i) el ingreso a valor presente
(descontado), si el sistema está en el estado i y funciona durante un horizonte infinito.
Así, el comportamiento de fη(i) a largo plazo, cuando η→∞ es independiente del valor
de η. Esto contrasta con el caso donde no hay descuentos, en el que fη(i)=ηE +f (i).
Cabría esperar este resultado, porque al descontar, el efecto de los ingresos futuros
disminuye a cero, en forma asintótica. En realidad, el valor presente f (i) debe tender a
un valor constante cuando η→∞.
Con base en esta información, se modifican como sigue los pasos de iteración de
política.
1. Paso de determinación de valor. Para una política arbitraria s con matrices Ps y
Rs, resolver las m ecuaciones
15
Con las m incógnitas f s(1), f s(2), ..., fs(m).
2. Paso de mejoramiento de política. Para cada estado i, determinar la política t
que corresponda
f s(j) se obtiene en el paso de determinación de valor. Si la política resultante t
es la misma, detenerse; t es óptima. En caso contrario, poner s = t y regresar al
paso de determinación de valor.
Ejemplo:
Se resolverá el ejemplo con el factor de descuento α=0.6.
Partiremos de la política arbitraria S={1,1,1}. Las matrices asociadas P y R (P1 y R1
en el ejemplo de enumeración exhaustiva) dan las ecuaciones
La solución de estas ecuaciones es
f1 = 6.61, f2 = 3.21, f3 = -2.5
En el siguiente cuadro se presenta un resumen de la iteración de mejoramiento de
política:
16
El paso de determinación de valor usando P2 y R2 (Ejemplo de enumeración
exhaustiva) produce las siguientes ecuaciones:
La solución de esas ecuaciones es
f (1) = 8.89, f (2) = 6.62, f (3) = 3.37
El paso de mejoramiento de política da como resultado el siguiente cuadro:
17
Como la nueva política (1, 2, 2) es distinta de la anterior, se repite el paso de
determinación de valor con P3 y R3 (Ejemplo de enumeración exhaustiva). Esto da
como resultado las siguientes ecuaciones:
La solución de estas ecuaciones es
f (1) = 8.97, f (2) = 6.63, f(3) = 3.38
El paso de mejoramiento de política da como resultado el siguiente cuadro:
Como la nueva política (1, 2, 2) es idéntica a la anterior, es óptima. Obsérvese que los
descuentos han producido una política óptima distinta que establece no aplicar
fertilizante si el estado del sistema es bueno (estado 3).
18
BIBLIOGRAFIA
Hamdy A. Taha., Investigacion de operaciones, ed. Pearson, 7ª edición, Mexico, 2004.
19