Modelo Con Etapas Infinitas 1

UNIVERSIDAD TECNOLOGICA DEL PERÚAREQUIPA

FACULTAD DE INGENIERIASCARRERA PROFESIONAL DE INGENIERIA INDUSTRIAL

2014 – II

“MODELO CON ETAPAS INFINITAS”

CURSO:Teoría de Decisiones

ALUMNO:

CCAPA SULLA, Yuliana Sandra

ESPIRILLA TORRES, Washington

FLORES FLORES, Jessica Mabel

GONZALES AYNAYA, Ana Karen

PARILLO SAICO, Pedro pablo

Arequipa – Perú2014

INDICE

MÉTODO CON ETAPAS INFINITAS.......................................................................................3

1. MÉTODO DE ENUMERACIÓN EXHAUSTIVA......................................................6

2. METODO DE ITERACIÓN DE POLITICA SIN DESCUENTO............................10

3. MÉTODO DE ITERACIÓN DE POLÍTICA CON DESCUENTO.........................15

CONCLUSIONES.....................................................................¡Error! Marcador no definido.

BIBLIOGRAFIA....................................................................................................................19

2

MÉTODO CON ETAPAS INFINITAS

Hay dos métodos para resolver el problema con etapas infinitas. En el primero se deben

evaluar todas las políticas estacionarias del problema de decisión. Esto equivale a un proceso

de enumeración exhaustiva y sólo se puede usar si la cantidad de políticas estacionarias es

razonablemente pequeña. El segundo método, llamado iteración de política, en general es más

eficiente, porque determina en forma iterativa la política óptima

Ejemplo

Cada año, al comenzar la estación para trabajar los jardines (de marzo a septiembre) un

jardinero usa una prueba química para determinar el estado del suelo. Dependiendo de los

resultados de las pruebas, la productividad para la nueva estación cae en uno de tres estados:

1) bueno, 2) regular y 3) malo.

A través de los años el jardinero observó que las condiciones meteorológicas prevalecientes

durante el invierno (de octubre a febrero) juegan un papel importante en la determinación de

la condición del suelo, dejándolo igual o empeorándolo, pero nunca mejorándolo. En este

respecto, el estado del suelo en el año anterior es un factor importante para la productividad

del presente año. Usando los datos de las pruebas hechas por el jardinero, las probabilidades

de transición durante un periodo de un año, de un estado de productividad a otro, se

representa con la siguiente cadena de Markov:

3

Las probabilidades de transición en P1 indican que la productividad de determinado año no

puede ser mejor que la del año anterior. Por ejemplo, si las condiciones del suelo en el

presente año son regulares (estado 2), la productividad en el próximo año permanecerá regular

con una probabilidad de 0.5, o se volverán malas (estado 3) con una probabilidad de 0.5.

El jardinero puede alterar las probabilidades de transición P1 con otras acciones. En el caso

normal, se aplica fertilizante para mejorar las condiciones del suelo, y se produce la siguiente

matriz de transición:

Para poner en perspectiva el problema de decisión, el jardinero asocia una función de ingreso

(o una estructura de recompensa) con la transición de un estado a otro. La función de ingreso

expresa la ganancia o la pérdida durante un periodo de 1 año, dependiendo de los estados

entre los que se hace la transición. Como el jardinero tiene la opción de usar fertilizante o no,

la ganancia o la pérdida varían dependiendo de la decisión tomada. Las matrices R1 y R2

resumen las funciones de ingreso, en cientos de $, correspondientes a las matrices P1 y P2,

respectivamente

4

Los elementos rij2 de R2 tienen en cuenta el costo de aplicar el fertilizante. Por ejemplo, si las

condiciones del suelo fueron regulares el año anterior (estado 2) y se vuelven malas (estado 3)

en este año, su ganancia será r 23 2 = 0 en comparación con r 23 1= 1 cuando no se usa

fertilizante.

A este respecto, R expresa la recompensa neta después de haber introducido el costo del

fertilizante.

¿Qué clase de problema de decisión tiene el jardinero? Primero, se debe conocer si la

actividad de jardinería continuará durante una cantidad limitada de años, o en forma

indefinida. Aestos casos se les llama problemas de decisión con etapas finitas o con etapas

infinitas. En ambos casos, el jardinero usa el resultado de las pruebas químicas (estado del

sistema) para determinar la mejor acción (fertilizar o no) que maximice el ingreso esperado.

También, al jardinero le puede interesar evaluar el ingreso esperado que resulte de las

acciones especificadas de antemano para determinado estado del sistema. Por ejemplo, se

puede aplicar fertilizante siempre que las condiciones del suelo sean malas (estado 3). Se dice

que el proceso de toma de decisiones en este caso se representa por una política estacionaria.

Cada política estacionaria corresponderá a matrices de transición y de ingreso distintas, que se

obtienen a partir de las matrices P1, P2, R1 y R2. Por ejemplo, para la política estacionaria de

aplicar fertilizante sólo cuando las condiciones del suelo sean malas (estado 3), las matrices

resultantes de transición y de ingreso son:

5

Estas matrices son distintas de P1 y R1 sólo en los terceros renglones, que se toman

directamente de P2 y R2, las matrices asociadas con la aplicación del fertilizante

1. MÉTODO DE ENUMERACIÓN EXHAUSTIVA

Consiste en enumerar todas las soluciones posibles, a partir de los valores tomados

para las variables enteras y realizar todas las combinaciones posibles hasta encontrar

una combinación que nos proporcione el valor óptimo de la función objetivo y que

cumpla con todas las restricciones del problema. Una de las objeciones principales que

presenta éste método es el número de variables, ya que se presentan demasiadas

combinaciones antes de encontrar la solución óptima.

Supongamos que el problema de decisión tiene S políticas estacionarias, y

supondremos que Ps y R s son las matrices de transición y de ingreso (de un paso)

correspondientes a la política, s = 1, 2, ..., S. Los pasos del método de enumeración

son los siguientes:

Paso 1. Calcule V is, el ingreso esperado de un paso (un periodo) de la política s, dado

el estado i, i = 1, 2, ..., m.

Paso 2. Calcule π is, las probabilidades estacionarias a largo plazo de la matriz de

transición Ps asociadas con la política s. Estas probabilidades, cuando existen, se

calculan con las ecuaciones

6

Paso 3. Determine E s, el ingreso esperado de la política s por paso (periodo) de

transición, con la fórmula

Paso 4. Se determina la política óptima s* tal que:

Ilustraremos el método resolviendo el problema del jardinero con un horizonte de

planeación de periodos infinitos.

Ejemplo:

El problema del jardinero tiene un total de ocho políticas estacionarias, como se ve en

la siguiente tabla:

7

Las matrices Ps y R s de las políticas 3 a 8 se deducen de las correspondientes a las

políticas 1 y 2, y son las siguientes:

Así, se pueden calcular los valores de V is que aparecen en la tabla siguiente:

Los cálculos de las probabilidades

estacionarias se hacen con las ecuaciones

Por ejemplo, si s =2, las ecuaciones correspondientes son

8

(Observe que una de las tres primeras ecuaciones es redundante.) La solución es:

En este caso, el ingreso anual esperado es:

En la tabla siguiente se resumen πs y E s para todas las políticas estacionarias.

(Aunque no afectará esto a los cálculos en modo alguno, observe que cada una de las

políticas 1, 3, 4 y 6 tiene un estado absorbente: el estado 3. Es la razón por la que

π1=π2=0 y π3 = 1 para todas esas políticas.)

9

La política 2 produce el máximo ingreso anual esperado. La política óptima a largo

plazo es aplicar fertilizante independientemente del estado del sistema.

2. METODO DE ITERACIÓN DE POLITICA SIN DESCUENTO

El método de iteración por política está basado principalmente en el desarrollo

siguiente. Para cualquier política específica el rendimiento total esperado en la etapa n

se expresa a través de la ecuación recursiva (Thaja, 2004)

f n (i )=v i+∑j=1

m

Pij f n+1 ( j ) , i=1,2 ,…… .. , m

Esta acción recursiva es la base del desarrollo del método de iteración de política. Sin

embargo, se debe modificar un poco la forma actual, para permitir el estudio del

comportamiento asintótico del proceso. Se definirá como la cantidad de etapas

restantes por considerar. Es distinto de n en la ecuación, que define a la etapa n. La

ecuación recursiva se escribe entonces como sigue: (Thaja, 2004)

f η (i )=v i+∑j=1

m

Pij f η−1 ( j ) , i=1,2,3 , . …… ..,m

Obsérvese que f η es el ingreso esperado acumulado siη es la cantidad de etapas que

faltan por considerar. Con la nueva definición, se puede estudiar el comportamiento

asintótico del proceso haciendo que η →∝ CITATION Ham04 \l 13322 (Thaja, 2004)

Ya que

π=(π1 , π2 ,……. , πm)

10

Es el vector de probabilidades de estado estable de la matriz de transición

P=∥ pij ∥ y π=(π1 v1 , π2 v2+……. ,πm vm)es el ingreso esperado por etapa, como se

calculó en el problema anterior, se puede demostrar que cuando es muy grande,

f η ( i )=ηE+f (i)

Donde f (i )es un término constante que representa la intersección asintótica de f η dado

el estado i

Ya quef η ( i ) es el ingreso óptimo acumulado cuando hayη etapas restantes, dado el

estadoi y comoE es el ingreso esperado por etapa, se puede ver en forma intuitiva por

quéf η ( i ) es igual a ηE más un factor de correcciónf (i) para tener en cuenta el estado

específicoi . En este resultado se supone que η → ∞

Ahora, con esta información, la ecuación recursiva se escribe como sigue:

ηE+ f ( i )=vi+∑j=1

m

Pij {(η−1 ) E+ f ( j)} , i=1,2 , …. , m

Luego se simplifica y se obtiene

E+ f ( i)−∑j=1

m

Pij f ( j )=v i , i=1,2 , …. ,m

En este caso hay m ecuaciones con m +1 incógnitas, f(1), f(2), ..., f(m) y E. como en el

problema anterior , el objetivo es determinar la política óptima que produce el valor

máximo deE. Como hay m ecuaciones conm+1 incógnitas, el valor óptimo de E no se

puede determinar en un paso. En lugar de ello se usa un método iterativo de dos pasos

que, a partir de una política arbitraria, determina una nueva política que produce un

valor mejor deE .

El proceso iterativo termina cuando hay dos políticas sucesivas que son idénticas.

11

1º Paso de determinación de valor: Se elige la política s en forma arbitraria. Con sus

matrices correspondientes Ps y R sy suponiendo, en forma arbitraria, que f s (m )=0 , se

resuelven las ecuaciones

ES+f s (i )−∑j=1

m

PSij f

s ( j )=v i ,i=1,2,…. , m

Con las incógnitas ES,f s (1),..., yf s (m – 1). Continuar en el paso de mejoramiento de

política

2º Paso de mejoramiento de política: Para cada estado i, determinar la política t que

corresponde a

Los valores de f s ( j ) , j=1,2 ,…. ,m son los que se determinan en el paso de

determinación de valor. Las decisiones óptimas resultantes para los estados 1, 2, ..., y

m son la nueva política t. Si s y t son idénticas, t es óptima. En caso contrario, hacer s

= t y regresar al paso de determinación de valor.

Ejemplo

Se resolverá el problema del jardinero con el método de iteración de política. Se

comienza con la política arbitraria que indica no aplicar fertilizante. Las matrices

correspondientes son

12

Las ecuaciones del paso de iteración de valores son

Si en

forma arbitraria f(3) = 0, la solución de las ecuaciones es

Continuación se aplica el paso de mejoramiento de política. Los cálculos

correspondientes se ven en el cuadro siguiente.

cuadro nº 01 mejoramiento de la calidad

La nueva política indica aplicar fertilizante independientemente del estado. Como es

distinta de la anterior, se hace de nuevo el paso de determinación de valor. Las

matrices correspondientes a la nueva política son

13

Estas matrices definen las siguientes ecuaciones:

De nuevo si f (3) =0, se llega a la solución

Los cálculos del paso de mejoramiento de política se ven en el siguiente cuadro

La nueva política, que establece aplicar fertilizante independientemente del estado, es

idéntica a la anterior. Entonces esta última política es óptima, y termina el proceso

iterativo. Es la misma conclusión a la que se llega con el método de enumeración

exhaustiva. Sin embargo, obsérvese que el método de iteración de política converge

14

con rapidez hacia al política óptima; ésta es una característica normal del nuevo

método.

3. MÉTODO DE ITERACIÓN DE POLÍTICA CON DESCUENTO

El algoritmo de iteración de política se puede ampliar para abarcar descuentos. Dado

el factor de descuento α (< 1), la ecuación recursiva de etapas finitas se puede plantear

como sigue:

(Nótese que η representa la cantidad de etapas que faltan.) Se puede demostrar que

cuando η→∞ (modelo infinito), fη(i) =f (i), siendo f (i) el ingreso a valor presente

(descontado), si el sistema está en el estado i y funciona durante un horizonte infinito.

Así, el comportamiento de fη(i) a largo plazo, cuando η→∞ es independiente del valor

de η. Esto contrasta con el caso donde no hay descuentos, en el que fη(i)=ηE +f (i).

Cabría esperar este resultado, porque al descontar, el efecto de los ingresos futuros

disminuye a cero, en forma asintótica. En realidad, el valor presente f (i) debe tender a

un valor constante cuando η→∞.

Con base en esta información, se modifican como sigue los pasos de iteración de

política.

1. Paso de determinación de valor. Para una política arbitraria s con matrices Ps y

Rs, resolver las m ecuaciones

15

Con las m incógnitas f s(1), f s(2), ..., fs(m).

2. Paso de mejoramiento de política. Para cada estado i, determinar la política t

que corresponda

f s(j) se obtiene en el paso de determinación de valor. Si la política resultante t

es la misma, detenerse; t es óptima. En caso contrario, poner s = t y regresar al

paso de determinación de valor.

Ejemplo:

Se resolverá el ejemplo con el factor de descuento α=0.6.

Partiremos de la política arbitraria S={1,1,1}. Las matrices asociadas P y R (P1 y R1

en el ejemplo de enumeración exhaustiva) dan las ecuaciones

La solución de estas ecuaciones es

f1 = 6.61, f2 = 3.21, f3 = -2.5

En el siguiente cuadro se presenta un resumen de la iteración de mejoramiento de

política:

16

El paso de determinación de valor usando P2 y R2 (Ejemplo de enumeración

exhaustiva) produce las siguientes ecuaciones:

La solución de esas ecuaciones es

f (1) = 8.89, f (2) = 6.62, f (3) = 3.37

El paso de mejoramiento de política da como resultado el siguiente cuadro:

17

Como la nueva política (1, 2, 2) es distinta de la anterior, se repite el paso de

determinación de valor con P3 y R3 (Ejemplo de enumeración exhaustiva). Esto da

como resultado las siguientes ecuaciones:

La solución de estas ecuaciones es

f (1) = 8.97, f (2) = 6.63, f(3) = 3.38

El paso de mejoramiento de política da como resultado el siguiente cuadro:

Como la nueva política (1, 2, 2) es idéntica a la anterior, es óptima. Obsérvese que los

descuentos han producido una política óptima distinta que establece no aplicar

fertilizante si el estado del sistema es bueno (estado 3).

18

BIBLIOGRAFIA

Hamdy A. Taha., Investigacion de operaciones, ed. Pearson, 7ª edición, Mexico, 2004.

19

Modelo Con Etapas Infinitas 1

Documents

Transcript of Modelo Con Etapas Infinitas 1