GUIA_ACTUALIZADA

100

description

ESTADISTICA

Transcript of GUIA_ACTUALIZADA

Page 1: GUIA_ACTUALIZADA
Page 2: GUIA_ACTUALIZADA

DISTRIBUCIONES CONTINUAS MÁS UTILIZADAS

Nombre de la

distribución Formula aplicada

Primer momento

Segundo momento

Observaciones

Grafica

Normal

∫∞−

−−

−−

=≤=

∞≤≤∞−

∞≤≤∞−

=

x x

x

xdexXPxF

x

exN

)(2

1)()(

0

2

1),,(~

2

2

1

2

2

1

2

σ

µ

σ

µ

σπ

σ

µ

σπσµ

µ=)(xE

σ=)(xV

Es la distribución más

utilizada sobre todo en

fenómenos físicos. x

-5 -3 -1 1 3 50

0,1

0,2

0,3

0,4

Normal

estándar

[ ]

[ ]

∫∞−

=≤=

=

=

∞≤≤∞−

=

zz

Z

zdezZPzF

o

z

ezN

)(2

1)()(

1

2

1)1,0,(~

2

2

1

2

2

1

π

σ

µ

π

0)( == µzE

1)(2 == σzV

Es la distribución más

utilizada sobre todo en

fenómenos físicos. En

este caso se

estandariza la variable

x en la variable z , de

la siguiente forma:

σ

µ−=

xz

x-5 -3 -1 1 3 5

0

0,1

0,2

0,3

0,4

Page 3: GUIA_ACTUALIZADA

DISTRIBUCIONES CONTINUAS MÁS UTILIZADAS (continuación)

Nombre de la

distribución

Formula aplicada

Primer momento

Segundo

momento

Observaciones

Grafica

Gamma θ

α

θα

α

θα

θθαθ

αθ

θαταθ

x

x

ex

xx

xxpxF

x

exxG

−−

−+

++

−=≤=

>

>

=

1

2

1

)()!1(

1

...)(!2

11

1)(),,(

0,

0

)(

1),,(

αθ=)(xE

2)( αθ=xV

Aplicada en Teorías

de cola, tiempo de

garantía de un

producto

Para 2=α y 1=θ

0 2 4 6 8 100

0,1

0,2

0,3

0,4

Exponencial

θ

θ

θ

θ

θθ

x

x

exXPxF

x

exE

−=≤=

>

>

=

1)(),(

0

0

1),(

θ=)(xE

2)( θ=xV

Tiempo de un

servicio, tiempo de

vida de un objeto

Caso particular de la distribución

Gamma 1=α y 1=θ

0 1 2 3 4 5 60

0,2

0,4

0,6

0,8

1

Page 4: GUIA_ACTUALIZADA

PROBLEMA En un Proceso Metalmecánico se fabrica una pieza cuyas especificaciones es 250 ± 2, si se sabe que la longitud promedio µ = 249 con una desviación estándar σ = 4. Probabilidad de que el proceso cumpla con las especificaciones

longitudx = 252248 −=cionesespecifica

Page 5: GUIA_ACTUALIZADA

( ) ( ) ( )

( ) ( ) 3721.04013.07734.025.075.0

4

249248

4

249252

248252252248

=−=−<−<=

−<−

−<=

<−<=<<

ZPZP

ZPZP

XPXPXP

Page 6: GUIA_ACTUALIZADA

APROXIMACION DE LA BINOMIAL A LA NORMAL PROBLEMA El 10 % de un proceso no productivo son unidades no conformes, si se toma una muestra de 200 unidades ¿Cuál es la probabilidad de que más de 25 sean no conformes?

conformesnounidadesdenúmeroX =

1.0200 == pn

( ) ( )

( )( )∑

−−

−−=

<−=>25

0

2001.011.0

!!200

!2001

25125

xx

xx

XPXP

Page 7: GUIA_ACTUALIZADA

De otra Forma

( ) ( )25125 <−=> XPXP Como

( ) 189.01.02001201.0200 =××=−==×== pnpnp σµ Entonces

( ) ( )

( )121.08790.01

178.11

18

20251

25125

=−=

≤−=

−≤−=

<−=>

zP

zP

XPXP

Page 8: GUIA_ACTUALIZADA

LA DISTRIBUCION GAMMA Entre los muchos usos que tiene esta distribución se encuentran los siguientes:

• Tiempos de vida de sistemas eléctricos y mecánicos

• Abundancia de especies animales

• Períodos de incubación de enfermedades infecciosas

• Tiempo que transcurre hasta que un material se rompa sometido a diferentes esfuerzos, etc.

La función de densidad de la distribución gamma es:

α y β son los parámetros de la distribución.

La media y la varianza de la distribución gamma son:

Page 9: GUIA_ACTUALIZADA

La expresión

Se conoce como la función gamma

Las propiedades más importantes de esta función son:

a) Para cualquier entero positivo n, Γ(n) = (n-1)!

Ejemplo Γ(5)=4!=24

b) Γ( ½) = π c) c) Γ(n+1)=n Γ(n) = n!

Page 10: GUIA_ACTUALIZADA

La siguiente figura ilustra la función de densidad gamma para diversos valores de α y β

Cuando β= 1 se obtiene la distribución gamma estándar o función gamma incompleta es decir:

f(x)= 1/ Γ(α) xα-1e-x

La siguiente tabla muestra las probabilidades acumuladas de la función gamma estándar par diversos valores de α :

Page 11: GUIA_ACTUALIZADA

x //// α 1 2 3 4 5 6 7 8 9 10 1 0.632 0.264 0.080 0.019 0.004 0.001 0.00 0.00 0.00 0.00 2 0.865 0.594 0.323 0.143 0.053 0.017 0.005 0.001 0.00 0.00 3 0.950 0.801 0.577 0.353 0.185 0.084 0.034 0.012 0.004 0.001 4 0.982 0.908 0.762 0.567 0.371 0.215 0.111 0.051 0.021 0.008 5 0.982 0.960 0.875 0.735 0.560 0.384 0.238 0.133 0.068 0.032 6 0.993 0.983 0.938 0.849 0.715 0.554 0.394 0.256 0.153 0.084 7 0.998 0.993 0.970 0.918 0.827 0.699 0.550 0.401 0.271 0.170 8 0.999 0.997 0.986 0.958 0.900 0.809 0.687 0.547 0.407 0.283 9 1.00 0.999 0.994 0.979 0.945 0.884 0.793 0.676 0.544 0.413 10 1.00 0.997 0.990 0.971 0.933 0.870 0.780 0.667 0.542 11 0.999 0.995 0.985 0.962 0.921 0.857 0.768 0.659 12 1.00 0.998 0.992 0.980 0.954 0.911 0.845 0.758 13 0.999 0.996 0.989 0.974 0.946 0.900 0.834 14 1.00 0.998 0.994 0.986 0.968 0.938 0.891 15 0.999 0.997 0.992 0.982 0.963 0.930

Page 12: GUIA_ACTUALIZADA

Suponga que el tiempo de reacción a cierto estimulo en un individuo seleccionado al azar, tiene una distribución gamma estándar con α = 2 seg.

Determine la probabilidad de que el tiempo de reacción sea

a) Cuando mucho 4 seg. b) Más de 2 seg. c) Entre 3 y 5 seg.

α = 2; como X es gamma estándar entonces β=1

Usando los valores de la tabla anterior para α = 2 se obtiene:

a) P(X ≤ 4)=0.908 b) P(X>2) = 1- P(X ≤ 2) = 1- 0.594 = 0.406 c) P(3≤ X ≥5) = 0.159

Dado un ejercicio o problema gamma es posible llevarlo a la forma gamma estándar:

P(X ≤ x) = P(X/β ≤ x/β ) es decir X/β sigue una distribución gamma estándar

Page 13: GUIA_ACTUALIZADA

PROBLEMA

El tiempo de supervivencia en semanas de un ratón expuesto a un nivel de radiación de 240 rads sigue una distribución gamma con α=8 y β=15 (ver datos de Survival Distributions: Reliabiliy Applicactions in the Biomedical Services por A.J Gross y V. Clark,)

Cual es la probabilidad de que un ratón sobreviva

a) Máximo 120 semanas b) Mas de 90 semanas c) Entre 60 y 180 semanas

α = 8; β = 15; X: tiempo de supervivencia en semanas

a) P(X≤120) = P(X ≤ 120/15) = P(X≤ 8) = 0.547 por tabla con α = 8 b) P(X>90) 1- P(X ≤ 90) = 1- P(X ≤ 90/15) = 1-P(X≤6) = 1-0.256 = 0.744 c) P( 60 ≤ X ≥180)= P(X ≤ 12) – P(X ≤ 4) = 0.86 d) Determine el promedio y la varianza del tiempo de supervivencia e) Resolver por Excel

Page 14: GUIA_ACTUALIZADA

PROBLEMA EXPONENCIAL

El tiempo promedio de duración de una bomba antes de fallar es de 0,5 años.

¿Cuál es la probabilidad de dure más de 1 año sin presentar fallas?

5.0=θ duracióndetiempoX =

( ) ( )

[ ] 1353.0111111

)1(1111

225.0

1

==−−=

−−=

−−=

−=≤−=≥

−−−−

eeee

FxPxPx

θ

Page 15: GUIA_ACTUALIZADA

PROBLEMA

El tiempo de duración de un interruptor eléctrico sigue una distribución

exponencial con 2=θ años. Determine la probabilidad de que:

1. El tiempo de duración del interruptor sea superior a 3 años

2. Dos interruptores duren mas de 3 años de 5 interruptores seleccionados

3. A lo sumo 3 duren más de 2 años de 5 interruptores seleccionados

0.2=θ duracióndetiempoX =

1.

( ) ( )

[ ] 22.011

1111

)3(1313

5.15.1

2

3

==−−=

−−=

−−=

−=≤−=≥

−−

−−

ee

ee

FxPxPx

θ

Page 16: GUIA_ACTUALIZADA

2.

erruptoresdenúmeroX int= 22.0=p

En este caso

22.0=p

( )( )

( ) xnx ppxxn

nxXP

−−

−== 1

!!

!

( )( )

( ) 22.022.0122.0!2!25

!52

252 =−−

==−

xP

Nota: Como pueden haber interruptores que duren más de 3 años y menos

usamos binomial

Page 17: GUIA_ACTUALIZADA

3.

erruptoresdenúmeroX int=

( ) ( ) 3678.011212 12

2

==

−−=≤−=≥ −−

eeXPXP

En este caso 3678.0=p

( )( )

( )

( )( )

( )( )

( )

( )( )

( )( )

( )( ) 9287.03678.013678.0

!3!35

!5

3678.013678.0!2!25

!53678.013678.0

!1!15

!5

3678.013678.0!0!05

!53678.013678.0

!!5

!53

1!!

!3

353

252151

0503

0

3

0

=−−

+

−−

+−−

+−−

=−−

=≤

−−

=≤

−−

−−

xnx

xnx

xxXP

ppxxn

nXP

Page 18: GUIA_ACTUALIZADA

PROBLEMA El tiempo promedio de atención de un cajero en un banco es de 1,2 min por cliente, si el tiempo sigue una distribución exponencial, Determine la probabilidad de que:

a. Un Cliente sea atendido en mas de 2 minutos b. Se atiendan 2 clientes en 1 minuto c. Si la ( ) 15.0=≤ xXP cuál es el valor de x

a.

atencióndetiempox == 2.1θ

( ) ( )

[ ] 189.0111111

)2(1212

66.166.12.1

2

==−−=

−−=

−−=

−=≤−=≥

−−−−

eeee

FxPxPx

θ

Page 19: GUIA_ACTUALIZADA

RELACION ENTRE LA POISSON Y LA EXPONENCIAL

La primera relación es que el parámetro β es el inverso de λ, es decir:

entonces,

Ejemplo, si β es el tiempo entre llegadas de clientes a un banco, entonces λ es el numero de clientes por minuto, si β es la distancia entre huecos en una avenida (en metros), entonces λ es el numero de huecos por metros. Si se reemplaza en la función de densidad de la exponencial, esta nos queda así:

Y la función de distribución:

Page 20: GUIA_ACTUALIZADA

b.

clientesdenúmeroX =

clientestiempo

ciente83.0

2.1

112.1 ===∴=

θλθ

!2

83.0)(

283.0−

==e

xXP

En este caso

%)15(15.0!2

83.0)2(

283.0

===−e

XP

Page 21: GUIA_ACTUALIZADA

c.

19.0

85.0ln2.1

85.0lnln2.1

85.0

15.01)()(

2.1

2.1

=

=−

=−

∴=

=−===

x

x

ex

e

exFxXPx

x

Page 22: GUIA_ACTUALIZADA

WEIBULL

( )α

θα

θ

αθα

−=

x

exxw 1,,

0,, >θαx

( )α

θ

−=

x

exF 1

� Esfuerzo

PROBLEMA

El Tiempo establecido para un esfuerzo en un material sigue una distribución WEIBULL con θ = 5 y α = 2 Determine

a. La Probabilidad de que ese tiempo exceda los 10 minutos

b. La Fiabilidad ( )tR del material para un tiempo de 20 minutos

Page 23: GUIA_ACTUALIZADA

esfuerzodetiempoX =

25 == αθ

( )%8.118.0)10(

11

)10(1)10(1)10(

2

2

5

10

5

10

==>

−−=

−=<−=>

eXP

e

FXPXP

Donde la Fiabilidad de la distribución de WeiBull esta definida como

( ) ( )α

θ

=≥=

x

etXPtR

( ) ( ) ( ) ( ) 0107.12020 62

202

≈×==≥==≥= −

eXPRtXPtR

Page 24: GUIA_ACTUALIZADA

Nombre Formula E(x) V(x) Observaciones

BETA

0 > 0

� Medidas

Físicas cuyo rango de valores este entre 0 y 1

La función Acumulada es de la forma F(x, Donde el entero menor mas próximo a β

=

=

Page 25: GUIA_ACTUALIZADA

PROBLEMAS DE DISTRIBUCION BETA 1. En el presupuesto familiar, la porción que se dedica ala saludo sigue una distribución beta,

B(2,2). Cuál es la probabilidad de que se invierta a) Mas del 25% de presupuesto b) Menos del 15% c) Entre el 10 y el 22% d) Calcule e interprete la esperanza e) Calcule la varianza

2. La fracción de cierto mineral presente en muestras geológicas sigue una distribución beta, B(0.34 , 7.63) a) Qué cantidad de dicho mineral se espera encontrar en una muestra de 500 gramos. b) Cuál es la probabilidad de que la proporción de ese mineral supere el 3%

3. El porcentaje promedio de ciertos tubos No Conformes que se producen en un proceso durante un mes es del 2%.

4. Si dicha proporción sigue una distribución beta con parámetro β=8, determine la probabilidad de que en un mes cualquiera, la proporción de Nop Conformes sea: a) Máximo del 1.5%

b) Minino del 1%

c) Entre el 0.8 y el 1.2%

Page 26: GUIA_ACTUALIZADA

DISTRIBUCION UNIFORME CONTINUA

Definición: La función de densidad de una v.a. continua X con distribución uniforme en el intervalo [ ]ba, esta dada por:

bxaab

xf ≤≤−

=1

)(

Gráficamente:

a b

1 b- a

Page 27: GUIA_ACTUALIZADA

2

)()(

baXE

+=

La demostración es inmediata, si se tiene en cuenta que para una v.a. continua, la esperanza se define mediante

∫∞

∞−

= dxxxfXE )()(

Asi:

∫+

=−

=b

a

badx

ab

xXE

2

)()(

También es inmediata dado que:

[ ]22)()()( XEXEXV −= , donde

dxab

xdxxfxXE

b

a

b

a

∫∫ −==

222

)()(

Page 28: GUIA_ACTUALIZADA

Finalmente

12

)()(

2ab

XV−

=

∫∫ −

−=

−=

=≤=

∞−

x

a

x

ab

axdt

abdttf

xXPxF

1)(

)()(

En consecuencia la descripción completa de la función de distribución de una v.a. uniforme continua es:

<≤−

<

=

xbsi

bxasiab

ax

axsi

xF

1

)(

)(

0

)(

Page 29: GUIA_ACTUALIZADA

PROBLEMA El espesor del borde de un buje de bronce esta distribuido uniforme entre 0.95 y 1.05 m.m. Si se selecciona un buje aleatoriamente, cual es la probabilidad de que el borde del espesor sea:

b) Cuando mucho 1.01 mm c) Mínimo 0.98 mm d) Entre 0.98 y 1.03 mm e) Exactamente 1 mm f) Obtenga la función de distribución acumulada g) Calcule el porcentaje de bordes cuyo espesor es mayor de 1.02 m.m. h) Que espesor esta excedido por el 90% de los bordes mas altos. i) Calcule la media y varianza del espesor

Page 30: GUIA_ACTUALIZADA

1. Suponga que X tiene una distribución uniforme en el intervalo [1.5, 5.5]. a. Calcule la media varianza y desviación estándar b. Calcule P(X<2.5); P(X≤2.5 ); P(2<X<4); P(2≤X≤4); P(X>3); P(X≥3); P(X>6);

P(X<6); P(X<1); P(X>1) 2. Suponga que X sigue una distribución uniforme en el intervalo [-1, 1]. Calcule el valor de x tal que P (-x < X< x) = 0.90 3. La función de probabilidad del tiempo necesario para terminar una operación de ensamble es f(x) = 0.1, para 30< x <40 segundos.

a) Calcule la proporción de ensambles que requieren mas de 35 segundos b) Que tiempo de armado es el que excede el 90% de los ensambles c) Calcule la media y la varianza el tiempo de ensamblado

4. Sea X una v.a. con distribución uniforme sobre el intervalo [a, b]. Si E(X)=10 y Var(X)=12, encuentre los valores de a y b.

Page 31: GUIA_ACTUALIZADA

DITRIBUCION DE MUESTREO

POBLACION:

Conjunto de datos en el cual el investigador guarda un interés.

MUESTRA:

Es una parte o proporción de la población que se toma como base de estudio para inferir en la

población.

INFERIR: método deductivo de la investigación

Page 32: GUIA_ACTUALIZADA

DISTRIBUCION DE MUESTREO

Estadístico Formula aplicada Nombre Formula Original

n

xZ

σµ−

=

Normal

estándar

para la

muestra 0

2),,(~

2

2

1

2

≥∞≤≤∞−

∞≤≤∞−

=

−−

σµ

σπσµ σ

µ

x

en

xN

x

PARA LA

MEDIA

n

s

xt

µ−= t de

Student

[ ][ ]

[ ]

∞<<∞−>

++

=+

tv

vtvv

vvtf

v

0

)/(1)2/(

2/)1(),( 2

)1(2

τπ

τ

Page 33: GUIA_ACTUALIZADA

2

2

2 )1(

σχ

sn −=

Chi-

Cuadrado [ ]0

22/)1(

1)1,( 22

1

2

)1(

>

=−−

x

ey

n

nyf

yn

n

τ

PARA LA

VARIANZA

22

12

s

sF =

F de

Fisher

[ ][ ]

∞<<∞−

>

++

=

+−−

t

v

fvvfvv

vvvvvvfg

vvvvv

0

)()2/(

2/)(),,( 2

((

122

)2(2

22

121

21

)21121

τπ

τ

Page 34: GUIA_ACTUALIZADA

DISTRIBUCION DE MUESTRO DE LA MEDIA

Un estadístico esta distribuido normalmente cuando la muestra que se toma es grande,

conocido como el TEOREMA DEL LIMITE CENTRAL

Cuando el tamaño de la muestra es grande y la varianza de la población es conocida,

−=

n

xz

µ

Siendo el tamaño de la muestra no muy grande y es desconocida la varianza de la población se

aplica la t DE STUDENTS.

−=

ns

xt

/

µ

Page 35: GUIA_ACTUALIZADA

DISTRIBUCION DE MUESTREO DE LA VARIANZA

Cuando se estima la varianza de una población, mediante la muestra, se aplica la CHI-

CUADRADO.

2

2

2 )1(

σχ

sn −=

Comparar si dos poblaciones poseen varianzas similares, es utilizada la DISTRIBUCIÓN F DE

FISHER

=

22

12

12

22

s

sF

σ

σ

Si se asume que las varianzas de las poblaciones son similares, entonces la formulación es la

siguiente:

=

22

12

s

sF

Page 36: GUIA_ACTUALIZADA

MUESTREO Porción representativa de la población y está representada como un conjunto de variables aleatorias. DISTRIBUCIÓN DEL MUESTREO Muestra: porción representativa de la población. Sea nxxx ,...21 una muestra en donde cada variable aleatoria sigue una distribución conocida

( )Xf . Por lo que la función de probabilidad de muestreo

( ) ( ) ( ) ( )nn xfxfxfxxxf ×××= ...,..., 2121 considerando las variables independientes.

De la muestra se evalúa algunos estadísticos Rpsx ,,, que caracterizan la población y son

estimaciones de los parámetros Rp,,,σµ . Existen diversos métodos estadísticos para evaluar o estimar estos estadísticos, entre estos encontramos el método de la máxima verosimilitud (MV), que consiste en obtener el estadístico maximizando la función de verso similitud f(L).

Page 37: GUIA_ACTUALIZADA

Ejemplo Sea una muestra nxxx ,...21 cuyas variables siguen una distribución exponencial. Mediante el MV, estime el valor de la medida.

( ) θ

θ

x

eXf−

=1

( )( ) ∑

==×××== =

−+++−−−

=

−−

n

i

in

n x

n

xxx

n

xxn

i

xx

eeeeeeLf 121

211

...1

1

111...

111 θθθθθθ

θθθθθθ Linealizando tenemos que,

( ) exlfn

iinln

11ln

1∑

=

−=θθ

Derivando con respecto a θ ( )

0111

ln1

21

=+−=+−= ∑∑==

n

ii

n

ii

n xnxd

ldf

θθθθ

θ

Despejando el valor de θ

∑=

=n

iix

n 1

Page 38: GUIA_ACTUALIZADA

Problema

1. Sea una muestra nxxx ,...21 cuyas variables siguen una distribución de Poisson. Obtener

mediante MV una estimación del parámetro λ .

( )!x

eXf

xλλ−

=

Como

( ) ( ) ∑==×××== =−

=

+++−

=

−−

=

−−

∏∏∏

n

i

i

n

n xn

n

ii

xxxn

n

ii

n

xxn

i

xx

e

x

e

xx

e

x

e

x

e

x

eLf 121

321

1

...

1

21 1

11

!...

!!!λλ

λλλλ λλλλλλ

Linealizando tenemos que,

( ) λλ lnln1∑

=

+−=n

iixenlf

Page 39: GUIA_ACTUALIZADA

Derivando con respecto a λ

( )0

1

1

=+−= ∑=

n

iixn

d

ldf

λλ

∑=

=n

iix

n 1

Page 40: GUIA_ACTUALIZADA

DISTRIBUCIÓN DEL MUESTREO

NOMBRE FORMULACIÓN SIMPLIFICADA APLICACIÓN Normal

n

xz

µ−=

Promedio con 2σ conocida

T de student

ns

xt

/

µ−=

Promedio con 2σ desconocida

Ch1 – cuadrado ( )2

22 1

σχ

sn −=

Varianza 2σ

F de Fisher

22

21

s

sF =

Razón de varianzas 22

21 /σσ

(comparación)

Page 41: GUIA_ACTUALIZADA

Problema Calcular la probabilidad de que el promedio de una muestra de 5 unidades sea menor a 131, si el proceso cuenta con un 125=µ con una desviación estándar de 6=σ .

( ) ( ) 98.023.2

5

6

125131131 =<=

−<=< ZPZPxP

Page 42: GUIA_ACTUALIZADA

PROBLEMAS 1. Calcular la probabilidad de que el promedio de una muestra de 5 unidades sea menor a

131, si el proceso cuenta con un 125=µ . Si la información seleccionada es 125, 120, 139, 128, y 135.

Calculamos la desviación muestral 63.7=S

( ) ( ) 923.075.1

5

63.7

125131131 =<=

−<=< tPtPxP

2. ¿Cuál es la probabilidad de que la varianza muestral S2 esté por encima de 25?, para una muestra de 7 unidades seleccionadas de un proceso con 362 =σ .

( ) ( ) ( ) 6550.0345.0116.4136

251725 222 =−=<−=

−>=> χχ PPsP

Page 43: GUIA_ACTUALIZADA

3. Encuentre el valor de µ para ( ) 95.021 =<< tttP . Si se sabe que la muestra

seleccionada es de 5 con un promedio y una desviación muestral de 120=x y 5.4=s

( ) ( ) ( ) ( )776.2776.295.0025.0975.021 −<−<==−=<−< tPtPttPttP Lo que implica que

5

5.4

120776.2

µ−=

Despejando µ

5

5.4776.2120 ×−=µ =114.39

Page 44: GUIA_ACTUALIZADA

ESTIMACION PUNTUAL Y POR INTERVALO ESTIMACION PUNTUAL, el parámetro de la población se infiere mediante el valor de un

estadístico, tomado de la muestra.

ESTIMACION POR INTERVALO, los parámetros de la población son estimados mediante un

intervalo de confianza cuya notación es la siguiente:

Page 45: GUIA_ACTUALIZADA

dadconfiabiliocertezadeadprobabilidlaesdonde

nzx

nzxpmanerasiguiente

ladeervaloeltenemosdevaloreldespejando

z

n

xzpentonceszZzpSea

1

1)(

int

1)(1)(

22

2222

−=+≤≤−

−=≤−

≤−−=≤≤−

α

ασ

µσ

µ

ασ

µα

αα

αααα

PROBLEMA Sea x el promedio muestral. Deduzca si es un estimador insesgado de µ .

∑=

=n

i

i

n

xx

1

Aplicando Esperanza

Page 46: GUIA_ACTUALIZADA

( )

( ) ( )xEn

xE

n

xExE

n

i

n

i

i

=

=

=

=

1

1

1

Por definición ( ) µ=xE

Entonces ( ) ∑=

=n

inxE

1

1µ por lo que ( ) µµ == n

nxE

1 estimador insesgado, es decir el

estadístico toma exactamente el valor del parámetro. ESTIMACION DE LA MEDIA

VARIANZA CONOCIDA 2σ

nZx

nZx

σµ

σ

22

∞∞ +≤≤−

Page 47: GUIA_ACTUALIZADA

VARIANZA DESCONOCIDA 2σ

libertad

degradosnvconn

stx

n

stx 1

22

−=+≤≤− ∞∞ µ

PROBLEMA. Calcule el tamaño de muestra que se tomó en un intervalo de confianza para el promedio cuya

362 =σ , 05.0=α y un error de estimación de 5 .

Page 48: GUIA_ACTUALIZADA

Tenemos que:

nZx

nZx

σµ

σ

22

∞∞ +≤≤− , Se observa que el error de estimación es: n

Zeeσ

2

. ∞=

Entonces

653.505.0

3696.1

. 2

2

2

2

2

2 ≈=×

== ∞

eeZn

σ

3. PARA DIFERENCIA DE MEDIAS CON VARIANZAS CONOCIDAS 2

2

2

1σσ y

2

2

1

1

2

2121

2

2

1

1

2

21

ˆˆ)(

ˆˆ)(

nnZxx

nnZxx

σσµµ

σσ++−≤−≤+−− ∞∞

Page 49: GUIA_ACTUALIZADA

4. PARA DIFERENCIAS DE MEDIAS CON VARIANZAS DESCONOCIDAS

delibertadgradosnnvconnn

snsns

nnstxx

nnstxx

p

pp

22

)1()1(

11)(

11)(

21

21

2

22

2

11

212

2121

212

21

−+=−+

−+−=

++−≤−≤+−− ∞∞ µµ

PROBLEMA Sea la siguiente información de las ventas de dos sucursales de una compañía multinacional

Sucursal 1 Sucursal 2 232 225

Page 50: GUIA_ACTUALIZADA

231 223 235 234 230 228 236

Preguntas 1. Construya un intervalo de confianza del 95% para el verdadero promedio de la sucursal 1 2. Construya un intervalo de confianza del 99% para la verdadera varianza 2σ de la sucursal 2. 3. ¿Se puede considerar similares las ventas promedio de las sucursales?, utilice un nivel de significancia de 5% RESPUESTA 1.

776.2,588.28.232 4,025.01 === tsX

Page 51: GUIA_ACTUALIZADA

( ) ( )

012.23658.229

5

588.2776.28.232

5

588.2776.28.232

22

≤≤=

−≤≤−=+≤≤− ∞∞

µ

µµn

stx

n

stx

ESTIMACION PARA LA VARIANZA

Page 52: GUIA_ACTUALIZADA

libertaddegradosnvconsnsn

1)1()1(

2

2

22

21

2

2

−=−

≤≤−

−αα χ

σχ

RESPUESTA 2.

( ) ( ) 84.120717.0,4,79.4 3995.03005.022 ==== χχNS

( ) ( )

98.60315.2

0.96036.5

0717.0

79.414

84.12

79.414)1()1(

2

22

2

2

2

22

21

2

2

≤≤=

≤≤=

−≤≤

−=

−≤≤

σ

σ

σχ

σχ αα

snsn

REPUESTA 3.

5,5,5.227,5.232,79.4,588.2 212122

222

1 ====== nnxxss

Page 53: GUIA_ACTUALIZADA

delibertadgradosvcons

ss

p

pp

725569.3255

79.4)15(588.2)15(

5

1

5

136.2)5.2275.232(

5

1

5

136.2)5.2275.232(

221

21

=−+==−+

−+−=

++−≤−≤+−− µµ

5

1

5

169.336.2)5.2275.232(

5

1

5

169.336.2)5.2275.232( 21 +×+−≤−≤+×−− µµ

ESTIMACION PARA LA RAZÓN DE VARIANZAS

Page 54: GUIA_ACTUALIZADA

2

2

2

2

12

2

2

1

21

2

2

2

1

αα σ

σ

fs

s

fs

s≤≤

poblaciónsegundalaparalibertaddegradosnvy

poblaciónprimeralaparalibertaddegradosnvcon

1

1

22

11

−=

−=

PROBLEMA De la siguiente información se desea evaluar de que el supuesto de varianza similares es lo correcto.

Page 55: GUIA_ACTUALIZADA

Prueba de resistencias

Método A Método B 3,51 3,62 3,52 3,62 3,52 3,64 3,51 3,63 3,65

Utilice un 10.0=α ; confiabilidad del 90%

00025.000113.02

2

2

1 == ss

1096.012.9

11

59.6

12

21

21

,,2

1

4,3,05.0,,

2

4,3,95.0,,

21

====

==

vv

vv

vv

FFF

FF

α

α

α

Page 56: GUIA_ACTUALIZADA

Tenemos que:

( ) ( )96.1000025.0

00113.0

54.600025.0

00113.02

2

2

1 ≤≤σ

σ

24.4185.92

2

2

1 ≤≤σ

σ

ESTIMACION PARA LA PROPORCION

Page 57: GUIA_ACTUALIZADA

exitos

denumeroelxn

xpdonde

n

ppZpp

n

ppZp ==

−+≤≤

−− ∞∞ ,ˆ

)̂1(̂ˆ

)ˆ1(̂ˆ

22

ESTIMACION PARA LAS DIFERENCIAS DE PROPORCIONES

Page 58: GUIA_ACTUALIZADA

poblaciónsegundaladeexitosdenumeroelxn

xp

ypoblaciónprimeraladeexitosdenumeroelxn

xpdonde

n

pp

n

ppZpppp

n

pp

n

ppZpp

==

==

−+

−+−≤−≤

−+

−−− ∞∞

2

2

22

1

1

11

2

22

1

11

2

1221

2

22

1

11

2

12

)ˆ1(ˆ)ˆ1(ˆ)ˆˆ(

)ˆ1(ˆ)ˆ1(ˆ)ˆˆ(

EJEMPLO: Las obleas de silicio se almacenan y luego se parten en los muchos microchips que

se montaran en los circuitos. Se comparan dos métodos de ruptura. De 400 microchips partidos

por el método A, ya no se pueden utilizar 32 debido a las grietas. De 400 microchips partidos

con el método B, solo 28 son inútiles. Estimar las diferencia entre las proporciones de

microchips mal partidos con respecto a los métodos de ruptura. Usar un coeficiente de

confianza igual a 0.95. ¿Qué método de ruptura recomienda el lector?

Intervalos de confianza 95% donde 96.1

2

=αZ 40040021

== nyn

Page 59: GUIA_ACTUALIZADA

0465.00264.0

)01862.0(96.1)01.0()01862.0(96.1)01.0(

400

)07.0(93.0

400

)08.0(92.0)ˆˆ(

400

)07.0(93.0

400

)08.0(92.0)93.092.0(

)ˆ1(ˆ)ˆ1(ˆ)ˆˆ(

)ˆ1(ˆ)ˆ1(ˆ)ˆˆ(

93.0400

372ˆ

,92.0400

368ˆ

21

21

025.0

2

1221025.0

2

22

1

11

2

1221

2

22

1

11

2

12

2

1

≤−≤−

+≤−≤−

++−≤−≤+−−

−+

−+−≤−≤

−+

−−−

==

==

∞∞

pp

pp

ZZppppZ

n

pp

n

ppZpppp

n

pp

n

ppZpp

p

ypDonde

Page 60: GUIA_ACTUALIZADA

Los métodos de ruptura de microchips, vemos por medio del intervalo de confianza no son

considerablemente distintos, claro esta usando un intervalo de confianza del 95%. Aunque el

grupo preferiría usar el método B.

Las encuestas Time-Yankelovich, que se ven periódicamente en la revista Time, informan que

acerca de los resultados de consultas telefónicas a unas 1000 personas. En diciembre de

1983, el 60% de los que respondieron dijo que le preocupaba una guerra nuclear. En una

encuesta semejante en junio de 1983, solo el 50% dijo que le preocupaba la guerra nuclear. El

articulo que da estas cifras dice que cuando se comparan, “el error potencia de muestro es mas

o menos 4.5 %”. Explicar como se obtiene y que significa. A continuación, estimar la diferencia

verdadera en esas proporciones, en un intervalo de confianza del 95 %.

Page 61: GUIA_ACTUALIZADA

1434.00566.0

)0221.0(96.1)1.0()0221.0(96.1)1.0(

1000

)50.0(50.0

1000

)40.0(60.0)50.060.0(

1000

)50.0(50.0

1000

)40.0(60.0)50.060.0(

)ˆ1(ˆ)ˆ1(ˆ)ˆˆ(

)ˆ1(ˆ)ˆ1(ˆ)ˆˆ(

50.01000

500ˆ,60.0

1000

600ˆ

21

21

025.021025.0

2

22

1

11

2

2121

2

22

1

11

2

21

21

≤−≤

+≤−≤−

+−−≤−≤+−−

−+

−+−≤−≤

−+

−−−

====

∞∞

pp

pp

ZppZ

n

pp

n

ppZpppp

n

pp

n

ppZpp

pypDonde

Page 62: GUIA_ACTUALIZADA

PRUEBA DE HIPOTESIS

Es una herramienta aplicada para determinar si la afirmación que se presenta del valor de un

parámetro o una función es correcta.

HIPOTESIS NULA,0

H es la afirmación que se realiza acerca del parámetro. Por ejemplo,

afirmar que el promedio de la cantidad de aminoácido alanita para un niño es de l

mg

1005.2 ,

es indicar 5.2:0

=µH

Page 63: GUIA_ACTUALIZADA

HIPOTESIS ALTERNA, 1

H es la negación de la hipótesis nula y plantea tres pruebas: una

bilateral y dos unilaterales. Para el ejemplo anterior tenemos las posibles hipótesis alterna:

.5.2:

.5.2:

5.2:

1

1

1

derunilateralpruebaH

ó

izqunilateralpruebaH

ó

bilateralpruebaH

>

<

µ

µ

µ

TIPOS DE ERRORES EN UNA PRUEBA DE HIPOTESIS

Existen dos tipos de errores en una prueba de hipótesis, el ERROR TIPO I o NIVEL DE

SIGNIFICANCIA α ALFA, y el ERROR TIPO II β BETA.

ERROR TIPO I, es rechazar la hipótesis nula siendo esta verdadera.

Page 64: GUIA_ACTUALIZADA

ERROR TIPO II, es aceptar la hipótesis nula, siendo esta falsa.

PASOS PARA UNA PRUEBA DE HIPOTESIS

1. HIPOTESIS NULA 0

H

2. HIPOTESIS ALTERNA 1

H

3. NIVEL DE SIGNIFICANCIA α

4. REGION DE RECHAZO

Page 65: GUIA_ACTUALIZADA

derechaunilateralpreubadd

izquierdaunilateralpruebadd

bilateralpruebaddódd

α

α

αα

≥≤ −2

1

2

Donde el valor de d depende del estadístico de prueba aplicado en el problema.

A continuación se presentas los estadísticos de prueba:

Page 66: GUIA_ACTUALIZADA

sn

ianzalaPara

libertaddegradosnnvcon

nn

snsnsdonde

nns

xxt

ó

nn

xxZ

mediasdediferencialaPara

n

s

xtó

n

xZ

sonddevaloreslosmedialaPara

p

p

)1(

var

2

2

)1()1(

11

)()(

)()(

:,

2

21

21

2

22

2

11

21

2121

2

2

2

1

2

1

2121

−+=

−+

−+−=

+

−−−=

+

−−−=

−=

−=

µµ

σσ

µµ

µσ

µ

Page 67: GUIA_ACTUALIZADA

5. CALCULOS

Se toma algunos de los estadísticos enunciados anteriormente.

6. DECISION ACERCA DE LA PRUEBA

En esta parte el investigador debe aceptar o rechazar la hipótesis nula 0

H

Un procedimiento que conduce a una decisión sobre una hipótesis en particular recibe el

nombre de prueba de hipótesis. Los procedimientos de prueba de hipótesis dependen del

empleo de la información contenida en la muestra aleatoria de la población de interés. Si esta

información es consistente con la hipótesis, se concluye que ésta es verdadera; sin embargo si

esta información es inconsistente con la hipótesis, se concluye que esta es falsa. Debe hacerse

hincapié en que la verdad o falsedad de una hipótesis en particular nunca puede conocerse

con certidumbre, a menos que pueda examinarse a toda la población. Usualmente esto es

Page 68: GUIA_ACTUALIZADA

imposible en muchas situaciones prácticas. Por tanto, es necesario desarrollar un

procedimiento de prueba de hipótesis teniendo en cuenta la probabilidad de llegar a una

conclusión equivocada.

En la vida diaria ocurre un sin numero de sucesos que por medio del estudio estadístico se

logra acercar a una posible realidad; Siendo entonces la probabilística, los diferentes tipos de

distribuciones y la prueba de hipótesis herramientas importantes dentro de la estadística.

La prueba de hipótesis es el tópico en la estadística inferencial que trabaja con dar alguna

certeza de una teoría o creencia sobre un parámetro de una población usando datos obtenidos

de una muestra.

Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más

poblaciones.

Page 69: GUIA_ACTUALIZADA

La distribución exponencial es una de las más utilizadas, sus valores siempre son positivos, es

importante de que se trata de la única distribución continua cuya tasa de fallo es constante.

PROBLEMA Se utiliza una marca particular de margarina dietética para determinar el nivel de ácido graso

polisaturado (en porcentaje). Se toma una muestra de seis paquetes y se obtienen los

siguientes datos: 16.8, 17.2, 17.4, 16.9, 16.5, 17.1. ¿Se puede afirmar que el promedio de

ácido polisaturado es de 17? Utilice un nivel de significancia de 0.01.

El parámetro de interés es el promedio de ácido polisaturado.

1. 17:0

=µH

2. 17:1

≠µH

3. El nivel de significancia es: 01,0=α

4. Región de rechazo

Page 70: GUIA_ACTUALIZADA

Si 1,

2

0−

>n

tt α Ó Si 1,

2

0−

−<n

tt α

5. Cálculos:

El estadístico de la prueba es

ns

xt

µ−=

_

0

983,16_

=x , 10166667,02 =s , entonces 31885,010166667,0 ==s

13,01280,0

6

31885,0

17983333,160

−≅−=−

=t

6. Decisión: dado que 13,0032,4 0)5(995,0 −=<−=− tt ;

La muestra evidencia que no se debe rechazar la hipótesis nula 0

H de que el promedio de

ácido polisaturado es 17

Page 71: GUIA_ACTUALIZADA

PROBLEMA

Sea una muestra de 5 unidades en donde 3.15=x , con una varianza poblacional de 5.3, contraste si se puede afirmar H0 µ>18. Utilice un α=0.05

1. 18:0 ≥µH

2. 18:1 ≤µH

3. El nivel de significancia es: 05,0=α

4. Región de rechazo

5. Cálculos

62.2

530.2

183.15−=

−=

−=

n

xZ

σ

µ

6. Decisión: No se acepta H0, el promedio es menor que 18.

Page 72: GUIA_ACTUALIZADA

PRUEBA DE BONDAD DE AJUSTE

5.3 PRUEBA DE NORMALIDAD.

Es indispensable conocer que cuando se aplica una herramienta estadística en donde se

involucra variables continuas o cuantitativas es fundamental determinar si la información

obtenida en el proceso, tiene un comportamiento mediante una distribución normal. Para ello la

Page 73: GUIA_ACTUALIZADA

estadística posee algunas pruebas, entre ellas encontramos la prueba de Ji-cuadrado1,

Kolmogorov-Smirnov Lilliefors, Shapiro y Wilks o la prueba de Anderson Darling

PRUEBA DE NORMALIDAD MEDIANTE EL MÉTODO DE KOLMOGOROV SMIRNOV

LILLIEFORS.

La prueba de Kolmogorov Smirnov Lilliefors KSL es aplicada únicamente a variables continuas

y calcula la distancia máxima entre la función de distribución empírica de la muestra

seleccionada y la teórica, en este caso la normal.

Sea una muestra nxx ,...,1

la muestra ordenada de la siguiente forma nxxxx ≤≤≤ ...321

. La

función de distribución empírica de esta muestra es de la forma:

1 En est a p rueba t oma e l va l or de l a j i - cuadr ado ∑−

=2

2 )(

e

eoχ , dond e o e s l a obser vac i ón

obse rvada , e l a observa c ió n espera da . Este va l or de Ch i -c uadrad o se c ompara con e l p u nto c r í t i c o

2

)1)(1( −− kαχ , c on 1−k grad os de l ibe rt ad .

Page 74: GUIA_ACTUALIZADA

( )

≤≤

<

= +

n

kk

n

xx

xxxn

k

xx

xF

1

0

1

1

De tal manera que para contrastar la hipótesis de que el modelo generado de los datos es

( )xF se calcula el estadístico ( ) ( )xFxFmáxD nn −= cuya distribución, cuando ( )xF es

cierta se ha tabulado. Si la distancia calculada n

D es mayor que la encontrada en las tablas

( )nD ,α , fijando un nivel de significancia α , rechazaremos el modelo ( )xF . Es decir

( )nDDn

,α≥

Page 75: GUIA_ACTUALIZADA

Se toma la información a la salida de una de las maquinas de pesaje y estos son los

resultados:

Peso de las píldoras

en la primera

maquina al 5%

485

489

490

495

499

500

512

510

508

Page 76: GUIA_ACTUALIZADA

k x ( )xFn

( )xF ( ) ( )hhn xFxF −−1 ( ) ( )hhn xFxF − ( )xDn

1 485 0.111 0.08099 0.08099 0.030107

2 489 0.222 0.16130 0.030118 0.060895

3 490 0.333 0.18759 0.03462 0.145732

4 495 0.444 0.35377 0.02044 0.090665

5 499 0.555 0.50964 0.06520 0.045910

6 500 0.666 0.55428 0.00126 0.112376

7 508 0.777 0.83024 0.16357 0.052468 0.1635

8 510 0.888 0.87693 0.09915 0.011954

9 512 1.000 0.91378 0.02489 0.086212

La información de la muestra estimamos el promedio ( ) 666.498== µxE y la desviación

estándar ( ) 7724.9== σsE .

Page 77: GUIA_ACTUALIZADA

Calculamos el valor de ( ) ( )

−≤=≤=

7724.9

666.498i

xZpzZpxF para cada uno de los

valores i

x de la muestra.

Ejemplo de ello, es cuando se toma el valor de 485=x , el caculo de la norma estandarizada

resulta de la siguiente manera:

( ) ( ) ( ) 0809.0398.17724.9

666.498485248 =−≤=

−≤=≤= ZpZpzZpF

Este procedimiento se realiza para cada uno de los valores obtenidos en la muestra selecciona.

Una vez calculado todos los valores se calculan las diferencias y se obtiene finalmente el valor

máximo de n

D es 0.16357963.

Page 78: GUIA_ACTUALIZADA

Para obtener la diferencia ( ) ( )hhn xFxF −−1 , por ejemplo tomando el primer valor 485=x donde

( ) 0809.0=kxF ; un valor anterior de ( ) 01

=−kn xF , por lo tanto la diferencia resultante es

0809.00809.00 =− .

En el caso de la diferencia ( ) ( )hhn xFxF − los valores se realizan de la siguiente manera:

0301.00809.0111.0 =−

En la tabla de KSL se obtiene con 9=n , ( ) 271.09,05.0 =D , por lo que se acepta que la

muestra se distribuye normalmente.

Page 79: GUIA_ACTUALIZADA

REGRESION LINEAL SIMPLE Es un modelo matemático que relaciona dos variables y , conocida como variable respuesta o variable

dependiente y la variable x , variable independiente o factor de incidencia. El modelo de regresión posee

la siguiente formulación:

εββ ++= xy10

Donde 0

β y 1

β son parámetros conocido como intercepto y pendiente respectivamente y ε es el error

aleatorio cuyo comportamiento se asume como normal estándar ( )1,0~ε . Estos parámetros son

estimados mediante el método de los mínimos cuadrados utilizando las siguientes formulaciones:

101ˆˆˆ βββ xy

SS

SS

xx

xy−==

Page 80: GUIA_ACTUALIZADA

Para determinar si un modelo de regresión es idóneo con respecto al fenómeno en estudio, es necesario

evaluar el coeficiente de determinación 2

R y el análisis de varianza.

Diagrama del modelo de regresión lineal

Variable independiente

Variable dependiente

20 22 24 26 28

43

44

45

46

47

48

Page 81: GUIA_ACTUALIZADA

EVALUACION DEL COEFICIENTE DE CORRELACION

A continuación se presenta la formulación, que permite evaluar el grado de correlación entre dos variables

o factores.

∑∑

∑∑

∑∑ ∑

−=−=−==n

yySS

n

xxSS

n

yxxySS

SSSS

SSr yyxxxy

yyxx

xy2

2

2

2)()(

En donde r es la estimación del coeficiente de correlación, xySS es la suma de cuadrados de las

variables evaluadas, xx

SS es la suma de cuadrados de la variable x y yySS es la suma de cuadrados de

la variable y .

Page 82: GUIA_ACTUALIZADA

COEFICIENTE DE DETERMINACION

El coeficiente de determinación 2

R esta definido por la siguiente formulación: T

R

SS

SSR =2 donde

RSS esta definida como la suma de cuadrados de regresión y TSS es la suma de cuadrados totales.

ERT

iii

SSSSSS

yyyyyy

+=

−+−=−∑ ∑ ∑∑ )(..)(..)(

Page 83: GUIA_ACTUALIZADA

LA TABLA DE ANALISIS DE VARIANZA

Fuente de variación

Grados de

libertad

Suma de

cuadrados

Cuadrados medios

Valor de F de Fisher

Regresión 1 RSS RCM

E

R

CM

CMf =

Error 2−n ESS ECM

Total 1−n TSS

Page 84: GUIA_ACTUALIZADA

PROBLEMA

La siguiente información es tomada del departamento de servicio al cliente de una empresa

prestadora de energía eléctrica

Numero

de

muestra

Numero

promedio

de quejas

(en

cientos)

y

Numero de

facturaciones

realizadas(en

miles)

x

1 0.4402 0.015

2 0.4390 0.018

3 0.4448 0.018

4 0.4432 0.006

5 0.4428 0.008

6 0.4382 0.010

Mediante mínimos cuadrados determine le modelo de regresión y realice la idoneidad del

modelo aplicando el análisis de varianza

Page 85: GUIA_ACTUALIZADA

REGRESIÓN LINEAL MÚLTIPLE

Hacer una regresión lineal múltiple de un carácter a explicar con respecto a varios caracteres

explicativos es encontrar la combinación lineal de los caracteres explicativos para la cual la

varianza de la serie de los residuos es mínima.

En la mayor parte de los problemas de investigación en que se aplica el análisis de regresión,

se requiere más de una variable independiente en el modelo de regresión. La complejidad de la

mayoría de los mecanismos científicos es tal que, con objeto de estar en condiciones de

pronosticar una respuesta importante, se necesita un modelo de regresión múltiple. Cuando

éste es lineal en los coeficientes, recibe el nombre de modelo de regresión lineal múltiple. Para

el caso de k variables independientes ,,.....,,21 kxxx la media de kxxxY ,....,, 21 está dada

por el modelo de regresión lineal múltiple:

Page 86: GUIA_ACTUALIZADA

kkxxxYxx

kβββµ +++= .....110,...,, 21

Y la respuesta estimada se obtiene de la ecuación de regresión muestral:

,...ˆ110 kk xbxbby +++=

Donde cada coeficiente de regresión iβ se estima mediante ib de los datos muéstrales con el

método de mínimos cuadrados. Igual que en el caso de una sola variable independiente con

frecuencia, el modelo de regresión lineal múltiple puede ser una representación adecuada de

una estructura más complicada dentro de ciertos rangos de las variables independientes.

Se pueden aplicar técnicas de mínimos cuadrados similares para estimar los coeficientes

cuando los modelos lineales involucran, a saber, potencias y productos de las variables

independientes. Por ejemplo, cuando 1=k , el experimentador puede pensar que las medidas

Page 87: GUIA_ACTUALIZADA

xYµ no caen sobre una línea recta pero se describen con más aproximación con el modelo de

regresión polinomial.

,...2

210

r

rxYxxx ββββµ ++++=

Y la respuesta estimada se obtiene de la ecuación de regresión polinomial:

....ˆ 2

210

r

r xbxbxbby ++++=

En ocasiones resulta confuso hablar de un modelo polinomial como un modelo lineal. Sin

embargo, los estadísticos generalmente se refieren a un modelo lineal como a aquél en el cual

los parámetros ocurren linealmente, sin importar cómo entran las variables independientes en

el modelo. Un ejemplo de un modelo no lineal es la relación exponencial dada por:

,x

xYαβµ =

Page 88: GUIA_ACTUALIZADA

La cual se estima con la ecuación de regresión:

.ˆ xaby =

Existen muchos fenómenos en la ciencia y en la ingeniería que son no lineales por naturaleza

y, cuando se conoce la estructura real, ciertamente se debe hacer un intento para ajustar el

modelo presente.

Ecuaciones normales para una regresión múltiple con 2=r :

∑∑ ∑ ++= 22110 xbxbnby

∑∑∑∑ ++= 212

2

11101 xxbxbxbyx

∑∑∑∑ ++= 2

22211202 xbxxbxbyx

Page 89: GUIA_ACTUALIZADA

Se escriben las estimaciones por mínimos cuadrados de 10

, ββ y 2

β como 10

,bb y .2

b

Obsérvese que en la notación abreviada ∑ 1x significa ∑∑=

21

1

1 , xxxn

i

i significa

∑∑=

yxxxn

i

ii 1

1

21 , significa ∑=

n

i

i yix1

1 , etc.

ESTIMACIÓN DE LOS COEFICIENTES

En esta sección se obtendrán los estimadores de mínimos cuadrados de los parámetros

kβββ ,....,,10

ajustando el modelo de regresión lineal múltiple:

kkxxxYxxx

kββββµ ++++= .....22110,...,, 21

a los puntos de datos

( ){ },,...2,1;,,...,,21

knYniyxxx ikiii ==

Page 90: GUIA_ACTUALIZADA

donde iy es la respuesta observada para los valores kiii xxx ,...,,21

de las k variables

independientes kxxx ,...,,21

. Cada observación ( )ikiii yxxx ,,...,,21

satisface la ecuación:

ikikiii xxxy εββββ +++++= ...22110

Ó

ikikiii exbxbxbby +++++= ...22110

Donde iε y ie son los errores y residual respectivamente, asociados con la respuesta .iy Al

utilizar el concepto de mínimos cuadrados para llevar a los estimadores de ,,...,,10 kbbb se

minimiza la expresión:

( ).1

22110

1

2 ∑∑==

−−−−==n

i

kikiii

n

i

i xbxbxbbyeSSE

Page 91: GUIA_ACTUALIZADA

Diferenciando SSE de cada vez con respecto a ,,...,,,210 k

bbbb e igualando a cero, se

genera el conjunto de 1+k ecuaciones normales:

∑∑

∑∑

==

==

=+

+++

n

i

i

n

i

kik

n

i

i

n

i

i

yxb

xbxbnb

11

1

22

1

110 ...

∑∑

∑∑∑

==

===

=+

+++

n

i

ii

n

i

kiik

n

i

ii

n

i

i

n

i

i

yxxxb

xxbxbxb

1

1

1

1

1

212

1

2

11

1

10...

Page 92: GUIA_ACTUALIZADA

∑∑

∑∑∑

==

===

=+

+++

n

i

iki

n

i

kik

n

i

iki

n

i

iki

n

i

ki

yxxb

xxbxxbxb

11

2

1

22

1

11

1

0 ...

Estas ecuaciones se pueden resolver para k

bbbb ,...,,,210

por cualquier método apropiado

para resolver sistemas de ecuaciones lineales.

Mínimos cuadrados

Hacer una estimación en el sentido de los mínimos cuadrados, es seleccionar en una familia de

modelos teóricos aquel para el cual la media de los cuadrados de la diferencias entre los datos

y el modelo, es mínima.

Page 93: GUIA_ACTUALIZADA

Error cuadrático

El error cuadrático de un estimador con respecto a un modelo es la esperanza del cuadrado de

las diferencias entre las observaciones y los valores que predice el modelo.

Revisión de la idoneidad del modelo:

Si suponemos que el modelo de regresión es adecuado, podemos usar la ecuación ajustada

para hacer inferencias. Antes de hacerlo así, es imperativo verificar las hipótesis en que se

basa el análisis. En el contexto del modelo de regresión con dos preeditores, nos preguntamos

si i

y es igual a ,22110 iii

xx εβββ +++ donde los errores i

ε son independientes y tienen la

misma varianza 2σ .

Page 94: GUIA_ACTUALIZADA

Toda la información sobre fallas de ajuste está contenida en los residuos:

12211101111ˆ xbxbyyye −−−=−= β

22110

22221102222

ˆ

ˆ

nnnnnnxbxbbyyye

xbxbyyye

−−−=−=

−−−=−=

Μ

β

Los residuos deben trazarse de varias maneras para detectar desviaciones sistemáticas de las

hipótesis.

Page 95: GUIA_ACTUALIZADA

PROBLEMA

En la química analítica, el análisis de los rayos x fluorescentes es una herramienta para estimar

porcentajes de ingredientes en mezclas con multitud de componentes. Con frecuencia, la

estimación de concentraciones depende de gran medida de la habilidad del usuario para

ajustar los modelos de regresión adecuados. En un documento se aprobaron cuatro

suspensiones para propulsión que contenían cuatro ingredientes. Las concentraciones de los

componentes variaban en las suspensiones para producir estándares del tipo de calibración.

Los datos son:

Page 96: GUIA_ACTUALIZADA

y 1

x 2

x 3

x 4x

0.5514

0.4426

0.5631

0.5624

0.4505

0.5290

0.4702

0.5001

0.4425

1.1240

0.9285

1.1214

1.1635

0.9415

1.0712

0.9561

1.0186

0.9039

0.8980

0.8872

0.8030

0.8706

0.8064

0.8404

0.8731

0.8431

0.8314

0.8219

0.9308

0.7608

0.9272

0.9026

0.9662

0.8206

0.8346

0.7596

0.9906

0.9944

1.1221

0.9832

1.1127

1.0836

1.0290

1.0591

1.0994

Page 97: GUIA_ACTUALIZADA

La respuesta i

y es la concentración medida de un integrante A. el valor medido 1

x es la

“relación de intensidad” asociada con el integrante A, y los valores 2

x , 3

x y 4

x son las

relaciones de intensidad para los componentes adicionales en la suspensión. Como resultado

de los efectos de mejora y absorción, la respuesta y se pronostica mejor después de realizar la

regresión en contra de los valores de intensidad asociados con todos los componentes.

Entonces el modelo es:

.443322110,, 4,321xxxxxxxxY βββββµ ++++=

Page 98: GUIA_ACTUALIZADA

Se ajusta este modelo de regresión lineal múltiple a los datos proporcionados y entonces se

estima la concentración de ingredientes A para una mezcla cuyas relaciones de intensidad de

rayos X son, respectivamente, ,091.11

=x ,855.02

=x 758.03

=x y .005.14

=x

De los datos proporcionados se encuentra que 9=n y ∑=

=9

1

1 2287.9i

ix ∑=

=9

1

2 6532.7i

ix

∑=

=9

1

3 6303.7i

ix ∑=

=9

1

4 4741.9i

ix ∑=

=9

1

2

1 5394.9i

ix ∑=

=9

1

2

2 5172.6i

ix

∑=

=9

1

2

3 515.6i

ix ∑=

=9

1

2

4 9974.9i

ix ∑=

=9

1

21 8510.7i

iix ∑=

=9

1

31 8257.7i

ii xx

∑=

=9

1

41 7037.9i

ii xx ∑=

=9

1

32 4943.6i

ii xx ∑=

=9

1

42 0421.8i

ii xx ∑=

=9

1

43 0182.8i

ii xx

∑=

=9

1

5118.4i

iy ∑=

=9

1

1 6663.4i

ii yx ∑=

=9

1

2 8375.3i

ii yx ∑=

=9

1

3 8226.3i

ii yx 7456.49

1

4 =∑=i

ii yx

Page 99: GUIA_ACTUALIZADA

Insertando estos valores en las ecuaciones normales, se obtiene:

5118.44741.96303.76532.72287.99 43210 =++++ bbbbb

6663.47037.98257.78510.75394.92287.9 43210 =++++ bbbbb

8375.30421.84943.65172.68510.76532.7 43210 =++++ bbbbb

8226.30182.85015.64943.68257.76303.7 43210 =++++ bbbbb

7456.49974.90182.80421.87037.94741.9 43210 =++++ bbbbb

La solución de este conjunto de ecuaciones de las estimaciones únicas:

,3004.00

−=b ,5387.01

=b ,1770.02

=b ,0704.03

−=b .1506.04

=b

Por tanto, la ecuación de regresión es:

.1506.00704.01770.05387.03004.0ˆ 4321 xxxxy +−++−=

Page 100: GUIA_ACTUALIZADA

Para una mezcla cuyas intensidades de rayos X son

758.0,855.0,091.1321

=== xxx y 005.14

=x , la concentración estimada del

componente A es:

( )( ) ( )( ) ( )( ) ( )( )005.11506.0758.00704.0855.01770.0091.15387.03004.0 +−++−=y

5366.0=y