comparación entre el muestreo probabilístico clásico y el...

COMPARACIO N ENTRE EL MUESTREO

PROBABILI STICO CLA SICO Y EL REMUESTREO

Este artículo trata principalmente sobre la diferencia entre el Muestreo

Aleatorio Simple y el Muestreo por Bootstrap en el cálculo de los

márgenes de error muestral en las encuestas por Muestreo Probabilístico

Gabriel Davidovics M.

Se explica el

Remuestreo en base

a las técnicas del

Bootstrap

1

COMPARACIÓN ENTRE EL MUESTREO CLÁSICO Y EL

REMUESTREO

BASADO EN LA TÉCNICA DEL BOOTSTRAP

El bootstrap es un tipo de técnica de remuestreo de datos que permite resolver

problemas relacionados con la estimación de intervalos de confianza o la prueba de

significación estadística. Este enfoque puede resultar de interés para los investigadores

en Estudios de Mercado y de Opinión Pública, no sólo porque es menos restrictivo que

el enfoque estadístico clásico, sino también porque es más general en su formulación y

más simple de comprender en lo referente al procedimiento básico que subyace al

método. En lugar de fórmulas o modelos matemáticos abstractos, el bootstrap

simplemente requiere un computador capaz de simular diversos procesos de muestreo

aleatorio de los datos. Sin embargo, y debido quizás a la escasa difusión de la técnica,

los investigadores aún no han incorporado el bootstrap al repertorio habitual de

herramientas de análisis de datos.

Las computadoras modernas han abierto las puertas para un tratamiento en profundidad

de las bases de datos y análisis de datos, algo que antes era inconcebible. La

visualización dinámica de datos, la simulación y los métodos de remuestreo son

algunos ejemplos de enfoques que, apoyados en las capacidades de los computadores

modernos, han enriquecido el trabajo de exploración y análisis estadístico de datos. La

relación entre computadores y la inferencia estadística además del análisis científico de

datos es patente para el caso de las llamadas técnicas de remuestreo de datos (‘data

resampling’), entre las que encontramos en primer lugar de importancia ( cuando nos

referimos a las encuestas probabilísticas), el Bootstrap.

La diferencia fundamental entre el muestreo clásico y el “Remuestreo por Bootstrap”,

se aclara a continuación, con un ejemplo simple basado en el diseño básico denominado

“muestreo aleatorio simple.”

MUESTREO PROBABILÍSTICO CLÁSICO

En este simple diseño muestral, se extrae una muestra de tamaño “n” , de una lista

(Marco Muestral) de tamaño “N”, utilizando para ello números aleatorios.

La selección puede ser con reposición (es decir un mismo número puede ser extraído en

más de una ocasión y con ello, la muestra puede contener elementos repetidos ), o sin

reposición (es decir, todos los integrantes de la muestra serán distintos).

Generalmente el tamaño del Marco Muestral, que representa lo que se suele llamar el

Universo de Estudio, es mucho mayor que el tamaño muestral. Por ejemplo, podemos

seleccionar una muestra de tamaño 400, ó 1000, o cualquier otro tamaño, de un Marco

Muestral que puede contener centenares de miles de unidades muestrales (elementos de

la lista que constituye el Marco Muestral), o incluso millones de unidades.muestrales.

Para que la muestra se considere probabilística y con capacidad de inferir a partir de sus

resultados, al Universo de Estudio, las unidades muestrales deben ser extraídas

utilizando números aleatorios. Cualquier otro tipo de extracción que no comprenda

números aleatorios en alguna etapa de la selección (en diseños muestrales multietápicos,

por ejemplo), no será probabilístico, y en consecuencia la inferencia será de exclusiva

responsabilidad del investigador, y éste no podrá (mejor dicho : no deberá) calcular

2

límites de error muestral a sus resultados, y obviamente, no podrá reclamar que su

muestra es probabilística., Si lo hace, se estará vistiendo con ropajes ajenos.

Este tipo de muestreo, el probabilístico, permite el cálculo de la precisión de las

estimaciones que se obtienen de su muestra, para todas las variables estudiadas. Para

estos cálculos el investigador se basará en las consecuencias del “Teorema del Límite

Central”, teorema importantísimo y que subyace toda la Teoría del Muestreo.

En pocas palabras, y muy simple y someramente, lo que este Teorema nos entrega, es el

conocimiento de la forma que asume la Distribución de Muestreo, conformada por todas

las muestras de igual tamaño e igual diseño muestral, que se pueden extraer de este

Universo. A la distribución a la que nos referimos, es a la distribución de frecuencias

relativas de los distintos valores que puede asumir la variable bajo estudio entre todas

las muestras que, en teoría al menos, se podrían extraer del Marco Muestral.

En pocas palabras, podemos decir que la forma que asume esta Distribución es la

llamada Distribución Normal , conocida también como Distribución de Gauss. Esta

distribución Normal se obtiene exactamente cuando la distribución de frecuencias de la

variable en el Universo de Estudio es Normal. Cuando la distribución de frecuencias de

la variable bajo estudio no es Normal en el Universo, la Distribución de Muestreo es

asintóticamente Normal, es decir, a medida que el tamaño muestral “n” aumenta y

tiende a infinito, la curva de la Distribución de Muestreo se aproxima a la Distribución

Normal. En realidad no es necesario llegar a tamaños muestrales tan grandes, pues con

tamaños muestrales que sean superiores a 60 casos ya tenemos una Distribución de

Muestreo bastante cercana a la curva Normal.

Además, cuando hablamos de la Distribución de Muestreo, que comprende todos los

resultados posibles de obtener de todas las muestras posibles de extraer del Marco

Muestral, debemos detenernos a evaluar cuán grande puede llegar a ser este número de

muestras distintas posibles de ser extraídas del Marco Muestral.

Nuevamente, y recordando que estamos hablando de Muestreo Aleatorio Simple, el

número de muestras distintas posibles de extraer del Marco Muestral es

!

! !

NK

n N n

Por ejemplo, supongamos que N, el tamaño del Universo, sea solamente 25 casos, y

“n”, el tamaño muestral, sea de 5. En este caso, tenemos

25!

5! 20 !K

Lo que nos da

3

21*22*23*24*2553,130

1*2*3*4*5K

Y suponiendo una muestra de 15 casos, tenemos

25!

3,268,76015! 10 !

K

Como vemos, con tamaños tan pequeños de Universo y de muestra, vemos la enorme

cantidad de muestras distintas que podemos extraer del Universo. Imaginémonos ahora,

por un momento, ( y si podemos ), calcular cuantas muestras distintas de tamaño 1000

podríamos extraer de un Universo de 8,000,000 de casos. Para nuestra tranquilidad y

poder satisfacer nuestra curiosidad, presentamos el resultado a continuación

Aquí está la respuesta :

2872270770989777733513734946002202734272230463999015522186727447384084\

2331597445519579147021302828804433302175119626455664253588422815952931\

3898708387303192189853214307319814799501609560073615849667635283706208\

6910717829981827876233387329770018964077871612695823786069048416780661\

5904257130390672566848252237583635415591887816407305524793998989790528\

8062770719709478621448858424331237596887234735860384908775303798841391\

0136658183198764873546385694998970807853230317299723293328524166503518\

8678741510232080225786108246422397574582602739471553454059583762203668\

9577141575738255915893565407791670281008139739967113966926401961787333\

7747331229638462891540052543339565637077712350132585870889432438578010\

4202208892991439538476399990687161771892922959690937795277702403110659\

0085708188123225488490596405659978587499269805458773531030203015265823\

0261794909639399962431857514806957314684561451460429824304912143866595\

3522119538985311794473122000247962840168460668650039478594870984298172\

7632604322361949497260366374818505889413868715389785466179490006567091\

4328154652131530904717598643652136735808078909694731411327722587042647\

4771856405333153207858392876356359210439728863322436112347270191276068\

6699663320902920224961411754386792748887203491782122476995928397467346\

4725113657775117877750757664527193673090784065525647432353050156726203\

9329930499927281889974905796552173524498560986701571402300633033834191\

1258452647379758869199543723820067982784667929030887482680453481856631\

9793237448807954985512094894990634842572749096860695326078166928731842\

4483707506352283220427200011898862186639365224354363810559736098228906\

2987388014863917403551185395993984726942438715990150992276935954798315\

7322043510346723751125789223036007859419555633854715316337822744934318\

4942480738963923963802304368219248687811633685505987974705757827387592\

1235479393426283975133163552850427569245198004435370328264092450302641\

3143421911981780431516632585106856678148399192405097170935275715168094\

2710282868835397468254924805419463376266483897175520483748080807000907\

8049445252142525299630272362641894631685342726028031836071935849854018\

4

4290231089286264116164464551894337480746343976026933476852767982874464\

3101624457930795924898692041232895578434312127134708218876710895032768\

4145673796303139918965835206241455927496524554892848163968497173687443\

6110376523264438036361311100233916303723390447846143306988919201410335\

8829583361775341264910181089284582033885832902983126990038948504583041\

8690968438016742275073820977881726341731033418218611622333182805663929\

0040841233190401341103468737765779453009971427325689711096377752598861\

3083428765870955407603638563889252340753286268769390781065015963201007\

5326728757828098344938611265231747765880070413693840053417174208552777\

8027301578273378826361055251170079053146995494003435975651204161400849\

8032723230359983604991447057685318412218822852181831162516841814003601\

3858284658257580004909087044224568727685552850732782329057656214438305\

4806595389451824256880944062576937799919464633089065227502556143677916\

4507022197852224190265134841250770053445389539695651011729467078577779\

5382724181463805442320719524089607360632659575428715940277964829096030\

4801710753489722253208358956578934108527675431419173059981121932246460\

4381803854755514047261004016743498491276762140561655110235274941394815\

4195587060396960303907367842288315660112548468250132070906447504235629\

5825409098149835025309856605945982069220808000147479170096819111995400\

0219106808277563644503785675640372745313168920684267440328166126988428\

2021391615525016792294746428915216421429148714412812173763432382978645\

4450451336587597629983292508938969328202993748155351297331167173707785\

9598136316348697082930483038517729438963526702084262296844285896847173\

5015086374257271139099860776710296890057471060892765476305036219843798\

9942239464078017019022745711081043010044097072003258978237518569946368\

9909822269739274743490012877924242181816470667458406099530486149155294\

0166785274302492677030950338966071186678233352999532496365403245116905\

3186483605937534582534643023945880802606824441140942035178249686430347\

5927579777103573397570313407520295161602327980816232980750583537759874\

7658780370415720776113471451319964110412882745707065410232568387055702\

1808698433578838886978365881063135161639782921831249077062906710524637\

545525998626601614346662901485130359254503632739813845320195392000

(Afortunadamente, nuestro programa “ Mathematica” pudo resolverlo)

Pero si prefieren ver este número en forma aproximada, éste se vería como

2.87 × 104335

Si recordamos que 2,87 millones se escribiría como 2,87 x 106 imaginemos a lo que

equivale la cantidad recién calculada, pues tenemos ahora el número 2,87 seguido por

4335 ceros en lugar de 6.

Sólo imaginemos que si existen 300.000.000.000 (trescientos mil millones) de estrellas

en promedio por galaxia, y se estima que hay 250.000.000.000 (doscientos cincuenta

mil millones) de galaxias en el universo, entonces tendríamos aproximadamente

7,5 x 1022 estrellas en el Universo completo. (comparemos este exponente de 22 con

4335). Cuesta imaginarse la enormidad de esta cifra.

Volviendo al tema que nos preocupa, si pudiéramos efectuar todas las encuestas

posibles, y suponiendo que nuestra variable de interés es la edad promedio del universo

de 8 millones de personas, tendríamos que promediar la edad en cada encuesta de 1000

5

personas y efectuar este cálculo 2,87 x 104335 veces . Si graficáramos los resultados

obtenidos para un número limitado de muestras aleatorias posibles, ( digamos unas

10.000), obtendríamos un histograma similar al presentado en el gráfico siguiente, pero

si pudiéramos efectuar el cálculo para TODAS las muestras posibles, obtendríamos una

Curva Normal, tal como lo demuestra el Teorema del Límite Central y se observa en el

gráfico siguiente con la Curva Normal superpuesta al histograma, y obtendríamos así

todos los resultados, desde el valor (edad promedio ) mínimo que podríamos obtener de

las 1000 personas más jóvenes de las 8 millones de personas que componen el Universo

de Estudio, y el promedio máximo obtenido de las 1000 personas de más edad de las 8

millones de personas que componen el Universo de Estudio. Entre estos 2 valores

extremos, estarían los valores ( edades promedio ) de las 2,87x104335 muestras restantes,

ordenadas de menor a mayor ( según la edad promedio calculada en cada muestra) en el

eje de las abscisas del gráfico siguiente

Este ejemplo fue basado en un Universo hipotético con edad promedio de 36 años y una

varianza de 49 años2.

De esta forma, la Distribución de Muestreo, suponiendo una muestra aleatoria simple,

tendría como parámetros una media de 36 años y un Desvío Standard (llamado Error

Standard por tratarse de la Distribución de Muestreo) de

2 491000

0.221n .

En esta Distribución de Muestreo, que contiene todos los resultados que se podrían

haber obtenido de haber realizado nuestra encuesta 2,87x104335 veces con muestras

aleatorias simples de tamaño 1000 cada una, el 95% de los resultados estarían entre

* . . y +z*e.s.z e s , donde “e.s.” simboliza el “Error Standard” y µ simboliza el

parámetro (valor real en el Universo), que en este ejemplo es la edad promedio. En

nuestro ejemplo estos límites serían 36 1.96*0.221 36 1.96*0.221y , es decir, entre

la Media del Universo menos 1.96 veces el Error Standard y la Media más 1.96 veces

6

el Error Standard. Efectuando los cálculos correspondientes, estos límites serían 35,57 y

36,43.

Si en lugar del 95% hubiéramos deseado obtener un intervalo que contenga el 99% de

los resultados de todas las muestras posibles, tendríamos que usar 2,58 en lugar de 1,96

como coeficiente. Y si quisiéramos obtener, por ejemplo, un intervalo que contenga el

99,73% de los resultados, tendríamos que utilizar como coeficiente el valor de 3 en

lugar de 1,96.

Como en la realidad desconocemos el valor real de la Media y del Error Standard,

nosotros utilizamos lo que denominamos Intervalo de Confianza, conformado por la

Media de nuestra única muestra a la cual luego le restamos y le sumamos,

simultáneamente, tal como lo hicimos con la Distribución de Muestreo, 1,96 veces el

Error Standard estimado, si queremos obtener un Nivel de Confianza del 95%, es decir,

si queremos tener una probabilidad del 95% de que el parámetro (valor real de la Media

en el Universo ) esté al interior de dicho intervalo (llamado Intervalo de Confianza). No

siempre lo que deseamos obtener es la estimación de la “Media”, pero en dichos casos,

y si lo que quisiéramos obtener es una estimación del “Total” de la variable en el

Universo, sólo debemos multiplicar la estimación de la Media obtenida de nuestra

muestra por “N”, el tamaño del Universo, el cual siempre es conocido cuando

trabajamos con el diseño denominado “Muestreo Aleatorio Simple.”.

Una última observación que deseamos plantear, es que el error standard que calculamos

a partir de nuestra única muestra, lo obtenemos remplazando σ2 en la fórmula

correspondiente al Error Standard

2

. . (1 )n

e sn N

por el estimador insesgado “s2” de la varianza poblacional “ 2 ”, valor que obtenemos

de nuestra muestra, obteniendo por lo tanto, como fórmula estimada del Error Standard

2

ˆ (1 )s n

esn N

Generalmente, y cuando el tamaño muestral “n” es mucho menor que el tamaño “N” del

Universo (digamos menor a un 5% del tamaño de “N”), el factor corrector de

poblaciones finitas (fcp)

1n

N

se elimina de la fórmula porque este factor tiende a 1

quedando ambas fórmulas como

7

2

. .e sn

y

2

ˆs

esn

respectivamente.

La diferencia entre ambas varianzas (el numerador de la fracción) es que mientras la

varianza poblacional se obtiene con la fórmula simple de la varianza

2

2 1

( )N

iX X

N

Donde N simboliza el tamaño del Universo y los Xi simbolizan el valor que asume la

variable X bajo estudio para cada uno de los elementos integrantes del Universo y X

es la media de la variable calculada para los N elementos del Universo

En cambio, la varianza poblacional estimada a partir de una muestra se obtiene en base

a la varianza muestral insesgada, la cual se define como

2

2 1ˆ1

n

ix x

sn

Donde “n” simboliza el tamaño muestral , xi el valor que asume la variable bajo estudio

para cada uno de los integrantes de la muestra , y x es la media muestral de la variable

X.

Este es el valor que se obtiene de nuestra muestra y se utiliza en la fórmula de cálculo

del Error Standard en lugar de σ2

En el caso de variables dicotómicas (o multicotómicas dicotomizadas ), el valor de la

varianza muestral insesgada “s2” es de

2 (1 )

1

np ps

n

Si aceptamos que

8

1

1

n

n

Y reemplazamos a (1-p) por la letra “q”, tenemos que el Error Standard estimado de

“p” ( la proporción de nuestra variable X en el Universo), sería de

. .pq

e sn

La cual es la fórmula generalmente utilizada para estos efectos en la literatura

estadística. Conviene sí señalar que esta fórmula sólo es válida para el caso del

Muestreo Aleatorio Simple y muchas veces se la utiliza, erróneamente, en el caso de

muestras obtenidas en base a otros diseños muestrales (muestreo estratificado, muestreo

de conglomerados, muestreo multietápico y otros diseños complejos).

Volviendo a nuestro ejemplo del Universo de 8 millones de personas con una edad

promedio de 36 años y varianza poblacional de 49 años2, pensemos en que extraemos

una muestra aleatoria simple de tamaño 1000 de dicho universo.

Como ya hemos visto anteriormente, un 95% de todas las muestras posibles arrojarían

una estimación de la edad promedio entre los valores de 35,57 y 36,43.

Supongamos que nuestra muestra arroja una media de 35,86 años, y queremos estimar

el intervalo de Confianza a un nivel de confianza del 99%. En otras palabras, queremos

encontrar un Intervalo de Confianza dentro del cual tendremos una seguridad de un 99%

que el parámetro buscado (es decir la edad promedio real del Universo) está ubicada en

su interior.

Puesto que no conocemos la varianza poblacional real (que en párrafos anteriores

supusimos conocida solamente para poder explicar la definición de la Distribución de

Muestreo), tendremos que recurrir a nuestra estimación insesgada de la varianza

poblacional, es decir, tendremos que recurrir a utilizar “s2” para poder estimar, a su vez,

el error standard de nuestra estimación de la media poblacional y a su vez, poder

construir nuestro Intervalo de Confianza.

Supongamos que el valor de “s2” que obtuvimos de nuestra única muestra es de 64

años2. Luego, nuestra estimación del error standard será de

640.253

1000

En lugar del valor real de 0.221 obtenido cuando utilizamos la varianza poblacional

real, la cual en la enorme mayoría de los casos es desconocida, por razones obvias,

puesto que para obtenerla deberíamos efectuar un censo del Universo, en cuyo caso

también podríamos conocer el parámetro de interés (en este caso la edad promedio

poblacional), y sin margen de error muestral pues estamos hablando de efectuar un

9

Censo. Siendo así, y conociendo todo lo que queremos, ¿ para qué necesitaríamos

efectuar una encuesta muestral para estimar dicho parámetro?.

Construyamos ahora nuestro Intervalo de Confianza basándonos en la información

proporcionada por nuestra única muestra. El nivel de confianza deseado, como lo

dijimos en párrafos anteriores es de 99%

El promedio estimado es de 35,86 años y el error standard estimado es de 0,253, luego

el límite inferior del Intervalo de Confianza será de 35,86 – 2,58*0.253 = 35,21 y el

límite superior del Intervalo será de 35,86 + 2,58*0.253 = 36,51

Y, realmente, el parámetro poblacional, 36 años de edad promedio, en el Universo, está

ubicado al interior de este Intervalo.

Lo que nos dice este Nivel de Confianza del 99% es que de cada 100 muestras aleatorias

que extraigamos de este universo, con igual diseño muestral y de igual tamaño, en 99 de

ellas, al formar el Intervalo de Confianza correspondiente, el parámetro de interés estará

ubicado en su interior.

Como en la práctica nosotros sólo trabajamos con UNA muestra, no podemos saber si

esta muestra pertenece al grupo de las 99 de cada 100 que contienen el parámetro, o es,

por mala suerte, la única muestra de las 100 cuyo Intervalo de Confianza no contiene el

parámetro en su interior. Por dicha causa, nosotros hablamos de probabilidades y

utilizamos el término “Nivel de Confianza” como sinónimo de “Probabilidad”.

Así es como decimos que la probabilidad o Nivel de Confianza de que nuestro Intervalo

de Confianza contenga el parámetro es del 99% ( en este ejemplo es de 99%, puesto que

normalmente se acostumbra trabajar con un 95%, aunque W.E. Deming recomienda

fervientemente trabajar con un Nivel de Confianza del 99,73%).

Este valor del 99,73% parece un poco raro y la respuesta es más bien anecdótica. ¿Por

qué justamente 99,73% ? La respuesta es que en los tiempos en que Deming escribió su

famoso texto “Sample Design in Business Research” ( 1960) no existían los

computadores como hoy en día, y entonces el coeficiente “z” que multiplica el error

standard para lograr este Nivel de Confianza sería exactamente de 3, y no 1,96 ó 2,58,

por lo cual, los cálculos manuales serían mucho más fáciles de realizar.

En todo caso, él justificaba entregar al cliente, investigador o usuario final del estudio,

un Intervalo de Confianza que contuviera prácticamente con seguridad el parámetro

buscado por razones éticas y principalmente pragmáticas, especialmente cuando el

cliente debe tomar decisiones importantes en base a los resultados del Estudio.

CONCLUSIONES PRINCIPALES

Uno de los problemas principales con este tipo de muestreo clásico, es que la varianza

poblacional debe estimarse a partir de los resultados de nuestra única muestra y así

nuestro Intervalo de Confianza se calcula utilizando dicha única estimación de la

varianza. En el ejemplo pasado, la estimación del error standard, basándose en la

varianza estimada a partir de la muestra fue de 0.253 en lugar del valor verdadero de

0.221. Y es esta desventaja que el remuestreo - utilizando la técnica del Bootstrap

soluciona en forma muy satisfactoria, entregándonos paralelamente a la Distribución de

Muestreo de la variable de interés (digamos la “Media”), una Distribución de Muestreo

de las estimaciones de la varianza poblacional, Distribución de Muestreo calculada a

partir de un número muy grande de muestras replicadas, como mostraremos a

continuación.

10

REMUESTREO POR BOOTSTRAP

Explicaremos la técnica del bootstrap con un ejemplo muy simple.

Pare ello nos basaremos en el Censo de Población y Viviendas del año 2002 y nuestra variable

de interés será la “Edad”.

Para ello, comenzaremos por presentar una tabla con la distribución de la población de

Chile en dicho Censo, según edades. Los 214.705 personas de 0 años de edad se

entenderán como personas entre los 0 años (recién nacidos) y 1 año de edad, etc.

Luego presentaremos esta tabla, como un gráfico con la distribución de las edades en la

población de 14.116.435 personas censadas.

EDAD PERSONAS EDAD PERSONAS EDAD PERSONAS EDAD PERSONAS

0 214.705 28 247.809 55 124.460 82 30.356

1 221.900 29 241.803 56 128.128 83 22.844

2 227.041 30 251.695 57 120.425 84 22.122

3 239.463 31 228.894 58 120.354 85 19.167

4 247.967 32 242.448 59 110.607 86 17.707

5 250.591 33 240.782 60 114.370 87 15.486

6 256.762 34 236.372 61 93.593 88 12.589

7 265.983 35 236.410 62 110.521 89 10.181

8 267.763 36 249.598 63 93.462 90 8.408

9 275.499 37 251.709 64 87.956 91 6.033

10 281.210 38 253.499 65 100.868 92 6.394

11 289.381 39 243.784 66 79.612 93 4.267

12 294.595 40 247.780 67 80.405 94 3.294

13 283.923 41 215.779 68 71.455 95 2.553

14 273.343 42 257.345 69 66.947 96 2.247

15 282.925 43 221.242 70 75.281 97 1.613

16 252.414 44 189.612 71 65.685 98 1.398

17 246.365 45 194.042 72 79.576 99 1.208

18 249.000 46 185.977 73 66.713 100 260

19 249.385 47 184.320 74 60.863 101 184

20 256.905 48 178.060 75 55.348 102 159

21 243.985 49 162.267 76 47.606 103 126

22 242.145 50 161.106 77 41.522 104 84

23 233.775 51 143.357 78 42.185 105 116

24 224.616 52 172.308 79 32.670 106 80

25 222.775 53 143.445 80 35.431 107 72

26 232.199 54 138.787 81 26.401 108 60

27 248.138

11

Ahora supongamos que tenemos un Marco Muestral del cual extraer una “Muestra

Aleatoria Simple”, y este Marco Muestral consiste de una lista con los nombres de las

14.116.435 de personas censadas. Lógicamente, en la práctica, esta lista no existe, pero

para los efectos de nuestro ejemplo supondremos que ella sí existe.

Para los efectos de comparación con el remuestreo en base a la técnica del Bootstrap,

extraeremos una muestra aleatoria simple de tamaño 1000 como en el ejemplo del

muestreo clásico..

NOTA: PARA TODOS LOS EFECTOS DE ESTE EJEMPLO, HEMOS UTILIZADO

EL LENGUAJE DE PROGRAMACION “Mathematica”, de modo que los resultados

que ofreceremos se adecúen a los supuestos de aleatoriedad (y por lo tanto, “no son

datos inventados” para ilustrar el ejemplo)

Muestra Aleatoria de tamaño 1000:

muestra1=RandomSample[marco,1000]

{65,68,23,55,20,69,25,5,4,24,35,34,75,25,20,3,4,30,70,54,80,9,42,12,22,43,15,32,7,25,53,18,14,5,2,53,45

,42,62,7,81,16,12,62,8,33,57,2,28,35,48,19,12,20,29,43,30,47,1,34,25,19,31,20,7,6,50,32,9,21,6,43,37,38,

3,50,48,7,22,22,60,42,19,1,5,47,9,41,57,51,2,41,43,46,17,8,56,56,19,17,14,15,54,30,25,74,50,34,47,27,26

,52,92,46,39,18,31,43,22,6,27,44,14,34,16,5,33,22,67,47,11,8,32,34,41,9,11,28,7,37,11,28,3,54,30,25,36,

52,11,35,12,43,14,15,0,4,1,20,6,50,38,20,34,8,9,45,68,44,11,49,43,14,48,56,25,34,60,24,3,11,4,20,32,37,

47,36,46,8,3,7,31,63,39,10,24,41,23,41,27,12,28,4,9,10,49,44,42,71,40,16,39,49,61,26,35,25,6,32,75,71,5

4,35,47,18,42,16,53,19,9,65,31,8,34,12,40,35,42,7,74,37,38,31,0,21,12,7,9,40,55,27,39,2,36,12,53,54,19,

34,9,6,28,39,8,56,2,37,1,23,50,19,49,60,28,36,22,3,19,37,1,47,46,3,11,15,52,9,72,44,1,10,34,65,29,11,23,

44,4,47,40,64,36,42,0,1,36,14,56,19,41,24,14,5,53,53,36,79,39,72,15,9,19,56,65,47,27,54,5,70,47,51,14,2

2,41,41,14,0,62,5,25,65,5,38,36,29,11,48,21,22,25,24,12,23,49,5,37,14,54,18,3,6,28,71,55,52,2,62,5,20,5,

26,46,35,17,50,37,1,30,43,39,24,23,22,18,7,8,32,15,38,23,37,27,71,41,33,19,15,20,7,12,11,38,37,38,4,9,1

2,38,15,12,36,3,44,70,25,66,28,22,57,23,36,48,11,69,40,65,47,3,35,61,13,9,36,44,4,19,97,19,13,8,39,14,4

12

2,60,56,11,15,67,7,6,18,12,16,17,17,45,36,16,46,55,52,32,43,30,52,51,21,49,27,23,39,44,50,15,30,11,12,

33,27,26,4,27,36,2,51,3,80,17,69,44,9,37,15,43,2,10,55,24,37,19,13,8,44,7,9,26,47,32,12,55,8,3,5,70,40,1

2,81,39,57,6,7,45,10,50,56,45,24,15,28,44,73,52,64,56,86,17,24,50,22,20,43,55,32,57,44,8,15,36,74,28,3

9,13,35,68,62,6,17,13,22,26,10,37,58,20,41,16,1,9,50,61,35,39,45,47,28,46,31,5,14,10,52,26,21,40,23,44,

14,51,11,60,19,18,34,74,33,32,13,51,7,0,34,8,11,64,61,52,10,35,33,14,7,36,3,33,10,62,0,14,43,8,32,4,44,

31,58,0,5,23,4,17,36,9,41,25,11,26,9,18,27,20,62,26,79,8,35,42,41,25,51,31,22,33,17,20,22,44,19,21,71,2

8,10,15,8,42,18,40,6,11,15,42,21,36,38,86,52,37,18,57,5,3,25,12,2,34,11,18,60,50,17,10,8,45,23,76,20,29

,7,72,35,5,26,43,5,89,38,28,7,5,5,50,28,13,54,51,38,12,20,69,81,18,42,70,45,34,19,89,52,54,30,2,37,37,8,

17,8,62,35,60,19,12,22,17,26,5,29,52,36,35,42,68,2,3,11,36,60,27,47,39,22,24,7,45,52,67,82,12,63,62,19,

62,71,3,2,46,60,30,8,16,31,64,47,56,41,4,61,60,27,29,42,36,52,8,52,48,43,40,16,33,36,31,11,43,9,14,44,5

5,16,26,43,24,39,31,11,29,15,45,10,51,12,30,49,39,6,12,17,3,21,22,22,49,4,17,5,12,35,44,52,36,8,37,30,5

3,63,41,24,1,9,4,19,70,58,35,12,45,4,48,39,34,18,13,16,38,89,11,16,6,37,43,37,70,3,6,62,55,57,40,61,5,1

3,38,46,1,16,25,7,21,3,2,22,45,33,7,28,42,31,20,77,37,32,8,87,41,28,88,57,37,13,29,33,47,37,28,43,53,28

,65,23,19,13,30,42,41,25,18,38,28,70,9,42,35,42,24,31,27,4,34,18,29,41,85,38,6,41,48,7,24,70,4,51,43,48

,78,54,36,46,40,70,70,16,24,50,16,29,33,23,6,73,42,23,31,6,41,2,32,26,26,18,28,26,32,35,18,48,6,41,24,3

5,62,41,16,78,53,46,18,16,18,27,11,48,38,4}

(Esta muestra incluye las edades de las 1000 personas seleccionadas aleatoriamente).

A continuación presentaremos el gráfico de la distribución de las edades de estas 1000 personas,

en forma similar a lo que hicimos con la población total del país. Este histograma presenta una

estimación de la distribución de la variable “EDAD” a nivel de la población total del país. Al

compararla con el histograma precedente, el cual realmente representa la distribución censal del

total de la población, se observa sólo un mediano grado de similitud.

A continuación presentamos los parámetros de interés: La Edad promedio de la población y la

Varianza poblacional, tanto para el Censo como para la muestra:

Censo: 14.116.435 casos

Edad promedio = 31,60

Varianza = 432,89

13

Muestra : 1000 casos

Edad promedio = 31,22

Varianza = 412,00

Al comparar la estimación de la edad promedio de la muestra con el promedio real

basado en el Censo (el cual generalmente no es conocido, pues si lo fuera no habría

necesidad de estimarlo en base a una muestra), observamos que la estimación es muy

precisa.

La estimación de la Varianza ya no es tan precisa, pero puesto que normalmente

nosotros no conocemos el valor real de la varianza, deberemos estimar el “Error

Standard” en base a la varianza encontrada en la muestra:

e.s. =

412

1000

e.s. = 0.642

y el error muestral, para un Nivel de Confianza del 95%, sería

e.m. = 1.96*0.642 = 1.26

por lo tanto, nuestro Intervalo de Confianza para un Nivel de Confianza del 95 %

sería de

31,22 - 1,26 = 29,96 como límite inferior

y

31,22 + 1,26 = 32,48 como límite superior

Y puesto que en este caso, ya conocemos el valor real (censal) de la edad promedio

(31,60 ), ésta realmente se encuentra al interior del intervalo : 29,96 ~~~32,48.

En este caso, el muestreo clásico y la estimación obtenida a partir de los resultados de

nuestra única muestra demostró ser muy preciso.

A continuación veremos cómo se procede con el remuestreo a partir de la técnica del

bootstrap.

Supongamos que obtuvimos los resultados de esta muestra de 1000 casos y quisiéramos

obtener una estimación no basada solamente en el teorema del Límite Central, sino en

base a un experimento empírico.

Como primer paso, debemos construir un Universo virtual que se conoce bajo el

nombre de “Universo No-Paramétrico” a partir de nuestra única muestra. Para ello

observamos que nuestra muestra es autoponderada, vale decir, todas las unidades

muestrales (las 15,116.435 personas del Universo), tienen igual probabilidad de

selección. Por lo tanto el programa multiplica cada caso de la muestra por el recíproco

14

de la fracción muestral que es de 1000/15,116,435. El recíproco es: 15.116,4

(redondeando los 2 últimos decimales).

Con este valor, creamos un Universo no-paramétrico de 15.116.400 casos en los que

cada valor (edad) de la muestra, se repite 15.116 veces, lo que nos da un total de

15.116.000 casos. Los 400 casos restantes, el programa los calcula en base a una

selección aleatoria de 400 de los 1000 datos de la muestra original, y los agrega a los

15.116.000 restantes, para formar un Universo no-paramétrico de 15.116.400 casos.

Una vez obtenido este Universo no-paramétrico, el programa selecciona una gran

cantidad de muestras a partir de este Universo. A estas muestras las llamaremos

“remuestras”, y cuya cantidad la fija el investigador. En este ejemplo, decidimos

seleccionar 5.000 muestras de tamaño 1,000 cada una. Y de ahí, obtuvimos nuestras

estimaciones (5.000 estimaciones exactamente), márgenes de error muestral, y

estimaciones no sólo de la edad promedio, sino también 5.000 estimaciones de la

Varianza poblacional. El programa finalmente presenta los gráficos correspondientes.

SAMPLE SIZE 1000

UNIVERSE SIZE 15,116,000

NUMBER OF DIFERENT NON PARAMETRIC POPULATIONS DEFINED 1

NUMBER OF RESAMPLES FROM EACH NON PARAMETRIC POPULATION 5,000

CONFIDENCE LEVEL 95.

PARAMETER BEING ESTIMATED MLEWeightedVariance

ESTIMATED PARAMETER MLEWeightedVariance 411.59191

STANDARD ERROR OF THE : MLEWeightedVariance 16.18943

ACCELERATION CONSTANT 0.01498

BIAS ADJUSTMENT COEFFICIENT 0.51260

LOWER LIMIT OF THE MLEWeightedVariance 382.170

UPPER LIMIT OF THE MLEWeightedVariance 446.023

ESTIMATED RELATIVE SAMPLING ERROR OF THE WEIGHTED MEAN 0.04024

ESTIMATED RELATIVE SAMPLING ERROR OF THE WEIGHTED MEAN, USING LOWER LIMIT VARIANCE 0.03878

15

De los datos desplegados, se puede ver que la Varianza estimada por el bootstrap de

5000 muestras, es de 411,6, valor muy similar a la estimación obtenida de nuestra única

muestra (412,0), pero en ambos casos bastante por debajo del valor real de la varianza a

nivel poblacional, que es de 432,89.

Sin embargo, mientras que con nuestra única muestra aleatoria no estamos en

condiciones de estimar un intervalo de confianza para la Varianza, con el bootstrap lo

hemos calculado al nivel de confianza deseado del 95 %, con los límites inferior y

superior de 382,17 y 446,02 respectivamente, como se desprende de la información

presentada en la página precedente. Y efectivamente, la Varianza real se encuentra al

interior de este intervalo de confianza. Recordemos que su valor es de 432,89.

Con estos valores, estamos en condiciones de formar 3 Intervalos de confianza para la

edad promedio que es el parámetro buscado. Obviamente se puede formar cualquier

número de Intervalos alternativos, y no necesariamente 3, y lógicamente también se

puede trabajar con Niveles de Confianza distintos al 95%

En este artículo, y para este ejemplo hemos preferido efectuar el análisis con 3

alternativas de Intervalos de Confianza. En el primer caso, utilizamos un Intervalo de

Confianza cuyos márgenes de error muestral fueron calculados a partir de la estimación

de la varianza poblacional basada en su límite inferior de 382,17. Luego formamos un

Intervalo de Confianza basado en la Varianza promedio de las 5000 estimaciones, de

411,6, y finalmente formamos un intervalo de confianza utilizando la estimación de la

varianza basada en su límite superior de 446,02

Estos 3 intervalos se presentan en esta página. Y las estimaciones de la edad poblacional

promedio no difieren mucho entre sí, aunque en otras ocasiones pueden diferir bastante,

cuando los límites inferior y superior de la estimación de la varianza poblacional están

muy alejados entre sí.

El investigador es libre de trabajar en base al Intervalo que le parezca más lógico en

función del problema que está tratando,.

En este caso, no tenemos mayores problemas, pues podemos basarnos en cualquiera de

los 3 intervalos. Los 3 intervalos incluyen en su interior el parámetro buscado, que es la

edad promedio de la población de Chile.

ESTIMATED RELATIVE SAMPLING ERROR OF THE WEIGHTED MEAN, USING UPPER LIMIT VARIANCE 0.04189

ESTIMATED WEIGHTED MEAN 31.24424

ESTIMATED 95 CONFIDENCE INTERVAL FOR THE MEAN, BASED ON THE LOWER ESTIMATE OF THE VARIANCE 30.032597 32.455892

ESTIMATED 95 CONFIDENCE INTERVAL FOR THE MEAN, BASED ON THE MEAN ESTIMATE OF THE VARIANCE 29.986821 32.501668

ESTIMATED 95 CONFIDENCE INTERVAL FOR THE MEAN, BASED ON THE UPPER ESTIMATE OF THE VARIANCE 29.93528 32.553206

16

A continuación presentamos los histogramas correspondientes a las estimaciones de las

5000 varianzas (primer histograma) y a la estimación de las 5000 edades promedio.

En ambas situaciones las 5000 estimaciones se refieren a los resultados obtenidos de las

5000 muestras aleatorias que el programa extrajo del Universo no paramétrico.

17

Gracias al lenguaje de programación Mathematica y a la existencia de los computadores

modernos y de alta velocidad, hemos logrado presentar exitosamente un ejemplo de la

bondad del Resampling.

En el precedente ejemplo sólo hemos aprovechado el Resampling para estimar

Intervalos de Confianza no solamente del parámetro que deseamos estimar, que en este

caso era la edad promedio de la población de Chile, sino también el Intervalo de

Confianza para la Varianza, lo que nos dio la posibilidad de calcular varios intervalos de

Confianza alternativos para la estimación del parámetro objetivo principal del Estudio.

Como ya dijimos, con el muestreo clásico, nombre por el cual definimos la ejecución de

una única muestra no podríamos haber logrado estos resultados.

Tenemos sí que señalar que para la aplicación del Resampling, debemos contar

necesariamente con la realización de una única muestra original, pero tenemos ahora la

ventaja de que podemos enriquecer el análisis de los resultados, agregando a las

estimaciones convencionales basadas en la muestra única, las estimaciones de los

intervalos de confianza basados en el Resampling.

Desearíamos agregar que no solamente podemos lograr obtener las Distribuciones de

Muestreo de la Varianza, sino también hemos podido lograr con la aplicación de este

programa especial, las Distribuciones de Muestreo de los siguientes estadígrafos:

1.- Coeficiente de Correlación de Pearson

2.- Coeficiente de Asimetría (“Skewness”)

3.- Coeficiente de Apuntamiento (“Kurtosis”)

4.- Coeficiente de Correlación ponderada (cuando la muestra no es autoponderada)

5.- Coeficiente de Asimetría ponderada (cuando la muestra no es autoponderada)

6.- Coeficiente de Apuntamiento ponderado (cuando la muestra no es autoponderada)

7.- Covarianza

8.- Covarianza ponderada (cuando la muestra no es autoponderada)

9.- La Mediana

10.-La Moda

11.- Los Percentiles que se desee

En general se pueden estimar las Distribuciones de Muestreo de prácticamente todos los

estadígrafos de posición y de dispersión, aunque en la práctica las estimaciones más

comúnmente utilizadas se centran en la varianza (para los efectos prácticos de estimar

los márgenes de error muestral), y en las estimaciones de los parámetros de interés de

los estudios, los cuales son principalmente: Medias, Proporciones, Totales y

estimadores de Razón.

Cabe señalar, y éste es un punto muy importante, que la mayoría de los Estudios

muestrales científicos, vale decir, basados en muestras probabilísticas (Estudios de

Mercado y Estudios de Opinión Pública) son basados en diseños complejos,

(generalmente de conglomerados y multietápicos), por lo cual las muestras resultantes

en su mayoría no son autoponderadas, en otras palabras las unidades muestrales finales

tienen distintas probabilidades de selección.

Si bien existen fórmulas para el cálculo de las estimaciones de los parámetros y para las

estimaciones de los márgenes de error muestral para estos estudios con diseños

18

muestrales complejos, estas fórmulas son generalmente de muy difícil aplicación, a

menos que se trabaje con algunos diseños muestrales sofisticados, como es, por

ejemplo, el muestreo interpenetrante de Mahalanobis, también conocido como el

Muestreo Replicado de W. E. Deming. u otros diseños sofisticados similares que

ofrecen fórmulas relativamente más simples de aplicar.

Como consecuencia de estas dificultades presentadas en los diseños complejos, quienes

intenten basarse inocentemente en el Teorema del Límite Central con su

correspondiente Distribución de Muestreo basada en la Curva Normal, corren el riesgo

de obtener estimaciones sesgadas de los parámetros de interés y márgenes de error

muestral incorrectos, los que generalmente subestiman el verdadero valor de estos

márgenes de error, y a veces en forma grosera.

Afortunadamente la técnica del Resampling nos proporciona una solución mucho más

confiable, al presentarnos para cada variable, una evidencia empírica de la verdadera

naturaleza (forma) de la Distribución de Muestreo que le corresponde y, en

consecuencia, Intervalos de Confianza mucho más confiables que si aplicáramos las

fórmulas tradicionales del muestro clásico.

comparación entre el muestreo probabilístico clásico y el...

Documents

Transcript of comparación entre el muestreo probabilístico clásico y el...