comparación entre el muestreo probabilístico clásico y el...
Transcript of comparación entre el muestreo probabilístico clásico y el...
COMPARACIO N ENTRE EL MUESTREO
PROBABILI STICO CLA SICO Y EL REMUESTREO
Este artículo trata principalmente sobre la diferencia entre el Muestreo
Aleatorio Simple y el Muestreo por Bootstrap en el cálculo de los
márgenes de error muestral en las encuestas por Muestreo Probabilístico
Gabriel Davidovics M.
Se explica el
Remuestreo en base
a las técnicas del
Bootstrap
1
COMPARACIÓN ENTRE EL MUESTREO CLÁSICO Y EL
REMUESTREO
BASADO EN LA TÉCNICA DEL BOOTSTRAP
El bootstrap es un tipo de técnica de remuestreo de datos que permite resolver
problemas relacionados con la estimación de intervalos de confianza o la prueba de
significación estadística. Este enfoque puede resultar de interés para los investigadores
en Estudios de Mercado y de Opinión Pública, no sólo porque es menos restrictivo que
el enfoque estadístico clásico, sino también porque es más general en su formulación y
más simple de comprender en lo referente al procedimiento básico que subyace al
método. En lugar de fórmulas o modelos matemáticos abstractos, el bootstrap
simplemente requiere un computador capaz de simular diversos procesos de muestreo
aleatorio de los datos. Sin embargo, y debido quizás a la escasa difusión de la técnica,
los investigadores aún no han incorporado el bootstrap al repertorio habitual de
herramientas de análisis de datos.
Las computadoras modernas han abierto las puertas para un tratamiento en profundidad
de las bases de datos y análisis de datos, algo que antes era inconcebible. La
visualización dinámica de datos, la simulación y los métodos de remuestreo son
algunos ejemplos de enfoques que, apoyados en las capacidades de los computadores
modernos, han enriquecido el trabajo de exploración y análisis estadístico de datos. La
relación entre computadores y la inferencia estadística además del análisis científico de
datos es patente para el caso de las llamadas técnicas de remuestreo de datos (‘data
resampling’), entre las que encontramos en primer lugar de importancia ( cuando nos
referimos a las encuestas probabilísticas), el Bootstrap.
La diferencia fundamental entre el muestreo clásico y el “Remuestreo por Bootstrap”,
se aclara a continuación, con un ejemplo simple basado en el diseño básico denominado
“muestreo aleatorio simple.”
MUESTREO PROBABILÍSTICO CLÁSICO
En este simple diseño muestral, se extrae una muestra de tamaño “n” , de una lista
(Marco Muestral) de tamaño “N”, utilizando para ello números aleatorios.
La selección puede ser con reposición (es decir un mismo número puede ser extraído en
más de una ocasión y con ello, la muestra puede contener elementos repetidos ), o sin
reposición (es decir, todos los integrantes de la muestra serán distintos).
Generalmente el tamaño del Marco Muestral, que representa lo que se suele llamar el
Universo de Estudio, es mucho mayor que el tamaño muestral. Por ejemplo, podemos
seleccionar una muestra de tamaño 400, ó 1000, o cualquier otro tamaño, de un Marco
Muestral que puede contener centenares de miles de unidades muestrales (elementos de
la lista que constituye el Marco Muestral), o incluso millones de unidades.muestrales.
Para que la muestra se considere probabilística y con capacidad de inferir a partir de sus
resultados, al Universo de Estudio, las unidades muestrales deben ser extraídas
utilizando números aleatorios. Cualquier otro tipo de extracción que no comprenda
números aleatorios en alguna etapa de la selección (en diseños muestrales multietápicos,
por ejemplo), no será probabilístico, y en consecuencia la inferencia será de exclusiva
responsabilidad del investigador, y éste no podrá (mejor dicho : no deberá) calcular
2
límites de error muestral a sus resultados, y obviamente, no podrá reclamar que su
muestra es probabilística., Si lo hace, se estará vistiendo con ropajes ajenos.
Este tipo de muestreo, el probabilístico, permite el cálculo de la precisión de las
estimaciones que se obtienen de su muestra, para todas las variables estudiadas. Para
estos cálculos el investigador se basará en las consecuencias del “Teorema del Límite
Central”, teorema importantísimo y que subyace toda la Teoría del Muestreo.
En pocas palabras, y muy simple y someramente, lo que este Teorema nos entrega, es el
conocimiento de la forma que asume la Distribución de Muestreo, conformada por todas
las muestras de igual tamaño e igual diseño muestral, que se pueden extraer de este
Universo. A la distribución a la que nos referimos, es a la distribución de frecuencias
relativas de los distintos valores que puede asumir la variable bajo estudio entre todas
las muestras que, en teoría al menos, se podrían extraer del Marco Muestral.
En pocas palabras, podemos decir que la forma que asume esta Distribución es la
llamada Distribución Normal , conocida también como Distribución de Gauss. Esta
distribución Normal se obtiene exactamente cuando la distribución de frecuencias de la
variable en el Universo de Estudio es Normal. Cuando la distribución de frecuencias de
la variable bajo estudio no es Normal en el Universo, la Distribución de Muestreo es
asintóticamente Normal, es decir, a medida que el tamaño muestral “n” aumenta y
tiende a infinito, la curva de la Distribución de Muestreo se aproxima a la Distribución
Normal. En realidad no es necesario llegar a tamaños muestrales tan grandes, pues con
tamaños muestrales que sean superiores a 60 casos ya tenemos una Distribución de
Muestreo bastante cercana a la curva Normal.
Además, cuando hablamos de la Distribución de Muestreo, que comprende todos los
resultados posibles de obtener de todas las muestras posibles de extraer del Marco
Muestral, debemos detenernos a evaluar cuán grande puede llegar a ser este número de
muestras distintas posibles de ser extraídas del Marco Muestral.
Nuevamente, y recordando que estamos hablando de Muestreo Aleatorio Simple, el
número de muestras distintas posibles de extraer del Marco Muestral es
!
! !
NK
n N n
Por ejemplo, supongamos que N, el tamaño del Universo, sea solamente 25 casos, y
“n”, el tamaño muestral, sea de 5. En este caso, tenemos
25!
5! 20 !K
Lo que nos da
3
21*22*23*24*2553,130
1*2*3*4*5K
Y suponiendo una muestra de 15 casos, tenemos
25!
3,268,76015! 10 !
K
Como vemos, con tamaños tan pequeños de Universo y de muestra, vemos la enorme
cantidad de muestras distintas que podemos extraer del Universo. Imaginémonos ahora,
por un momento, ( y si podemos ), calcular cuantas muestras distintas de tamaño 1000
podríamos extraer de un Universo de 8,000,000 de casos. Para nuestra tranquilidad y
poder satisfacer nuestra curiosidad, presentamos el resultado a continuación
Aquí está la respuesta :
2872270770989777733513734946002202734272230463999015522186727447384084\
2331597445519579147021302828804433302175119626455664253588422815952931\
3898708387303192189853214307319814799501609560073615849667635283706208\
6910717829981827876233387329770018964077871612695823786069048416780661\
5904257130390672566848252237583635415591887816407305524793998989790528\
8062770719709478621448858424331237596887234735860384908775303798841391\
0136658183198764873546385694998970807853230317299723293328524166503518\
8678741510232080225786108246422397574582602739471553454059583762203668\
9577141575738255915893565407791670281008139739967113966926401961787333\
7747331229638462891540052543339565637077712350132585870889432438578010\
4202208892991439538476399990687161771892922959690937795277702403110659\
0085708188123225488490596405659978587499269805458773531030203015265823\
0261794909639399962431857514806957314684561451460429824304912143866595\
3522119538985311794473122000247962840168460668650039478594870984298172\
7632604322361949497260366374818505889413868715389785466179490006567091\
4328154652131530904717598643652136735808078909694731411327722587042647\
4771856405333153207858392876356359210439728863322436112347270191276068\
6699663320902920224961411754386792748887203491782122476995928397467346\
4725113657775117877750757664527193673090784065525647432353050156726203\
9329930499927281889974905796552173524498560986701571402300633033834191\
1258452647379758869199543723820067982784667929030887482680453481856631\
9793237448807954985512094894990634842572749096860695326078166928731842\
4483707506352283220427200011898862186639365224354363810559736098228906\
2987388014863917403551185395993984726942438715990150992276935954798315\
7322043510346723751125789223036007859419555633854715316337822744934318\
4942480738963923963802304368219248687811633685505987974705757827387592\
1235479393426283975133163552850427569245198004435370328264092450302641\
3143421911981780431516632585106856678148399192405097170935275715168094\
2710282868835397468254924805419463376266483897175520483748080807000907\
8049445252142525299630272362641894631685342726028031836071935849854018\
4
4290231089286264116164464551894337480746343976026933476852767982874464\
3101624457930795924898692041232895578434312127134708218876710895032768\
4145673796303139918965835206241455927496524554892848163968497173687443\
6110376523264438036361311100233916303723390447846143306988919201410335\
8829583361775341264910181089284582033885832902983126990038948504583041\
8690968438016742275073820977881726341731033418218611622333182805663929\
0040841233190401341103468737765779453009971427325689711096377752598861\
3083428765870955407603638563889252340753286268769390781065015963201007\
5326728757828098344938611265231747765880070413693840053417174208552777\
8027301578273378826361055251170079053146995494003435975651204161400849\
8032723230359983604991447057685318412218822852181831162516841814003601\
3858284658257580004909087044224568727685552850732782329057656214438305\
4806595389451824256880944062576937799919464633089065227502556143677916\
4507022197852224190265134841250770053445389539695651011729467078577779\
5382724181463805442320719524089607360632659575428715940277964829096030\
4801710753489722253208358956578934108527675431419173059981121932246460\
4381803854755514047261004016743498491276762140561655110235274941394815\
4195587060396960303907367842288315660112548468250132070906447504235629\
5825409098149835025309856605945982069220808000147479170096819111995400\
0219106808277563644503785675640372745313168920684267440328166126988428\
2021391615525016792294746428915216421429148714412812173763432382978645\
4450451336587597629983292508938969328202993748155351297331167173707785\
9598136316348697082930483038517729438963526702084262296844285896847173\
5015086374257271139099860776710296890057471060892765476305036219843798\
9942239464078017019022745711081043010044097072003258978237518569946368\
9909822269739274743490012877924242181816470667458406099530486149155294\
0166785274302492677030950338966071186678233352999532496365403245116905\
3186483605937534582534643023945880802606824441140942035178249686430347\
5927579777103573397570313407520295161602327980816232980750583537759874\
7658780370415720776113471451319964110412882745707065410232568387055702\
1808698433578838886978365881063135161639782921831249077062906710524637\
545525998626601614346662901485130359254503632739813845320195392000
(Afortunadamente, nuestro programa “ Mathematica” pudo resolverlo)
Pero si prefieren ver este número en forma aproximada, éste se vería como
2.87 × 104335
Si recordamos que 2,87 millones se escribiría como 2,87 x 106 imaginemos a lo que
equivale la cantidad recién calculada, pues tenemos ahora el número 2,87 seguido por
4335 ceros en lugar de 6.
Sólo imaginemos que si existen 300.000.000.000 (trescientos mil millones) de estrellas
en promedio por galaxia, y se estima que hay 250.000.000.000 (doscientos cincuenta
mil millones) de galaxias en el universo, entonces tendríamos aproximadamente
7,5 x 1022 estrellas en el Universo completo. (comparemos este exponente de 22 con
4335). Cuesta imaginarse la enormidad de esta cifra.
Volviendo al tema que nos preocupa, si pudiéramos efectuar todas las encuestas
posibles, y suponiendo que nuestra variable de interés es la edad promedio del universo
de 8 millones de personas, tendríamos que promediar la edad en cada encuesta de 1000
5
personas y efectuar este cálculo 2,87 x 104335 veces . Si graficáramos los resultados
obtenidos para un número limitado de muestras aleatorias posibles, ( digamos unas
10.000), obtendríamos un histograma similar al presentado en el gráfico siguiente, pero
si pudiéramos efectuar el cálculo para TODAS las muestras posibles, obtendríamos una
Curva Normal, tal como lo demuestra el Teorema del Límite Central y se observa en el
gráfico siguiente con la Curva Normal superpuesta al histograma, y obtendríamos así
todos los resultados, desde el valor (edad promedio ) mínimo que podríamos obtener de
las 1000 personas más jóvenes de las 8 millones de personas que componen el Universo
de Estudio, y el promedio máximo obtenido de las 1000 personas de más edad de las 8
millones de personas que componen el Universo de Estudio. Entre estos 2 valores
extremos, estarían los valores ( edades promedio ) de las 2,87x104335 muestras restantes,
ordenadas de menor a mayor ( según la edad promedio calculada en cada muestra) en el
eje de las abscisas del gráfico siguiente
Este ejemplo fue basado en un Universo hipotético con edad promedio de 36 años y una
varianza de 49 años2.
De esta forma, la Distribución de Muestreo, suponiendo una muestra aleatoria simple,
tendría como parámetros una media de 36 años y un Desvío Standard (llamado Error
Standard por tratarse de la Distribución de Muestreo) de
2 491000
0.221n .
En esta Distribución de Muestreo, que contiene todos los resultados que se podrían
haber obtenido de haber realizado nuestra encuesta 2,87x104335 veces con muestras
aleatorias simples de tamaño 1000 cada una, el 95% de los resultados estarían entre
* . . y +z*e.s.z e s , donde “e.s.” simboliza el “Error Standard” y µ simboliza el
parámetro (valor real en el Universo), que en este ejemplo es la edad promedio. En
nuestro ejemplo estos límites serían 36 1.96*0.221 36 1.96*0.221y , es decir, entre
la Media del Universo menos 1.96 veces el Error Standard y la Media más 1.96 veces
6
el Error Standard. Efectuando los cálculos correspondientes, estos límites serían 35,57 y
36,43.
Si en lugar del 95% hubiéramos deseado obtener un intervalo que contenga el 99% de
los resultados de todas las muestras posibles, tendríamos que usar 2,58 en lugar de 1,96
como coeficiente. Y si quisiéramos obtener, por ejemplo, un intervalo que contenga el
99,73% de los resultados, tendríamos que utilizar como coeficiente el valor de 3 en
lugar de 1,96.
Como en la realidad desconocemos el valor real de la Media y del Error Standard,
nosotros utilizamos lo que denominamos Intervalo de Confianza, conformado por la
Media de nuestra única muestra a la cual luego le restamos y le sumamos,
simultáneamente, tal como lo hicimos con la Distribución de Muestreo, 1,96 veces el
Error Standard estimado, si queremos obtener un Nivel de Confianza del 95%, es decir,
si queremos tener una probabilidad del 95% de que el parámetro (valor real de la Media
en el Universo ) esté al interior de dicho intervalo (llamado Intervalo de Confianza). No
siempre lo que deseamos obtener es la estimación de la “Media”, pero en dichos casos,
y si lo que quisiéramos obtener es una estimación del “Total” de la variable en el
Universo, sólo debemos multiplicar la estimación de la Media obtenida de nuestra
muestra por “N”, el tamaño del Universo, el cual siempre es conocido cuando
trabajamos con el diseño denominado “Muestreo Aleatorio Simple.”.
Una última observación que deseamos plantear, es que el error standard que calculamos
a partir de nuestra única muestra, lo obtenemos remplazando σ2 en la fórmula
correspondiente al Error Standard
2
. . (1 )n
e sn N
por el estimador insesgado “s2” de la varianza poblacional “ 2 ”, valor que obtenemos
de nuestra muestra, obteniendo por lo tanto, como fórmula estimada del Error Standard
2
ˆ (1 )s n
esn N
Generalmente, y cuando el tamaño muestral “n” es mucho menor que el tamaño “N” del
Universo (digamos menor a un 5% del tamaño de “N”), el factor corrector de
poblaciones finitas (fcp)
1n
N
se elimina de la fórmula porque este factor tiende a 1
quedando ambas fórmulas como
7
2
. .e sn
y
2
ˆs
esn
respectivamente.
La diferencia entre ambas varianzas (el numerador de la fracción) es que mientras la
varianza poblacional se obtiene con la fórmula simple de la varianza
2
2 1
( )N
iX X
N
Donde N simboliza el tamaño del Universo y los Xi simbolizan el valor que asume la
variable X bajo estudio para cada uno de los elementos integrantes del Universo y X
es la media de la variable calculada para los N elementos del Universo
En cambio, la varianza poblacional estimada a partir de una muestra se obtiene en base
a la varianza muestral insesgada, la cual se define como
2
2 1ˆ1
n
ix x
sn
Donde “n” simboliza el tamaño muestral , xi el valor que asume la variable bajo estudio
para cada uno de los integrantes de la muestra , y x es la media muestral de la variable
X.
Este es el valor que se obtiene de nuestra muestra y se utiliza en la fórmula de cálculo
del Error Standard en lugar de σ2
En el caso de variables dicotómicas (o multicotómicas dicotomizadas ), el valor de la
varianza muestral insesgada “s2” es de
2 (1 )
1
np ps
n
Si aceptamos que
8
1
1
n
n
Y reemplazamos a (1-p) por la letra “q”, tenemos que el Error Standard estimado de
“p” ( la proporción de nuestra variable X en el Universo), sería de
. .pq
e sn
La cual es la fórmula generalmente utilizada para estos efectos en la literatura
estadística. Conviene sí señalar que esta fórmula sólo es válida para el caso del
Muestreo Aleatorio Simple y muchas veces se la utiliza, erróneamente, en el caso de
muestras obtenidas en base a otros diseños muestrales (muestreo estratificado, muestreo
de conglomerados, muestreo multietápico y otros diseños complejos).
Volviendo a nuestro ejemplo del Universo de 8 millones de personas con una edad
promedio de 36 años y varianza poblacional de 49 años2, pensemos en que extraemos
una muestra aleatoria simple de tamaño 1000 de dicho universo.
Como ya hemos visto anteriormente, un 95% de todas las muestras posibles arrojarían
una estimación de la edad promedio entre los valores de 35,57 y 36,43.
Supongamos que nuestra muestra arroja una media de 35,86 años, y queremos estimar
el intervalo de Confianza a un nivel de confianza del 99%. En otras palabras, queremos
encontrar un Intervalo de Confianza dentro del cual tendremos una seguridad de un 99%
que el parámetro buscado (es decir la edad promedio real del Universo) está ubicada en
su interior.
Puesto que no conocemos la varianza poblacional real (que en párrafos anteriores
supusimos conocida solamente para poder explicar la definición de la Distribución de
Muestreo), tendremos que recurrir a nuestra estimación insesgada de la varianza
poblacional, es decir, tendremos que recurrir a utilizar “s2” para poder estimar, a su vez,
el error standard de nuestra estimación de la media poblacional y a su vez, poder
construir nuestro Intervalo de Confianza.
Supongamos que el valor de “s2” que obtuvimos de nuestra única muestra es de 64
años2. Luego, nuestra estimación del error standard será de
640.253
1000
En lugar del valor real de 0.221 obtenido cuando utilizamos la varianza poblacional
real, la cual en la enorme mayoría de los casos es desconocida, por razones obvias,
puesto que para obtenerla deberíamos efectuar un censo del Universo, en cuyo caso
también podríamos conocer el parámetro de interés (en este caso la edad promedio
poblacional), y sin margen de error muestral pues estamos hablando de efectuar un
9
Censo. Siendo así, y conociendo todo lo que queremos, ¿ para qué necesitaríamos
efectuar una encuesta muestral para estimar dicho parámetro?.
Construyamos ahora nuestro Intervalo de Confianza basándonos en la información
proporcionada por nuestra única muestra. El nivel de confianza deseado, como lo
dijimos en párrafos anteriores es de 99%
El promedio estimado es de 35,86 años y el error standard estimado es de 0,253, luego
el límite inferior del Intervalo de Confianza será de 35,86 – 2,58*0.253 = 35,21 y el
límite superior del Intervalo será de 35,86 + 2,58*0.253 = 36,51
Y, realmente, el parámetro poblacional, 36 años de edad promedio, en el Universo, está
ubicado al interior de este Intervalo.
Lo que nos dice este Nivel de Confianza del 99% es que de cada 100 muestras aleatorias
que extraigamos de este universo, con igual diseño muestral y de igual tamaño, en 99 de
ellas, al formar el Intervalo de Confianza correspondiente, el parámetro de interés estará
ubicado en su interior.
Como en la práctica nosotros sólo trabajamos con UNA muestra, no podemos saber si
esta muestra pertenece al grupo de las 99 de cada 100 que contienen el parámetro, o es,
por mala suerte, la única muestra de las 100 cuyo Intervalo de Confianza no contiene el
parámetro en su interior. Por dicha causa, nosotros hablamos de probabilidades y
utilizamos el término “Nivel de Confianza” como sinónimo de “Probabilidad”.
Así es como decimos que la probabilidad o Nivel de Confianza de que nuestro Intervalo
de Confianza contenga el parámetro es del 99% ( en este ejemplo es de 99%, puesto que
normalmente se acostumbra trabajar con un 95%, aunque W.E. Deming recomienda
fervientemente trabajar con un Nivel de Confianza del 99,73%).
Este valor del 99,73% parece un poco raro y la respuesta es más bien anecdótica. ¿Por
qué justamente 99,73% ? La respuesta es que en los tiempos en que Deming escribió su
famoso texto “Sample Design in Business Research” ( 1960) no existían los
computadores como hoy en día, y entonces el coeficiente “z” que multiplica el error
standard para lograr este Nivel de Confianza sería exactamente de 3, y no 1,96 ó 2,58,
por lo cual, los cálculos manuales serían mucho más fáciles de realizar.
En todo caso, él justificaba entregar al cliente, investigador o usuario final del estudio,
un Intervalo de Confianza que contuviera prácticamente con seguridad el parámetro
buscado por razones éticas y principalmente pragmáticas, especialmente cuando el
cliente debe tomar decisiones importantes en base a los resultados del Estudio.
CONCLUSIONES PRINCIPALES
Uno de los problemas principales con este tipo de muestreo clásico, es que la varianza
poblacional debe estimarse a partir de los resultados de nuestra única muestra y así
nuestro Intervalo de Confianza se calcula utilizando dicha única estimación de la
varianza. En el ejemplo pasado, la estimación del error standard, basándose en la
varianza estimada a partir de la muestra fue de 0.253 en lugar del valor verdadero de
0.221. Y es esta desventaja que el remuestreo - utilizando la técnica del Bootstrap
soluciona en forma muy satisfactoria, entregándonos paralelamente a la Distribución de
Muestreo de la variable de interés (digamos la “Media”), una Distribución de Muestreo
de las estimaciones de la varianza poblacional, Distribución de Muestreo calculada a
partir de un número muy grande de muestras replicadas, como mostraremos a
continuación.
10
REMUESTREO POR BOOTSTRAP
Explicaremos la técnica del bootstrap con un ejemplo muy simple.
Pare ello nos basaremos en el Censo de Población y Viviendas del año 2002 y nuestra variable
de interés será la “Edad”.
Para ello, comenzaremos por presentar una tabla con la distribución de la población de
Chile en dicho Censo, según edades. Los 214.705 personas de 0 años de edad se
entenderán como personas entre los 0 años (recién nacidos) y 1 año de edad, etc.
Luego presentaremos esta tabla, como un gráfico con la distribución de las edades en la
población de 14.116.435 personas censadas.
EDAD PERSONAS EDAD PERSONAS EDAD PERSONAS EDAD PERSONAS
0 214.705 28 247.809 55 124.460 82 30.356
1 221.900 29 241.803 56 128.128 83 22.844
2 227.041 30 251.695 57 120.425 84 22.122
3 239.463 31 228.894 58 120.354 85 19.167
4 247.967 32 242.448 59 110.607 86 17.707
5 250.591 33 240.782 60 114.370 87 15.486
6 256.762 34 236.372 61 93.593 88 12.589
7 265.983 35 236.410 62 110.521 89 10.181
8 267.763 36 249.598 63 93.462 90 8.408
9 275.499 37 251.709 64 87.956 91 6.033
10 281.210 38 253.499 65 100.868 92 6.394
11 289.381 39 243.784 66 79.612 93 4.267
12 294.595 40 247.780 67 80.405 94 3.294
13 283.923 41 215.779 68 71.455 95 2.553
14 273.343 42 257.345 69 66.947 96 2.247
15 282.925 43 221.242 70 75.281 97 1.613
16 252.414 44 189.612 71 65.685 98 1.398
17 246.365 45 194.042 72 79.576 99 1.208
18 249.000 46 185.977 73 66.713 100 260
19 249.385 47 184.320 74 60.863 101 184
20 256.905 48 178.060 75 55.348 102 159
21 243.985 49 162.267 76 47.606 103 126
22 242.145 50 161.106 77 41.522 104 84
23 233.775 51 143.357 78 42.185 105 116
24 224.616 52 172.308 79 32.670 106 80
25 222.775 53 143.445 80 35.431 107 72
26 232.199 54 138.787 81 26.401 108 60
27 248.138
11
Ahora supongamos que tenemos un Marco Muestral del cual extraer una “Muestra
Aleatoria Simple”, y este Marco Muestral consiste de una lista con los nombres de las
14.116.435 de personas censadas. Lógicamente, en la práctica, esta lista no existe, pero
para los efectos de nuestro ejemplo supondremos que ella sí existe.
Para los efectos de comparación con el remuestreo en base a la técnica del Bootstrap,
extraeremos una muestra aleatoria simple de tamaño 1000 como en el ejemplo del
muestreo clásico..
NOTA: PARA TODOS LOS EFECTOS DE ESTE EJEMPLO, HEMOS UTILIZADO
EL LENGUAJE DE PROGRAMACION “Mathematica”, de modo que los resultados
que ofreceremos se adecúen a los supuestos de aleatoriedad (y por lo tanto, “no son
datos inventados” para ilustrar el ejemplo)
Muestra Aleatoria de tamaño 1000:
muestra1=RandomSample[marco,1000]
{65,68,23,55,20,69,25,5,4,24,35,34,75,25,20,3,4,30,70,54,80,9,42,12,22,43,15,32,7,25,53,18,14,5,2,53,45
,42,62,7,81,16,12,62,8,33,57,2,28,35,48,19,12,20,29,43,30,47,1,34,25,19,31,20,7,6,50,32,9,21,6,43,37,38,
3,50,48,7,22,22,60,42,19,1,5,47,9,41,57,51,2,41,43,46,17,8,56,56,19,17,14,15,54,30,25,74,50,34,47,27,26
,52,92,46,39,18,31,43,22,6,27,44,14,34,16,5,33,22,67,47,11,8,32,34,41,9,11,28,7,37,11,28,3,54,30,25,36,
52,11,35,12,43,14,15,0,4,1,20,6,50,38,20,34,8,9,45,68,44,11,49,43,14,48,56,25,34,60,24,3,11,4,20,32,37,
47,36,46,8,3,7,31,63,39,10,24,41,23,41,27,12,28,4,9,10,49,44,42,71,40,16,39,49,61,26,35,25,6,32,75,71,5
4,35,47,18,42,16,53,19,9,65,31,8,34,12,40,35,42,7,74,37,38,31,0,21,12,7,9,40,55,27,39,2,36,12,53,54,19,
34,9,6,28,39,8,56,2,37,1,23,50,19,49,60,28,36,22,3,19,37,1,47,46,3,11,15,52,9,72,44,1,10,34,65,29,11,23,
44,4,47,40,64,36,42,0,1,36,14,56,19,41,24,14,5,53,53,36,79,39,72,15,9,19,56,65,47,27,54,5,70,47,51,14,2
2,41,41,14,0,62,5,25,65,5,38,36,29,11,48,21,22,25,24,12,23,49,5,37,14,54,18,3,6,28,71,55,52,2,62,5,20,5,
26,46,35,17,50,37,1,30,43,39,24,23,22,18,7,8,32,15,38,23,37,27,71,41,33,19,15,20,7,12,11,38,37,38,4,9,1
2,38,15,12,36,3,44,70,25,66,28,22,57,23,36,48,11,69,40,65,47,3,35,61,13,9,36,44,4,19,97,19,13,8,39,14,4
12
2,60,56,11,15,67,7,6,18,12,16,17,17,45,36,16,46,55,52,32,43,30,52,51,21,49,27,23,39,44,50,15,30,11,12,
33,27,26,4,27,36,2,51,3,80,17,69,44,9,37,15,43,2,10,55,24,37,19,13,8,44,7,9,26,47,32,12,55,8,3,5,70,40,1
2,81,39,57,6,7,45,10,50,56,45,24,15,28,44,73,52,64,56,86,17,24,50,22,20,43,55,32,57,44,8,15,36,74,28,3
9,13,35,68,62,6,17,13,22,26,10,37,58,20,41,16,1,9,50,61,35,39,45,47,28,46,31,5,14,10,52,26,21,40,23,44,
14,51,11,60,19,18,34,74,33,32,13,51,7,0,34,8,11,64,61,52,10,35,33,14,7,36,3,33,10,62,0,14,43,8,32,4,44,
31,58,0,5,23,4,17,36,9,41,25,11,26,9,18,27,20,62,26,79,8,35,42,41,25,51,31,22,33,17,20,22,44,19,21,71,2
8,10,15,8,42,18,40,6,11,15,42,21,36,38,86,52,37,18,57,5,3,25,12,2,34,11,18,60,50,17,10,8,45,23,76,20,29
,7,72,35,5,26,43,5,89,38,28,7,5,5,50,28,13,54,51,38,12,20,69,81,18,42,70,45,34,19,89,52,54,30,2,37,37,8,
17,8,62,35,60,19,12,22,17,26,5,29,52,36,35,42,68,2,3,11,36,60,27,47,39,22,24,7,45,52,67,82,12,63,62,19,
62,71,3,2,46,60,30,8,16,31,64,47,56,41,4,61,60,27,29,42,36,52,8,52,48,43,40,16,33,36,31,11,43,9,14,44,5
5,16,26,43,24,39,31,11,29,15,45,10,51,12,30,49,39,6,12,17,3,21,22,22,49,4,17,5,12,35,44,52,36,8,37,30,5
3,63,41,24,1,9,4,19,70,58,35,12,45,4,48,39,34,18,13,16,38,89,11,16,6,37,43,37,70,3,6,62,55,57,40,61,5,1
3,38,46,1,16,25,7,21,3,2,22,45,33,7,28,42,31,20,77,37,32,8,87,41,28,88,57,37,13,29,33,47,37,28,43,53,28
,65,23,19,13,30,42,41,25,18,38,28,70,9,42,35,42,24,31,27,4,34,18,29,41,85,38,6,41,48,7,24,70,4,51,43,48
,78,54,36,46,40,70,70,16,24,50,16,29,33,23,6,73,42,23,31,6,41,2,32,26,26,18,28,26,32,35,18,48,6,41,24,3
5,62,41,16,78,53,46,18,16,18,27,11,48,38,4}
(Esta muestra incluye las edades de las 1000 personas seleccionadas aleatoriamente).
A continuación presentaremos el gráfico de la distribución de las edades de estas 1000 personas,
en forma similar a lo que hicimos con la población total del país. Este histograma presenta una
estimación de la distribución de la variable “EDAD” a nivel de la población total del país. Al
compararla con el histograma precedente, el cual realmente representa la distribución censal del
total de la población, se observa sólo un mediano grado de similitud.
A continuación presentamos los parámetros de interés: La Edad promedio de la población y la
Varianza poblacional, tanto para el Censo como para la muestra:
Censo: 14.116.435 casos
Edad promedio = 31,60
Varianza = 432,89
13
Muestra : 1000 casos
Edad promedio = 31,22
Varianza = 412,00
Al comparar la estimación de la edad promedio de la muestra con el promedio real
basado en el Censo (el cual generalmente no es conocido, pues si lo fuera no habría
necesidad de estimarlo en base a una muestra), observamos que la estimación es muy
precisa.
La estimación de la Varianza ya no es tan precisa, pero puesto que normalmente
nosotros no conocemos el valor real de la varianza, deberemos estimar el “Error
Standard” en base a la varianza encontrada en la muestra:
e.s. =
412
1000
e.s. = 0.642
y el error muestral, para un Nivel de Confianza del 95%, sería
e.m. = 1.96*0.642 = 1.26
por lo tanto, nuestro Intervalo de Confianza para un Nivel de Confianza del 95 %
sería de
31,22 - 1,26 = 29,96 como límite inferior
y
31,22 + 1,26 = 32,48 como límite superior
Y puesto que en este caso, ya conocemos el valor real (censal) de la edad promedio
(31,60 ), ésta realmente se encuentra al interior del intervalo : 29,96 ~~~32,48.
En este caso, el muestreo clásico y la estimación obtenida a partir de los resultados de
nuestra única muestra demostró ser muy preciso.
A continuación veremos cómo se procede con el remuestreo a partir de la técnica del
bootstrap.
Supongamos que obtuvimos los resultados de esta muestra de 1000 casos y quisiéramos
obtener una estimación no basada solamente en el teorema del Límite Central, sino en
base a un experimento empírico.
Como primer paso, debemos construir un Universo virtual que se conoce bajo el
nombre de “Universo No-Paramétrico” a partir de nuestra única muestra. Para ello
observamos que nuestra muestra es autoponderada, vale decir, todas las unidades
muestrales (las 15,116.435 personas del Universo), tienen igual probabilidad de
selección. Por lo tanto el programa multiplica cada caso de la muestra por el recíproco
14
de la fracción muestral que es de 1000/15,116,435. El recíproco es: 15.116,4
(redondeando los 2 últimos decimales).
Con este valor, creamos un Universo no-paramétrico de 15.116.400 casos en los que
cada valor (edad) de la muestra, se repite 15.116 veces, lo que nos da un total de
15.116.000 casos. Los 400 casos restantes, el programa los calcula en base a una
selección aleatoria de 400 de los 1000 datos de la muestra original, y los agrega a los
15.116.000 restantes, para formar un Universo no-paramétrico de 15.116.400 casos.
Una vez obtenido este Universo no-paramétrico, el programa selecciona una gran
cantidad de muestras a partir de este Universo. A estas muestras las llamaremos
“remuestras”, y cuya cantidad la fija el investigador. En este ejemplo, decidimos
seleccionar 5.000 muestras de tamaño 1,000 cada una. Y de ahí, obtuvimos nuestras
estimaciones (5.000 estimaciones exactamente), márgenes de error muestral, y
estimaciones no sólo de la edad promedio, sino también 5.000 estimaciones de la
Varianza poblacional. El programa finalmente presenta los gráficos correspondientes.
SAMPLE SIZE 1000
UNIVERSE SIZE 15,116,000
NUMBER OF DIFERENT NON PARAMETRIC POPULATIONS DEFINED 1
NUMBER OF RESAMPLES FROM EACH NON PARAMETRIC POPULATION 5,000
CONFIDENCE LEVEL 95.
PARAMETER BEING ESTIMATED MLEWeightedVariance
ESTIMATED PARAMETER MLEWeightedVariance 411.59191
STANDARD ERROR OF THE : MLEWeightedVariance 16.18943
ACCELERATION CONSTANT 0.01498
BIAS ADJUSTMENT COEFFICIENT 0.51260
LOWER LIMIT OF THE MLEWeightedVariance 382.170
UPPER LIMIT OF THE MLEWeightedVariance 446.023
ESTIMATED RELATIVE SAMPLING ERROR OF THE WEIGHTED MEAN 0.04024
ESTIMATED RELATIVE SAMPLING ERROR OF THE WEIGHTED MEAN, USING LOWER LIMIT VARIANCE 0.03878
15
De los datos desplegados, se puede ver que la Varianza estimada por el bootstrap de
5000 muestras, es de 411,6, valor muy similar a la estimación obtenida de nuestra única
muestra (412,0), pero en ambos casos bastante por debajo del valor real de la varianza a
nivel poblacional, que es de 432,89.
Sin embargo, mientras que con nuestra única muestra aleatoria no estamos en
condiciones de estimar un intervalo de confianza para la Varianza, con el bootstrap lo
hemos calculado al nivel de confianza deseado del 95 %, con los límites inferior y
superior de 382,17 y 446,02 respectivamente, como se desprende de la información
presentada en la página precedente. Y efectivamente, la Varianza real se encuentra al
interior de este intervalo de confianza. Recordemos que su valor es de 432,89.
Con estos valores, estamos en condiciones de formar 3 Intervalos de confianza para la
edad promedio que es el parámetro buscado. Obviamente se puede formar cualquier
número de Intervalos alternativos, y no necesariamente 3, y lógicamente también se
puede trabajar con Niveles de Confianza distintos al 95%
En este artículo, y para este ejemplo hemos preferido efectuar el análisis con 3
alternativas de Intervalos de Confianza. En el primer caso, utilizamos un Intervalo de
Confianza cuyos márgenes de error muestral fueron calculados a partir de la estimación
de la varianza poblacional basada en su límite inferior de 382,17. Luego formamos un
Intervalo de Confianza basado en la Varianza promedio de las 5000 estimaciones, de
411,6, y finalmente formamos un intervalo de confianza utilizando la estimación de la
varianza basada en su límite superior de 446,02
Estos 3 intervalos se presentan en esta página. Y las estimaciones de la edad poblacional
promedio no difieren mucho entre sí, aunque en otras ocasiones pueden diferir bastante,
cuando los límites inferior y superior de la estimación de la varianza poblacional están
muy alejados entre sí.
El investigador es libre de trabajar en base al Intervalo que le parezca más lógico en
función del problema que está tratando,.
En este caso, no tenemos mayores problemas, pues podemos basarnos en cualquiera de
los 3 intervalos. Los 3 intervalos incluyen en su interior el parámetro buscado, que es la
edad promedio de la población de Chile.
ESTIMATED RELATIVE SAMPLING ERROR OF THE WEIGHTED MEAN, USING UPPER LIMIT VARIANCE 0.04189
ESTIMATED WEIGHTED MEAN 31.24424
ESTIMATED 95 CONFIDENCE INTERVAL FOR THE MEAN, BASED ON THE LOWER ESTIMATE OF THE VARIANCE 30.032597 32.455892
ESTIMATED 95 CONFIDENCE INTERVAL FOR THE MEAN, BASED ON THE MEAN ESTIMATE OF THE VARIANCE 29.986821 32.501668
ESTIMATED 95 CONFIDENCE INTERVAL FOR THE MEAN, BASED ON THE UPPER ESTIMATE OF THE VARIANCE 29.93528 32.553206
16
A continuación presentamos los histogramas correspondientes a las estimaciones de las
5000 varianzas (primer histograma) y a la estimación de las 5000 edades promedio.
En ambas situaciones las 5000 estimaciones se refieren a los resultados obtenidos de las
5000 muestras aleatorias que el programa extrajo del Universo no paramétrico.
17
Gracias al lenguaje de programación Mathematica y a la existencia de los computadores
modernos y de alta velocidad, hemos logrado presentar exitosamente un ejemplo de la
bondad del Resampling.
En el precedente ejemplo sólo hemos aprovechado el Resampling para estimar
Intervalos de Confianza no solamente del parámetro que deseamos estimar, que en este
caso era la edad promedio de la población de Chile, sino también el Intervalo de
Confianza para la Varianza, lo que nos dio la posibilidad de calcular varios intervalos de
Confianza alternativos para la estimación del parámetro objetivo principal del Estudio.
Como ya dijimos, con el muestreo clásico, nombre por el cual definimos la ejecución de
una única muestra no podríamos haber logrado estos resultados.
Tenemos sí que señalar que para la aplicación del Resampling, debemos contar
necesariamente con la realización de una única muestra original, pero tenemos ahora la
ventaja de que podemos enriquecer el análisis de los resultados, agregando a las
estimaciones convencionales basadas en la muestra única, las estimaciones de los
intervalos de confianza basados en el Resampling.
Desearíamos agregar que no solamente podemos lograr obtener las Distribuciones de
Muestreo de la Varianza, sino también hemos podido lograr con la aplicación de este
programa especial, las Distribuciones de Muestreo de los siguientes estadígrafos:
1.- Coeficiente de Correlación de Pearson
2.- Coeficiente de Asimetría (“Skewness”)
3.- Coeficiente de Apuntamiento (“Kurtosis”)
4.- Coeficiente de Correlación ponderada (cuando la muestra no es autoponderada)
5.- Coeficiente de Asimetría ponderada (cuando la muestra no es autoponderada)
6.- Coeficiente de Apuntamiento ponderado (cuando la muestra no es autoponderada)
7.- Covarianza
8.- Covarianza ponderada (cuando la muestra no es autoponderada)
9.- La Mediana
10.-La Moda
11.- Los Percentiles que se desee
En general se pueden estimar las Distribuciones de Muestreo de prácticamente todos los
estadígrafos de posición y de dispersión, aunque en la práctica las estimaciones más
comúnmente utilizadas se centran en la varianza (para los efectos prácticos de estimar
los márgenes de error muestral), y en las estimaciones de los parámetros de interés de
los estudios, los cuales son principalmente: Medias, Proporciones, Totales y
estimadores de Razón.
Cabe señalar, y éste es un punto muy importante, que la mayoría de los Estudios
muestrales científicos, vale decir, basados en muestras probabilísticas (Estudios de
Mercado y Estudios de Opinión Pública) son basados en diseños complejos,
(generalmente de conglomerados y multietápicos), por lo cual las muestras resultantes
en su mayoría no son autoponderadas, en otras palabras las unidades muestrales finales
tienen distintas probabilidades de selección.
Si bien existen fórmulas para el cálculo de las estimaciones de los parámetros y para las
estimaciones de los márgenes de error muestral para estos estudios con diseños
18
muestrales complejos, estas fórmulas son generalmente de muy difícil aplicación, a
menos que se trabaje con algunos diseños muestrales sofisticados, como es, por
ejemplo, el muestreo interpenetrante de Mahalanobis, también conocido como el
Muestreo Replicado de W. E. Deming. u otros diseños sofisticados similares que
ofrecen fórmulas relativamente más simples de aplicar.
Como consecuencia de estas dificultades presentadas en los diseños complejos, quienes
intenten basarse inocentemente en el Teorema del Límite Central con su
correspondiente Distribución de Muestreo basada en la Curva Normal, corren el riesgo
de obtener estimaciones sesgadas de los parámetros de interés y márgenes de error
muestral incorrectos, los que generalmente subestiman el verdadero valor de estos
márgenes de error, y a veces en forma grosera.
Afortunadamente la técnica del Resampling nos proporciona una solución mucho más
confiable, al presentarnos para cada variable, una evidencia empírica de la verdadera
naturaleza (forma) de la Distribución de Muestreo que le corresponde y, en
consecuencia, Intervalos de Confianza mucho más confiables que si aplicáramos las
fórmulas tradicionales del muestro clásico.