Tamaño de muestra revisado
Click here to load reader
-
Upload
escuela-militar-de-ingenieria-emi -
Category
Education
-
view
946 -
download
0
description
Transcript of Tamaño de muestra revisado
Por Ing. M. Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Octubre 2013
Tamaño de Muestra
Por Ing. M.Sc. Francisco Martínez Solaris
1. Introducción
Cuando se habla de diseños de investigación se mencionan una serie de éstos como
observacionales, descriptivos, transversales, longitudinales, cuasiexperimentales,
experimentales, etc. Todo lo anterior se puede resumir en dos tipos de diseños de
investigación: Diseños no Experimentales y Diseños Experimentales.
Los diseños no experimentales se dan cuando no existe una manipulación intencionada por
parte del investigador de las variables independientes, es decir, que el investigador solo
toma la información sin afectar el comportamiento de la población. En estos estudios la
información se puede hacer de dos formas los cuales son a través de un censo o bien a
través de muestreo.
Se entiende por censo a la enumeración de todas las unidades de análisis que conforman la
población que es objeto de estudio y éste se puede hacer siempre y cuando la verificación
de la información no perjudique o deteriore la unidad de análisis.
En el caso de que sea por muestreo puede ser de dos tipos: Muestreo Arbitrario o No
Probabilístico y por Muestreo Aleatorio o Muestreo Probabilístico.
Cuando los estudios se realizan usando muestreos probabilísticos una de las primeras
interrogantes que hay que responder es ¿cuál es el tamaño de muestra que se tiene que
tomar?
Es por esta razón que el presente documento pretende orientar al investigador, si este es el
caso, qué muestreo utilizar y cómo determinar el tamaño de muestra en cada caso, para ello
se hace una revisión de los principales muestreos probabilísticos como son el Muestreo
Aleatorio Simple, Muestreo Aleatorio Proporcional y el Muestreo Aleatorio Estratificado,
base esencial para cualquier muestreo probabilístico.
2. Fuente Teórica Documental
Para la realización del presente documento se han revisado obras como Elementary Survey
Sampling de Mendenhall et al (1971), Mendenhall y Scheaffer (1973), Mendenhall y
Reinmuth (1978), Rendón (1992), Córdoba (2000), Martínez (2005) entre otros, más la
experiencia del autor como profesor en diferentes ramas de la estadística en distintas
universidades bolivianas.
Para la derivación de las ecuaciones de tamaño de muestra se tomó en cuenta tanto las
distribuciones probabilística de variables aleatorias como las describen, entre otros, Infante
y Zárate (2000) y Walpole et al (1998), como también estimación interválica (1-α)*100
como la describen ampliamente los autores antes mencionado.
3. Resultados y Discusión
Si se toma en cuenta que el diseño de investigación es la estrategia que el investigador
adopta para tomar la información de las variables que se han derivado de la hipótesis de
Por Ing. M. Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Octubre 2013
investigación, esta información se puede obtener de uno de dos escenarios, en la población
que es objeto de estudio o bien en una parte de ella que se llama muestra, entendiéndose
ésta última como un subconjunto de la población que se supone la representa.
En el primer caso, cuando se estudia toda la población, se dice que se utiliza censo
entendiéndose éste como la enumeración total de las unidades de análisis que conforman la
población objeto de estudio. Esto no siempre se puede hacer ya sea porque los recursos
tantos económicos, de tiempo y otros son limitantes, pero principalmente no se puede hacer
cuando la verificación de la información conlleva a un deterioro de la unidad de análisis. Es
en estos casos, entre otros, que el uso del muestreo es imprescindible.
Por muestreo se entiende al proceso a través del cual se deduce un tamaño de muestra de la
población que es objeto de estudio, esta deducción se puede hacer de dos maneras: de
forma arbitraria o no aleatoria conocido también como muestreo de expertos y de forma
aleatoria o muestreo probabilístico, es decir, aquel que utiliza el azar, entendiendo por azar
la misma probabilidad que tienen las unidades de análisis que conforman a la población
objeto de estudio (las que cumple con los criterios de inclusión del estudio llamado por
algunos autores como Rendón (1992) marco de muestreo), de ser parte de la muestra.
Indistintamente del muestreo que se utilice, éstos se hacen con el propósito de estimar el
comportamiento de los parámetros en la población, característica propia de una población
que sirve para describirla, por medio de la información que proporcionan los estadísticos o
estadígrafos determinados en la muestra, de aquí que se cuestiona cuánto debe ser el
tamaño de muestra que permita que se pueda estimar un parámetro con la información del
estadístico determinado en la muestra.
La Figura 1 resume los dos escenarios antes expuestos donde se puede tomar la
información. La población (censo) o bien la muestra (censo).
La pregunta obligada es la siguiente, ¿cuál muestreo utilizar?, el no probabilístico o el
probabilístico. Esta es
una decisión que el
investigador debe
tomar y con ello las
consecuencias de la
misma, por ejemplo,
cuando se utiliza un
muestreo no
probabilístico se dice
que los estudios
tienen poca o nula
validez externa, en el
sentido que no se usó
el azar para
seleccionar las
unidades de análisis que conformarán la muestra ya que el uso del azar permite establecer
una estructura probabilística y además, permite la significancia de ciertas pruebas
estadísticas y por otro lado, permite aproximarse más al parámetro que se desea estimar. De
hecho lo recomendable es usar un muestreo probabilístico pero no siempre se puede lograr
principalmente en aquellos casos donde las unidades de análisis puedan verse en
situaciones delicadas o censuradas por la sociedad, en estos casos de hecho que el muestreo
no probabilístico es el indicado, reduciéndose las investigaciones a estudios de casos.
Por Ing. M. Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Octubre 2013
Dejando establecido que el más indicado, si se puede, es el muestreo probabilístico, a
continuación se desarrollan los tres principales muestreos probabilístico que vienen a ser las
bases para cualquier muestreo probabilístico.
3.1. Muestreo Aleatorio Simple (MAS)
Este muestreo consiste en revisar una a una las unidades de análisis del marco de muestreo
de la población que es objeto de estudio (entiéndase como marco de muestreo parte de la
población que cumple con las exigencias del estudio), esto lo convierte en un esquema de
muestreo sin reemplazo y que es utilizado para variables cuantitativas en poblaciones
homogéneas. Se usa para estimar totales pero comúnmente para estimar promedio o
medias.
Cuando se habla de poblaciones homogéneas se refiere aquellas unidades de análisis que
cumplen el mismo criterio de homogeneidad impuesto por el investigador, por ejemplo:
procedencia, profesión, carrera que estudia, etc.
Para determinar la ecuación del tamaño de muestra en este esquema de muestreo se parte de
la ecuación de intervalo de confianza (1-α)*100 para estimar “µ”. Para estimar a “µ” se
parte de su estimador muestral que la media aritmética ( la cual cumple con los cuatros
criterios de un buen estimador y como consecuencia del teorema del Límite Central, se
tienen la siguiente expresión para estimar a “µ”:
⌈
√
√ ⌉ ( ; donde:
= promedio muestral de la variable estudiada
= Valor de la normal estándar que deja un área a la derecha y a la izquierda igual a α/2
√ = Desviación típica del promedio muestral
µ = Promedio poblacional
( = Confiabilidad
En la Figura 2 se muestra la lógica
de la estimación, en este caso para
“µ”.
Como se observa, la distancia que
separa al parámetro del estadístico
tanto por la izquierda como por la
derecha, es equidistante de “µ” por
la simetría de la normal estándar, es
√ , la cual está identificada
como “Precisión” en la Figura 2.
Por precisión, Rendón (1992) la define como la máxima distancia que separa el estimador
del parámetro por ambos lados de la curva. Otros autores como Córdoba (2000) le
denominan Máximo Error de Estimación (E). Es por ello que la expresión (1 – α)*100 tiene
dos interpretaciones:
La confiabilidad de encontrar al parámetro dentro del intervalo estimado
Figura 2 Intervalo de confianza para “µ”
Por Ing. M. Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Octubre 2013
La probabilidad de que el estadístico o estimador no se separe del parámetro más
que
√ , por ambos lados
Lo anterior implica entonces que el investigador puede fijar dicha precisión asumiendo las
consecuencias de la misma. Si la precisión es pequeña (desea que se separe poco el
estimador del parámetro), entonces el tamaño de muestra se aumenta lo cual coincide con el
criterio de robustez o consistencia de un estimador.
3.1.1. Tamaño de muestra en Muestreo Aleatorio Simple
Partiendo de la precisión o máximo error de muestreo se tiene lo siguiente:
√ , lo cual es lo mismo decir que:
√ ; Despejando “n” se tiene lo
siguiente:
√
, luego que
, lo cual se convierte en la primera ecuación para
determinar el tamaño de muestra en Muestreo Aleatorio Simple. Este tamaño de muestra se
usa cuando el tamaño de la población se desconoce o bien se considera infinito y la
varianza poblacional se conoce. Puede ser ahora que la varianza poblacional se desconozca
entonces de acuerdo al teorema del Límite Central se puede usar su estimador muestral (S²)
siempre y cuando el estimador sea obtenido de una muestra aleatoria mayor a 30 (para
buscar normalidad), si este es el caso la expresión anterior quedaría de la siguiente forma:
, en este caso sería para población infinita o desconocida y varianza poblacional
desconocida.
Lo expuesto anteriormente es lo más usado, pero hay autores que utilizan S2 en muestras
menores o iguales a 30, entonces, en estos casos, la distribución normal no ajusta muestra
pequeña, por lo que en lugar de “ ; se utiliza la distribución de las muestras pequeñas o
“t” de Student, quedando el tamaño de muestra de la siguiente forma: (
; que
sería usada cuando el tamaño de la población es desconocido o se considera infinito, la
varianza poblacional es desconocida y en su lugar se usa S2, y ésta se obtuvo de muestras
pequeñas.
En caso de que el tamaño de la población sea conocido y la varianza poblacional se
conozca, el tamaño de muestra se determina de la siguiente forma:
(
, donde:
n = tamaño de muestra
N = tamaño de la población objeto de estudio
= valor de la normal estándar α/2
= varianza poblacional
E = precisión o máximo error de muestreo propuesta por el investigador
Por Ing. M. Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Octubre 2013
En caso de que la varianza poblacional se desconozca se puede utilizar su estimador
muestral S2, quedando la expresión anterior de la siguiente forma:
(
;
siempre y cuando este estimador se haya obtenido de muestras grandes (n > 30). Si S2 es
obtenida de muestras pequeñas, entonces se usa “t” de student, en lugar de “Z”, quedando
la ecuación anterior de la siguiente forma:
(
( (
Todo lo anterior indica que en el MAS existen seis situaciones posibles para determinar
tamaño de muestra, por otra parte, además de que jugar con la precisión puede aumentar o
reducir el tamaño de muestra, también la significancia (α) hace variar el tamaño de muestra
ya que mientras más pequeño es, mayor es el valor de “Z” o bien de “t”, por lo tanto es una
decisión que el investigador debe tomar y asumir las consecuencias ya que si se aumenta el
tamaño de muestra, si bien es cierto se aproxima más al parámetro, pero existe un aumento
en el tiempo de toma de información, en uso de otros recursos y, algunos autores
mencionan que existe más posibilidades de cometer error.
3.2. Muestreo Aleatorio Proporcional (MAP)
Este muestreo se desarrolla bajo el mismo esquema del Muestreo Aleatorio Simple, es
decir, revisión una a una de las unidades de análisis lo cual lo hace un muestreo sin
reemplazo. Está sugerido para variables cualitativas con distribuciones probabilísticas
Binomial, Poisson, Multinomial, Hipergeométrica, etc., y se usa para estimar proporción
poblacional “p”.
Al igual que en el MAS, la derivación de las ecuaciones del tamaño de muestra se las hace
a partir de la estimación interválica (1 – α)*100 para “p” la cual es la siguiente:
⌈
√
√
⌉ ( ; donde:
= proporción muestral (
)
= valor de la normal estándar α/2
√
= desviación típica de la proporción muestral
Es importante señalar que para la estimación de “p” se toman en cuenta los estimadores
muestrales ya que es ilógico usar cualquiera de los parámetros “p” o “q” porque conociendo
a uno de ellos, por complemento se conoce el otro.
Esto no ocurre para la determinación del tamaño de muestra, ya que en este caso sí se
toman en cuenta los parámetros “p” y “q”.
Por Ing. M. Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Octubre 2013
La Figura 3 muestra la lógica de la
estimación y que por consecuencia del
teorema del Límite Central, la
distribución Binomial bajo ciertas
condiciones se aproxima a la normal. Es
por ello que el concepto de Máximo
Error de Estimación o Precisión es el
mismo que se manejó en el MAS y
además es equidistante a “p” por la
simetría de la curva normal estándar.
3.2.1. Tamaño de Muestra en el
Muestreo Aleatorio Proporcional
Para determinar el tamaño de muestra se parte de lo siguiente:
√
, despejando “n” se tienen lo siguiente:
, donde:
n = tamaño de muestra
= valor de la normal estándar a un α/2
p = probabilidad de éxito
q = probabilidad de fracaso
= precisión o error máximo de estimación
La expresión antes expuesta define el tamaño de muestra cuando la población es infinita o
desconocida y los parámetros “p” y “q” se conocen.
Si los parámetros se desconocen se puede usar los estimadores muestrales siempre y
cuando sean obtenidos de muestras mayores o iguales a 30. La expresión anterior queda de
la siguiente forma:
; donde:
En caso de que se desconozca los parámetros y el tamaño de la población sea desconocido
o se considere infinito, se puede utilizar la distribución teórica de “p” y “q” que es de 0.5. A
este criterio se le conoce como “Criterio de Varianza Máxima”, tiene como consecuencia
que aumenta el tamaño de muestra lo cual hace que el estimador sea más consistente o
robusto. La estimación del tamaño de muestra queda establecida como sigue:
. Si el tamaño de la población se conoce y los parámetros “p” y “q” también,
el tamaño de muestra se determina de la siguiente manera:
(
Si el tamaño de la población se conoce y los parámetros “p” y “q” se desconocen se puede
usar sus estimadores muestrales con las mismas consideraciones antes mencionada. El
tamaño de muestra, si este es el caso, se determina de la siguiente manera:
(
Por Ing. M. Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Octubre 2013
En caso de que solo se conozca el tamaño de la población, es decir, que tanto los
parámetros como los estimadores se desconocen se puede usar el criterio de varianza
máxima quedando el tamaño de muestra como se muestra a continuación:
(
Ahora bien, hay que considerar que una investigación no siempre es totalmente cuantitativa
o cualitativa, puede ser cuanticualitativa o bien cualicuantitativa (Eid Ayala, 2011;
comunicación personal), pero esto no es el problema, éste resulta al momento de definir el
tipo de muestreo a utilizar y por ende su tamaño de muestra. En este caso el autor
recomienda definir cuál es la variable clave que define al estudio y en función del tipo que
sea ésta, se define el muestreo. Por ejemplo, un estudiante de ingeniería industrial está
interesado en estimar la atención que presta una empresa que comercializa harina a sus
expendedores en un mercado. Si se tuviera que diseñar un instrumento para los puestos que
vende este tipo de producto la primer pregunta debería ser si expende la harina de dicha
empresa, su respuesta puede ser “sí” o “no” inclusive podría reservarse la respuesta y no
contestar, esta variables es de carácter cualitativo y por lo tanto se definiría el tipo de
muestreo a usar. De la respuesta a esta variable dependen todas las demás preguntas del
instrumento.
Qué pasaría ahora si la población objeto de estudio no es homogénea lo cual hace que no se
deba aplicar los muestreos antes mencionado. En los casos en la población objeto de
estudio se divida o se agrupe en subgrupo y esta forma de organización puede afectar la
investigación, se recomienda en Muestreo Aleatorio Estratificado.
3.3. Muestreo Aleatorio Estratificado
El muestreo aleatorio estratificado es un método que, en muchas ocasiones, puede dar lugar
a un incremento en la precisión de las estimaciones, de las características o parámetros de
una población.
El método consiste, primeramente, en dividir a la población de tamaño N conocido, en un
número K de subpoblaciones, llamadas estratos. Más que dividir, se requiere reconocer los
subgrupos o subpoblaciones de la población objeto de estudio con la condición que estas
subpoblaciones estratos no se traslapan, es decir, que la probabilidad de intersección entre
éstos sea “0”. Ejemplo, supóngase que se desea realizar una investigación en una población
que se divide en cuatros subgrupos o estratos: k1, k2, k3 y k4. El tamaño de la población “N”
es igual a la suma de los estratos de manera que N = k1+ k2+ k3+ k4, como se muestra en la
Figura 4.
Figura 4. Estratificación de una población
Por Ing. M. Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Octubre 2013
Cuando se estratifica se minimiza la variabilidad interna de cada estrato, ya que son iguales
de acuerdo al criterio de estratificación y se maximiza la variabilidad externa entre estrato.
3.3.1. Tamaño de Muestra en el Muestreo Aleatorio Estratificado
Dado que a lo interno de cada estrato las unidades de análisis son homogéneas y además,
son de tamaño conocido, entonces se puede determinar tamaño de muestra por cada estrato
ya sea por MAS ó MAP de acuerdo a los criterios antes expuestos y la muestra total
llamada muestra estratificada “nk” viene a ser la suma de las muestras de cada estrato, es
decir, nk = nk1+nk2 + ..nki. De aquí se habla de Muestreo Aleatorio Simple Estratificado
y de Muestreo Aleatorio Proporcional Estratificado según sea el caso.
Otra forma de determinar tamaño de muestra en muestreo estratificado sería tomar una
muestra general tomando en cuenta el tipo de variable que define al estudio y después
asignar muestra por cada estrato. A esto se le llama Asignación Proporcional y se la hace de
la siguiente forma:
Estratos Nki fr fr*n
K1 Nk1 Nk1/N (Nk1/N)*n
K2 Nk2 Nk2/N (Nk2/N)*n
K3 Nk3 Nk3/N (Nk3/N)*n
. . . .
. . . .
. . . .
Ki Nki Nki/N (Nki/N)*n
Total N 1 nk
Donde:
Ki = I-ésimo estrato
Nki = Tamaño del i-ésimo estrato
La asignación proporcional toma en cuenta el tamaño del estrato y en función de su tamaño
existe la asignación del tamaño de muestra, es decir, que a mayor tamaño del estrato mayor
es el tamaño de muestra que se le asigna
Existe otra forma para determinar tamaño de muestra la cual considera la varianza de cada
estrato, esta es la Asignación de Neyman. Previo hay que hacer lo siguiente:
Por Ing. M. Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Octubre 2013
Estratos Nk Wki S2ki S WkiSki
2 WkiSki
K1 Nk1 Nk1/N S2k1 Sk1 Wk1S
21 Wk1S1
K2 Nk2 Nk2/N S2K2 Sk2 Wk2S
22 Wk2S2
K3 Nk3 Nk3/N S2K3 Sk3 Wk3S
23 Wk3S3
. . . . . . .
. . . . . . .
. . . . . . .
Ki Nki Nki/N S2k Ski WkiS
2i WkiSki
Total N 1 ΣWkiS2i ΣWkiSki
Donde:
Ki = K-ésimo estrato
Nki = Tamaño del k-ésimo estrato
Wki = Peso de cada estrato dentro de la población que pertenece (Nki/N)
S2ki = Varianza del k-ésimo estrato
Ski = Desviación estándar del k-ésimo estrato
En este caso el tamaño de muestra se determina por la siguiente expresión:
(∑
(∑ , donde:
ne = tamaño de la muestra estratificada
N = tamaño de la población
= valor de la normal estándar a un α/2
(∑ = sumatoria de los pesos de cada estrato multiplicada por su desviación estándar
= precisión
(∑ = peso de cada estrato multiplicada por la varianza de cada estrato
Una vez que se ha determinado el tamaño de muestra estratificada el siguiente paso consiste
en asignar el tamaño de muestra por estrato, en otras palabras, hay que aplicar la asignación
de Neyman la cual es la siguiente:
*
∑ + , donde:
Por Ing. M. Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Octubre 2013
nk = tamaño de muestra para el k-ésimo estrato
= peso del k-estrato por su desviación estándar
∑ = suma de los pesos de cada estrato por su desviación estándar
ne = tamaño de la muestra estratificada
Como se puede observar, la asignación de Neyman toma en cuenta la varianza de cada
estrato, por lo tanto, al momento de la asignación del tamaño de muestra por estrato, el que
tenga mayor varianza, le corresponde mayor tamaño de muestra aun sea el más pequeño de
todos los estratos.
Resumiendo lo referente al Muestreo Aleatorio Estratificado (MAE), el tamaño de muestra
se puede determinar de tres maneras como se ha mostrado anteriormente, todo va a
depender de los insumos que disponga el investigador al momento de hacer el trabajo.
Documento revisado por Raúl Gustavo Eid Ayala, Ph.D.