TESIS MUESTREO Arana2003

200
UNIVERSIDAD AUTÓNOMA CHAPINGO DIVISIÓN DE CIENCIAS FORESTALES MÉTODOS DE MUESTREO TESIS Que como requisito parcial para Obtener el Título de: LICENCIADO EN ESTADÍSTICA PRESENTA: ROXANA IVETTE ARANA OVALLE Chapingo, Texcoco, Edo. de México Junio, 2003 1

Transcript of TESIS MUESTREO Arana2003

Page 1: TESIS MUESTREO Arana2003

UNIVERSIDAD AUTÓNOMA CHAPINGO

DIVISIÓN DE CIENCIAS FORESTALES

MÉTODOS DE MUESTREO

TESIS

Que como requisito parcial para Obtener el Título de:

LICENCIADO EN ESTADÍSTICA

PRESENTA:

ROXANA IVETTE ARANA OVALLE

Chapingo, Texcoco, Edo. de México Junio, 2003

1

Page 2: TESIS MUESTREO Arana2003

Esta tesis titulada Métodos de Muestreo fue realizada por Roxana Ivette Arana Ovalle bajo la dirección del Dr. Hugo Ramírez Maldonado y asesorada por el Dr. Gerardo Terrazas González y el Ing. Carlos Francisco Romahn de la Vega. Ha sido revisada y aprobada por el siguiente Comité Revisor y Jurado Examinador para obtener el título de Licenciado en Estadística. PRESIDENTE ___________________________________ Dr. Hugo Ramírez Maldonado SECRETARIO ___________________________________

Dr. Gerardo Terrazas González VOCAL ___________________________________

Ing. Carlos Francisco Romahn de la Vega SUPLENTE ___________________________________

Dr. Francisco Zamudio Sánchez SUPLENTE ___________________________________

M.C. Efraín Velázquez

Chapingo, Texcoco, Edo. de México, Junio del 2003.

2

Page 3: TESIS MUESTREO Arana2003

ÍNDICE

CAPÍTULO 1. CONCEPTOS BÁSICOS DE ESTADÍSTICA YPRELIMINARES MATEMÁTICOS ¿Qué es la estadística y para qué sirve?........................................................................217 Estadística Descriptiva............................................................................................... Ordenamiento, Clasificación y Frecuencia................................................................... Medidas de Tendencia Central...................................................................................... Medidas de Dispersión.................................................................................................. Análisis Teórico de los Estimadores ......................................................................... Distribución de Probabilidades.................................................................................. Distribuciones Discretas................................................................................................ Distribuciones Continuas...............................................................................................

CAPÍTULO 2 ASPECTOS GENERALES DEL MUESTREO

Introducción................................................................................................................

¿Qué es una Medición? ................................................................................................ Variables....................................................................................................................... Población y Muestra..................................................................................................... Parámetros y Estimadores............................................................................................. Tamaño del Error de Estimación.................................................................................. Marco de Muestreo....................................................................................................... Pasos a seguir para el Diseño de una Encuesta.............................................................

CAPITULO 3 MUESTREO ALEATORIO SIMPLE

Introducción.................................................................................................................

Selección de la Muestra ¿Por qué usamos muestreo aleatorio simple? ............................................................... ¿Qué tipo de muestreo simple aleatorio debo utilizar?.................................................. Obtención de una Muestra Aleatoria Simple............................................................ ¿Cómo seleccionamos la muestra?................................................................................. ¿Dónde Proceso mis Datos?........................................................................................... Estimación de la Media y del Total de la Población................................................. Estimador de la Media Poblacional µ........................................................................... Estimador del Total Poblacional τ................................................................................ ¿Cuáles son esas características que hacen atractivo a un estimador?...........................

3

Page 4: TESIS MUESTREO Arana2003

Estimación de la Varianza de la Población................................................................ Estimador de la Varianza de la Media........................................................................... Estimador de la Varianza del Total............................................................................... Estimación del Intervalo de Confianza de la Media µ y del Total τ............................. Intervalo de confianza para la estimación de la media de la población ....................... Intervalo de confianza para la estimación del total de la población ............................. Precisión Relativa........................................................................................................ Cálculo del Tamaño de la Muestra............................................................................ ¿Qué significa Circularidad?.......................................................................................... ¿Hasta donde puedo equivocarme?................................................................................ Tamaño muestral requerido para estimar µ................................................................... Tamaño muestral requerido para estimar τ...................................................................217 Estimación de una Proporción Poblacional.............................................................. Estimador de la proporción de la población P .............................................................. Estimación de la Varianza de la Población.................................................................... Media y Varianza del Estimador de P............................................................................ Cálculo del Intervalo de Estimación de la Proporción P de la Población...................... Intervalo de confianza para la estimación de la proporción de la población.................. Varianza Acotada en la Estimación de una Proporción.................................................. Tamaño muestral requerido para estimar P ................................................................... APENDICE. Revisión Teórica..................................................................................... APÉNDICE II. Hoja de Cálculo..................................................................................

CAPITULO 4. MUESTREO ESTRATIFICADO.......................................

.............. Introducción..................................................

................................................................ Características del Muestreo Aleatorio Estratificado (MAE).................................. ¿Cuándo debo utilizar MAE?......................................................................................... Notación.......................................................................................................................... ¿Cómo seleccionar una muestra aleatoria estratificada?................................................. Estimación de la media y el total poblacional............................................................ Estimación de la Media Poblacional µst......................................................................... Estimación de la Varianza de st

Estimador del Total Poblacional..................................................................................... y ...................................................................................

Varianza Estimada del Estimador del Total Poblacional................................................

4

Page 5: TESIS MUESTREO Arana2003

Cálculo del Tamaño de la Muestra.........................................................

..................... Tamaño de Muestra Aproximado que se requiere para estimar µ y τ............................. Asignación Proporcional...........................................................................

Asignación Neyman.......................

.......................

................................................................................. Estimación de la Proporción Poblacional...................................................................

Asignación Óptima.......................................................................................................... Tamaño de Muestra para Estimar una Proporción......................................................... Asignación Proporcional.................................................................................................. Asignación Óptima.......................................................................................................... Asignación Neyman.............................................................................................. Selección de Estratos...................................................................................................... ¿Cómo delimitar mis estratos?......................................................................................... ¿Con base en qué delimitaría mis estratos?...................................................................... Comparación del muestreo Aleatorio Simple con el Estratificado.............................

5

Page 6: TESIS MUESTREO Arana2003

APENDICE. Revisión Teórica....................................................................................... APÉNDICE II. Hoja de Cálculo.................................................................................... CAPITULO 5. MUESTREO RAZÓN, REGRESIÓN Y DIFERENCIA Introducción.................................................................................................................... Estimador de una Razón Poblacional........................................................................... Razón Poblacional R......................................................................................................... Estimador de la Razón Poblacional r............................................................................... Varianza del estimador de la Razón Poblacional r.......................................................... Intervalo de confianza de r............................................................................................. Estimador de Razón de la Media y el Total Poblacional .......................................... Estimador de Razón de una Media Poblacional......................................................... Varianza Estimada

de ...................................................................................................217 Y

µEstimador del Total Poblacional........................................................................................

Varianza Estimada del Y

.................................................................................................. τSelección del Tamaño de Muestra...................................................................................

R Tamaño de muestra requerido para estimar ................................................................... Tamaño de muestra requerido para estimar µy ................................................................. Tamaño de muestra requerido para estimar τy .................................................................... ¿En qué caso utilizaríamos es .............................................. timación de razón?............

Estimador de Regresión......................................................

................................................ Estimador de Regresión de una Media Poblacional µyL......................................................... Varianza estimada del estimador

.................................................................................. YL

Estimador de Regresión para un Total

µ

Poblacional............................................................. Estimador de Diferencia.................................................................................................... Estimador de Diferencia de una Media Poblacional

YDµ ..................................................... ianza Estimada del Var Estimador de

YD

µ

PÉNDICE II. Hoja de

.............................................................................. APENDICE. Revisión Teórica............................................................................................. ACálculo.........................................................................................

6

Page 7: TESIS MUESTREO Arana2003

CAPITULO 6. MUESTREOSI

STEMÁTICO..................................................................

seleccionar una muestra

................................................................... .....................................................

.......

Varianza Estimada

Introducción......................................................................................................................... ¿Cómo sistemática?.................................................................... Población Aleatoria..................................................................................................................Población Ordenada............................................Población Cíclica ó Periódica.........................................Estimación de la Media y el Total Poblacional...........................................................Estimación de la Media µ de la Muestra Sistemática...........................................................

de∧

µEst Poblacional

de

...................................................................................................... imador del Total

τ........................................................................................ Varianza Estimada

sY

τ

P ........ .................................................................. .................................................................

µ...........................

Muestreo Sistemático con

Est as Sistemáticas

................................................................................................... Estimación de una ProporciónPoblacional.....................................................................

Proporción Poblacional Estimador de la ......................................................................

Varianza Estimada de P...................................Selección del Tamaño de Muestra....................Tamaño de Muestra Requerido para Estimar

......................................... Tamaño de Muestra Requerido para Estimar P......................................................................

Repeticiones...........................................................................

imación de la Media µ para MuestrReplicadas..............................

a Varianza Estimad∧

de µTotal

........................................................................................................ Estimación del

sYτ ...................................................................................................... de Varianza Estimada

sYτ ...................................................................................................... COMENTARIOS...............................................................................................................

7

Page 8: TESIS MUESTREO Arana2003

APÉNDICE II. Hoja de

REO POR CONGLOMERADOS EN UNA ETAPA .................................

¿Qué puede ser un conglomerado?................................................................................ estreo Estratificado.......................................................................

...........................

Cálculo........................................................................................ CAPITULO 7. MUESTIntroducción.....................................................................................217

Comparación con MuAcerca del Tamaño del Conglomerado ................................................Notación.............................................................................................................................. Estimación de una Media y un Total Poblacional........................................................... Estimador de la Media

.................................................................. Poblacional...................Varianza Estimada de

.................................................................................................... cyEstimador del Total Poblacional......................................................................................... Varianza Estimada de

cτ .................................................................................................... ¿Qué pasa cuando desconozco el tamaño de la población M? ................................................... Estimador del Total Po lacional......................................................................................b ..

amaño Aproximado Requerido para Estimar µ ..............................................................

Varianza Estimada de ∧

cτ ..................................................................................................... Determinación del Tamaño de Muestra.......................................................................... TTamaño Aproximado Requerido para Estimar τ usando cyM .........................................

τN ............................................ Tamaño Aproximado Requerido para Estimar τ usando ¿Cómo estimar una proporción poblacional?...............................................................

...Estimador de la Proporción Poblacional......................................................................∧

..

.

.................. ..............

.................................

Varianza estimada de p .................................................................................................c∧

Tamaño Aproximado Requerido para Estimar cp ....................................................

COMENTARIOS............................................................................................................. APÉNDICE II. Hoja de Cálculo.................................................................................... CAPITULO 8. MUESTREO POR CONGLOMERADOS EN DOS ETAPAS Introducción..................................................................................................................... Comparación con otros muestreos............................................................................... Notación.........................................................................................................Estimación de una Media Estimador de la Media Poblacional..............................................

y un Total Poblacional..........................................

Estimador de la Varianza de cy 2 ................................................................................... Estimador del Total Poblacional....................................................................................

arianza Estimada de ............................................................................................. ¿Qué pasa cuando desconozco el tamaño de la población?..........................................

c2τV

8

Page 9: TESIS MUESTREO Arana2003

Estimador de Razón de la Med ........................................... arianza Estimada de

ia Poblacional....................V ry 2 ................................................................................................

ar µ ...........................................................

álculo........................................................................................ IBLIOGRAFÍA................................................................................................................

Determinación del Tamaño de la Muestra.................................................................... Tamaño de m aproximado requerido para estimar µ ......................................................... Tamaño de n aproximado requerido para estimAPÉNDICE II. Hoja de CB..

9

Page 10: TESIS MUESTREO Arana2003

AGRADECIMIENTOS

i hogar durante siete años y por la que

uardo un profundo cariño y respeto.

l Dr. Hugo Ramírez Maldonado quien ha sido una persona muy importante en mi

rmación profesional y que ha dedicado su valioso tiempo a la elaboración de este

el apoyo y sus valiosas aportaciones a este texto.

l Ing. Romahn de la Vega por el apoyo en la formación de los alumnos de estadística.

ancisco Zamudio por el que guardo un gran cariño, y al que considero un

migo. Le agradezco por todo lo que aprendí dentro del aula para ser una profesional y

bre todo una persona diferente.

todos mis profesores de la Licenciatura en Estadística por el empeño que pusieron en

mis compañeros y en mí para ayudarnos a forjar nuestro futuro.

A la Universidad Autónoma Chapingo que fue m

g

A

fo

material.

Al Dr. Gerardo Terrazas a quien considero un profesor muy valioso por su empeño y

dedicación en nuestra formación y por la amistad que al mismo tiempo nos brinda. Le

agradezco

A

De igual manera le agradezco su apoyo en la elaboración de este texto.

Al Dr. Fr

a

so

A

10

Page 11: TESIS MUESTREO Arana2003

DEDICATORIA

mis padres por ayudarme a lle

i hermano Miguel qui do cerca de mí y a quien

uiero entrañablemente.

ón ,

oisés y Nohemí.

mis amigos y compañeros de trabajo que con su poyo me hacen más divertido el día a

rle

ocorro.

Catherine en quien encontré apoyo y cariño en muchos momentos difíciles.

ero sobre todo a Dios Padre con el que siempre he contado y que alimenta mi alma y

A gar hasta aquí.

A m en es el ser que siempre ha esta

q

A mis amigos a quienes quiero como hermanos, Adriana, Fernando, Marcos, M ica

M

A

día: Alex, Aura, Enrique, David, Doris, Luis, Mariana, Paulo, Ricardo, Sca tt, y

S

A

A Sandy Saltamontes por todo su amor, apoyo y entrega en estos años.

P

corazón.

11

Page 12: TESIS MUESTREO Arana2003

INDICE GENERAL

PRIMERA PARTE

edicatoria……………………………………………………………………….

ii

esum

ntecedentes…………………………………………………………………….. 4

esultados y Discusión…………………………………………………………. 7

iteratura Citada………………………………………………………………… 8

Agradecimientos………………………………………………………………….

i

D

Índice General…………………………………………………………………… iii R en………………………………………………………………………….

iv

Summary…………………………………………………………………………

v

Introducción………………………………………………………………………

1

A Objetivos…………………………………………………………………………

5

Materiales y Métodos……………………………………………………………

6

R L

12

Page 13: TESIS MUESTREO Arana2003

SEGUNDA PARTE

étodos de Muestreo…………………………………………………………… 9

RESUMEN

El texto pretende ser un apoyo para los estudiantes de un primer curso de

En principio el texto está diseñado para explicar las técnicas de muestreo de una

anera

con ayuda de ejemplos prácticos, de esta manera se busca que el

lumno se interese en el uso de estas técnicas y su aplicación en problemas de su

specialidad. En este sentido, se incluye un apéndice práctico que le ayudará a manejar

s datos en una hoja de cálculo.

Por otro lado y para los alumnos interesados en profundizar en el tema, se

cluye un apéndice teórico en donde se encuentra la derivación de algunos de los

stimadores vistos a lo largo del capítulo.

El texto está escrito en un lenguaje amigable para poder interesar a los alumnos

n su estudio.

alabras Claves: Estudiantes de especialidades en Ciencias Biológicas, primer curso de muestreo, técnicas de muestro, apéndice práctico, apéndice teórico.

M

Después del estudio de las necesidades de una población particular de

estudiantes, en este caso con Especialidad en Ciencias Biológicas, surge la idea de

diseñar un texto que se apegue al máximo a sus necesidades.

muestreo. Presentado las técnicas básicas, así como sus correspondientes estimadores.

m sencilla, guiando al lector desde el principio paso a paso hasta llegar a los

resultados esperados,

a

e

su

in

e

e

P

13

Page 14: TESIS MUESTREO Arana2003

SUMMARY

The present Textbook emerge from an analysis of texts needs on a population of

iological Science Students

The aim of this book is to describe sampling methods through detail but clear

ep by step explanations; practical examples are used as complementary material on

ach chapter so the student´s attention will always be kept. An included spreadsheet

elps the reader to solve data management issues.

Besides, for those who are looking for more detail on how the studied estimators

ere reached a theoretical annex is included at the end of each chapter.

The text was written on a kind language cause as explained before it is intended

r college students.

Key Words: Biological Science Students, First Sampling Curse, Sampling Methods,

Spreadsheet, Theoretical Annex.

B

st

e

h

w

fo

14

Page 15: TESIS MUESTREO Arana2003

15

Page 16: TESIS MUESTREO Arana2003

INTRODUCCIÓN Las necesidades de la sociedad se satisfacen mediante el uso de los recursos. Estos

recursos pueden ser de naturaleza muy diversa: la tierra cultivable, el agua, el clima, el

personal laboral, los procesos, la decisión de consumidores o de votantes, el volumen de

madera en un bosque; en pocas palabras, prácticamente de cualquier origen imaginable.

Para la administración de recursos siempre es necesario conocer la magnitud de

alguna o varias de las características de ellos. En el caso de la tierra cultivable, sus

características pueden ser el área, la fertilidad, la profundidad del suelo entre muchas otras.

Para el agua puede ser de interés saber su volumen, su calidad y/o su distribución durante el

año. Para el caso del clima generalmente son de interés las temperaturas, los vientos, la

humed

e éstos en el terreno, etcétera. Es decir, para

cada ti

cuantificar” el logro de la

conserv

servación mediante un

“uso su

ad relativa, la precipitación, etcétera. Para el personal laboral puede importar el

número, sus edades, su nivel de escolaridad, entre otras características. En los procesos

sería de utilidad determinar su eficiencia y sus demandas de insumos para operar, por

ejemplo; en el caso de consumidores o votantes será relevante saber su número y los

factores que pueden influir en sus decisiones. Para administrar la producción de madera de

un bosque es importante conocer su superficie, su productividad, las especies y

dimensiones de los árboles, la distribución d

po de recurso pueden ser pocas o muchas las características relevantes para su

administración y la determinación de la magnitud de ellas es necesaria para formular

adecuadamente cualquier intención de su administración.

Entre los recursos naturales son de particular importancia los renovables, más aún

en la actualidad, porque se pretende su conservación. Para poder “

ación es imprescindible conocer alguna magnitud de esos recursos. Así, si éstos

están en uso es posible dimensionar en que medida se logra su con

stentable”, fincado en su propiedad de ser renovables. De otra forma, aunque en el

presente no estén en uso, es necesario conocer alguna magnitud para vigilar su

comportamiento “natural”, que puede ser afectado por el uso de otros recursos aun en

localidades diferentes, o por factores ajenos a la acción del hombre o no identificables. En

cualquier caso, es necesario conocer números que describan o sumaricen las dimensiones

de las características del recurso.

1

Page 17: TESIS MUESTREO Arana2003

La intención de dimensionar una característica no es privativa de la investigación o

del trabajo técnico. En la vida cotidiana la necesidad de cuantificar o calificar sucede con

vasta fr

rencias, la oferta educativa, los costos involucrados,

las ex

ro también podría proponerse que la fuerza laboral esté

constituida por cuadrillas de obreros, cada una compuesta por un cierto número de obreros

definid

esté constituida por la acumulación de la biomasa viva existente en cada

nidad de superficie del terreno, digamos de un metro cuadrado.

En los dos ejemplos anteriores la totalidad del recurso es la misma en cada caso,

ero las partes constitutivas han sido definidas de manera diferente.

En otro ejemplo, al considerar que el recurso de interés es la totalidad de caña de

zúcar que durante una zafra habrá de ser procesada en un ingenio, las partes constitutivas

ueden ser cada una de las cañas, lo cual es correcto pero muy poco conveniente; una

efinición más apropiada de las partes constitutivas puede proponer que sean cada una de

s cargas de caña que serán transportadas por camión, si toda la caña es transportada al

genio de esa manera. Otra forma de definir las partes constitutivas puede proponer que

ecuencia, una persona que va a adquirir algún bien, toma una decisión determinando

la calidad de las diferentes opciones ofertadas en el mercado y la cantidad de acuerdo a una

estimación del consumo que hará de ese bien. Un estudiante decide la carrera que estudiará

considerando sus habilidades, sus prefe

pectativas de empleo, etc. En todos los casos se hace necesario determinar

dimensiones o magnitudes y con base en esa información se toman diversos cursos de

acción, pero generalmente no se cuenta con la totalidad de la información existente sino

solamente con una fracción de ella, es decir, una muestra.

El recurso que se pretende evaluar puede considerarse compuesto por partes cuya

acumulación constituye la totalidad del recurso. Esas partes pueden existir de manera

natural o ser definidas convenientemente. Por ejemplo, la fuerza laboral de una fábrica

puede ser la totalidad de obreros con que cuenta y las partes que la constituyen podrían ser

cada uno de los obreros; pe

o de manera adecuada para la fábrica.

Si el recurso de interés es la biomasa que existe en un terreno determinado, las

partes constitutivas pueden ser los organismos que están presentes en el terreno y su

acumulación constituye la totalidad de recurso; pero también se puede considerar que la

totalidad de éste,

u

p

a

p

d

la

in

2

Page 18: TESIS MUESTREO Arana2003

sean los volúmenes de caña prov de los predios cuya producción

ñoso o no leñoso, etc.

La información sobre las cantidades y calidades de un recurso para tomar una

La cantidad total de un recurso formalmente la denominaremos población, y una

parte d

enientes de cada uno

constituirá el abastecimiento total para el ingenio durante esa zafra.

Como se mencionó arriba, en cada recurso puede hacerse la determinación de

diversas dimensiones. Por ejemplo, en el caso de la biomasa viva puede ser de interés su

volumen medido en unidades cúbicas, su peso medido en kilogramos, su volumen

clasificado en le

decisión pueden ser obtenidas mediante una evaluación exhaustiva, esto es, cuantificar o

calificar todo el recurso. Sin embargo, en la mayoría de las circunstancias no es posible o

conveniente hacer la evaluación exhaustiva; en tales casos la evaluación se hace solamente

en una parte del recurso. Al hacer la evaluación en solamente una parte de la totalidad del

recurso se espera que las determinaciones hechas también pertenezcan a la totalidad, así

implícitamente se acepta esa suposición, aunque siempre se corre el riesgo de que tal

suposición no sea totalmente cierta. El objetivo sustantivo de las técnicas de muestreo es

darle objetividad a ese riesgo.

e ese total constituye una muestra. Así, las mediciones se hacen en la muestra y se

espera que los valores obtenidos correspondan también a la población. Los valores de

interés de la población los denominamos parámetros y los correspondientes en la muestra

son estimadores.

3

Page 19: TESIS MUESTREO Arana2003

ANTECEDENTES

Las preguntas que planteamos en cuanto a muestreo fueron, ¿Es necesario que

studiantes de especialidades biológ las técnicas de muestreo, ¿Que tan

te brindar estas técnicas

stadísticas a alumnos de licenciatura?, ¿Que tan profundo deber ser el conocimiento de

esta

Contestando estas preguntas podemos decir que existen varios libros ya antiguos

que nos presentan las principales técnicas, sin embargo la mayoría de estos o abundan en la

teor a mayoría de los textos hechos

recientemente describen las principales técnicas de muestreo pero generalmente tienen un

enfoque totalmente administrativo.Esto resulta curioso, pues es precisamente en las ciencias

bio

alternat

especia ermita conocer de una manera amigable y actual las

cnicas de muestreo.

licencia

cuantif nómenos y justificar de una manera técnica estas aseveraciones, por

sto es necesario que los estudiantes conozcan este tipo de técnicas que le ayudarán en este

roceso y se sembrará el interés de aplicarlas en su especialidad.

idad del estudio de las técnicas de muestreo, podemos

observar que existen varios textos que van desde el análisis teórico de los estimadores hasta

otros donde se presentan tan sólo los estimadores, en este rango existen pasos intermedios

on e se presentan diferentes combinaciones entre teoría y práctica, es importante tener en

uenta estos dos aspectos, por un lado ofrecer una opción calibrada para estudiantes que

ecesitan poner estos conocimientos en práctica y por otro lado una parte teórica que les

ermita profundizar en el análisis de los estimadores a los que lo consideren necesario o

teresante.

e icas conozcan

accesible son actualmente para ellos estas?, ¿Es importan

e

s técnicas?

ía o presentan un lenguaje poco actual, por otro lado l

lógicas donde originalmente se desarrollaron estas técnicas, este texto busca ser una

iva para estudiantes de un primer curso de muestreo de cualquiera de las

lidades de la UACh que les p

En cuanto a la importancia del conocimiento de estas técnicas por alumnos de

tura, podemos decir que es en este nivel donde se empieza a querer medir o

icar ciertos fe

e

p

En cuanto a la profund

d d

c

n

p

in

4

Page 20: TESIS MUESTREO Arana2003

se persiguen son,

fiables que podemos aceptar que estiman correctamente a sus

rrespondientes parámetros.

Exponer las fórmulas adecuadas para calcular de qué tamaño debe ser una muestra

texto ha sido escrito para poder ser un material de apoyo para un primer curso de

muestreo de licenciatura.

OBJETIVOS Los objetivos centrales que en este libro

Presentar las formas adecuadas de seleccionar una muestra, lo que denominaremos

diseños de muestreo, considerando las características de las poblaciones de interés.

Exponer las fórmulas para calcular los estimadores.

Presentar la manera de relacionar los estimadores con los parámetros, obteniendo

indicadores con

co

para que se satisfagan exigencias preestablecidas sobre la calidad de los

estimadores.

El

5

Page 21: TESIS MUESTREO Arana2003

MATERIALES Y MÉTODOS os los programas analíticos de los cursos de métodos de muestreo, para

con

stimadores

dim s una explicación breve sobre su derivación e incluimos un ejemplo para cada

esti

guaje utilizado durante el desarrollo de los capítulos es sencillo y pretende

spirar confianza al lector.

Decidimos que la presentación de los estimadores y los ejemplos de la utilización de

stos se presentarán sin profundizar en aspectos teóricos. Ya que consideramos conveniente

cluir la parte teórica al final de la introducción de los estimadores para evitar complejidad

los que no lo consideren necesario y por otro lado, darles un sustento teórico a los que lo

ecesite.

Por último construimos una hoja de cálculo en excel que tiene programados los

stimadores correspondientes a cada diseño de muestreo y que es capaz de resolver algunos

jemplos prácticos.

Revisam

struir el la de nuestro texto con los temas necesarios en el orden correspondiente y de

esta manera cubrir todo el programa.

Al mismo tiempo revisamos varios temarios de textos referentes a los métodos de

muestreo y los temas que resultaron complementarios los tomamos para así finalmente

tener la estructura final de nuestro texto.

Para desarrollar los temas, primero introducimos al estudiante en los aspectos generales

del muestreo, y posteriormente dividimos en capítulos. En cada capítulo incluimos una

explicación sobre el diseño de muestreo al que nos referimos y antes de dar los e

o

mador presentado.

El len

in

e

in

a

n

e

e

6

Page 22: TESIS MUESTREO Arana2003

RESULTADOS Y DISCUSIÓN

muestreo para

apropiado para otras disciplinas. No se supone un conocimiento amplio sobre matemáticas

probabilidad, y por lo tanto tampoco abunda en demostraciones formales. Sin embargo, se

han inc ser

rimer curso sobre métodos de muestreo para estudiantes de la carrera de

de

s resu e incluye un disquete que contiene

ojas de cálculo diseñadas para calcular estimadores en los diferentes diseños de muestreo

tes de

licenci ura y que este pretende ser un facilitador en la enseñanza de las técnicas de

Este texto ha sido escrito para que sea de utilidad en un primer curso de

estudiantes de licenciatura, preponderantemente en ciencias biológicas aunque también se

o

luido algunos conceptos básicos de teoría con la intención de que también pueda

utilizad en un po

estadística. Por esto, al final de cada capítulo se incluye una breve explicación teórica

ltados que se presenten. Por otro lado, también slo

h

y un apéndice práctico al final de cada capítulo para el uso de esta herramienta.

Podemos decir que el texto puede ser una opción más para los estudian

at

muestreo.

7

Page 23: TESIS MUESTREO Arana2003

LITERATURA CITADA ZORIN, F.1967. Curso de Muestreo y Aplicaciones. Ed. Aguilar. Madrid.

OCHRAN, W.1980. Técnicas de Muestreo. Ed. Compañía Editorial Continental. Harvard University

GONICK, L. and SMITH, W. 1993. The Cartoon Guide os Statistics.De. Harper erennial.USA.

HANSEN, M.,HURWITS, W. and MADOW, W. 1953. Sample Survey Methods and

Theory. Ed. John Wiley & Sons. Canada. Vol 1. HANSEN, M.,HURWIT rvey Methods and

Theory. Ed. John INFANTE, S. y ZÁRATE G. 1988. Métodos Estadísticos. Ed. Trillas. México. D.F.

KISH, Leslie.

OHR, S.2000.Muestreo. Diseño y Análisis, Ed. International Thomson. Arizona.

CHREUDER, H., GREGOIRE, T. y WOOD, G. 1993. Sampling Methods for Multiresource Forest Inventory. Ed. John Wiley & Sons. Canada.

SHIVER, B. and BORDERS, B. 1996. Sampling Technics for Forest Resource Inventory. Ed. John Wiley & Sons. Georgia.

SUKHAME, P. and SUKHAME, B. 1954. Sampling Theory of Surveys with

Applications. Iowa Sate University. USA. THOMPSON, S.1992. Sampling. Ed. John Wiley & Sons. Pennsylvania. WOODROOFE, M. 2000. Probabilidad con aplicaciones.Universidad de Michigan.

México. YAMANE, Taro. 1967. Elementary Sampling Theory. Ed. Pretice-Hall.New York

University.

A C

P

S, W. y MADOW, W. 1953. Sample Su Wiley & Sons. Canada. Vol 2.

1975. Muestreo de Encuestas. Ed. Trillas. México D.F. L S

8

Page 24: TESIS MUESTREO Arana2003

SEGUNDA PARTE

MÉTODOS DE MUESTREO

9

Page 25: TESIS MUESTREO Arana2003

ÍNDICE CAPÍTULO 1. CONCEPTOS BÁSICOS DE ESTADÍSTICA YPRELIMINARES

1112

UESTREO

....

tervalo de confianza para la estimación del total de la población ......................... 41recisión Relativa.................................................................................................... 42

.....… 42

MATEMÁTICOS ¿Qué es la estadística y para qué sirve?........................................................………… 1Estadística Descriptiva.........................................................................................….. 1Ordenamiento, Clasificación y Frecuencia………………………………………….. 2Medidas de Tendencia Central..................................................................................... 5Medidas de Dispersión................................................................................................. 7Análisis Teórico de los Estimadores ...................................................................…. Distribución de Probabilidades................................................................................

04

Distribuciones Discretas.............................................................................................. 9Distribuciones Continuas............................................................................................. 3 CAPÍTULO 2 ASPECTOS GENERALES DEL MIntroducción.........................................................................................................…. 22¿Qué es una Medición? ..........................................................................................… 24Variables..................................................................................................................… 24Población y Muestra................................................................................................… 24Parámetros y Estimadores.......................................................................................... 25Tamaño del Error de Estimación................................................................................ 26Marco de Muestreo..................................................................................................... 27Pasos a seguir para el Diseño de una Encuesta........................................................... 28 CAPITULO 3 MUESTREO ALEATORIO SIMPLE Introducción............................................................................................................. 31Selección de la Muestra…………………………………………………………... 32¿Por qué usamos muestreo aleatorio simple? ........................................................... 32¿Qué tipo de muestreo simple aleatorio debo utilizar?.........................................… 32Obtención de una Muestra Aleatoria Simple...................................................... 33¿Cómo seleccionamos la muestra?.............................................................................. 33¿Dónde Proceso mis Datos?...................................................................................... 34Estimación de la Media y del Total de la Población.............................................. 34Estimador de la Media Poblacional µ...................................................................... 34Estimador del Total Poblacional τ......................................................................... 35¿Cuáles son esas características que hacen atractivo a un estimador?....................... 35Estimación de la Varianza de la Población............................................................ 38Estimador de la Varianza de la Media...................................................................… 38Estimador de la Varianza del Total........................................................................… 39Estimación del Intervalo de Confianza de la Media µ y del Total τ.....................…. 40Intervalo de confianza para la estimación de la media de la población ................... 41InPCálculo del Tamaño de la Muestra................................................................¿Qué significa Circularidad?.................................................................................... 43¿Hasta donde puedo equivocarme?.......................................................................... 44

10

Page 26: TESIS MUESTREO Arana2003

Tamaño muestral requerido para estimar µ.................................................................. 45Tamaño muestral requerido para estimar τ................................................................... 45Estimación de una Proporción Poblacional........................................................….. 46Estimador de la proporción de la población P ............................................................. 47Estimación de la Varianza de la Población...................................................................

.

.

48Media y Varianza del Estimador de P.......................................................................... 49Cálculo del Intervalo de Estimación de la Proporción P de la Población..................... 50Intervalo de confianza para la estimación de la proporción de la población................ 50Varianza Acotada en la Estimación de una Proporción................................................ 50Tamaño muestral requerido para estimar P ................................................................. 51APENDICE. Revisión Teórica.................................................................................. 52APÉNDICE II. Hoja de Cálculo................................................................................ 58 CAPITULO 4. MUESTREO ESTRATIFICADO Introducción................................................................................................................. 61

62Características del Muestreo Aleatorio Estratificado (MAE)................................¿Cuándo debo utilizar MAE?........................................................................................ 62Notación........................................................................................................................ ¿Cómo seleccionar una muestra aleatoria estratificada?...............................................

6264

Estimación de la media y el total poblacional........................................................... 64Estimación de la Media Poblacional µ ....................................................................st .. 65Estimación de la Varianza de sty ............................................................................….

stimador del Total Poblacional................................................................................... 65

E 66Varianza Estimada del Estimador del Total Poblacional.............................................. 67

Asignación Proporcional............................................................................................... 81

. .

ó 100 . ...1

Cálculo del Tamaño de la Muestra............................................................................ 69Tamaño de Muestra Aproximado que se requiere para estimar µ y τ........................... 71Asignación Proporcional............................................................................................... 71Asignación Óptima........................................................................................................ 72Asignación Neyman...................................................................................................... 73Estimación de la Proporción Poblacional................................................................. 76Tamaño de Muestra para Estimar una Proporción........................................................ 80

80Asignación Óptima........................................................................................................ Asignación Neyman.............................................................................................. 81Selección de Estratos.. ............................................................................................... 82¿Cómo delimitar mis estratos?...................................................................................... 83¿Con base en qué delimitaría mis estratos?................................................................... 83Comparación del muestreo Aleatorio Simple con el Estratificado......................... 85APENDICE. Revisión Teórica................................................................................... 86APÉNDICE II. Hoja de Cálculo................................................................................ 96 CAPITULO 5. MUESTREO RAZÓN, REGRESIÓN Y DIFERENCIA Introducción. ................................................................................................................ Estimador de una Raz n Poblacional........................................................................

99

Razón Poblacional R.. ................................................................................................ 00

11

Page 27: TESIS MUESTREO Arana2003

Estimador de la Razón blacional r............................................................................1Po

stimador de Razón de la Media y el Total Poblacional ........................................ 103 103

01 Varianza del estimador de la Razón Poblacional r....................................................... 101Intervalo de confianza de r........................................................................................... 101EEstimador de Razón de una Media Poblacional......................................................…

Varianza Estimada de ∧

Yµ ............................................................................................. 103

Estimador del Total Poblacional................................................................................... ∧

105

Varianza Estimada del Yτ ............................................................................................ 106

Selección del Tamaño de Muestra............................................................................. 107Tamaño de muestra requerido para estimar R .............................................................. 107Tamaño de muestra requerido para estimar µy .......................................................... 108Tamaño de muestra requerido para estimar τy ........................................................... 108¿En qué caso utilizaríamos estimación de razón?.................................................... 109Estimador de Regresión.............................................................................................. 110Estimador de Regresión de una Media Poblacional µyL............................................. 111

Varianza estimada del estimador ∧

YLµ ......................................................................... 111

Estimador de Regresión para un Total Poblacional..................................................... 113Estimador de Diferencia............................................................................................. 113Estimador de Diferencia de una Media Poblacional YDµ ............................................ 113

Varianza Estimada del Estimador de YD ................................................................... ∧

µ

....

oblación Ordenada...................................................................................................... 128.. 129

114

APENDICE. Revisión Teórica................................................................................... 116APÉNDICE II. Hoja de Cálculo................................................................................ 123 CAPITULO 6. MUESTREO SISTEMÁTICO Introducción.................................................... ......................................................... 126¿Cómo seleccionar una muestra sistemática?.......................................................... 127Población Aleatoria....................................................................................................... 128PPoblación Cíclica ó Periódica.....................................................................................Estimación de la Media y el Total Poblacional......................................................... 130Estimación de la Media µ de la Muestra Sistemática.................................................. 130

Varianza Estimada de ∧

µ .............................................................................................. 130

Estimador del Total Poblacional τ................................................................................ 132

Varianza Estimada de sY

τ . ...

..

.... ...................................................................................132

Estimación de una Proporción Poblacional.............................................................. 134Estimador de la Proporción Poblacional P.................................................................... 134Varianza Estimada de P................................................................................................ 134Selección del Tamaño de Muestra............................................................................. 136Tamaño de Muestra Requerido para Estimar µ.......................................................... 136Tamaño de Muestra Requerido para Estimar P............................................................ 136Muestreo Sistemático con Repeticiones..................................................................... 137Estimación de la Media µ para Muestras Sistemáticas Replicadas...................... 138

12

Page 28: TESIS MUESTREO Arana2003

Varianza Estimada de ∧

µ ............................................................................................. stimación del Total

138

............................................................................................. 140sYτEVarianza Estimada de sYτ ............................................................................................ 140

OMENTARIOS........................................................................................................ 142PÉNDICE II. Hoja de Cálculo................................................................................ 143

APITULO 7. MUESTREO POR CONGLOMERADOS EN UNA ETAPA troducción................................................................................................................ 145

Qué p conglomerado?............................................................................ 146ompa Muestreo Estratificado................................................................ 146

Acerca del Tamaño del Conglomerado .................................................................... 147Notación........................................................................................................................ 147Estimación de una Media y un Total Poblacional.................................................... 148Estimador de la Media Poblacional............................................................................... 149Varian de

CA CIn¿C

uede ser unración con

za Estimada

cy ............................................................................................ 149Estimador del Total Poblacional................................................................................... 151Varianza E ........ 151¿Qué pasa cuando desconozco el tamaño de la población?.......................................... 153Estimador del Total Poblacional................................................................................... 153

Varianza Estimada de ............................................................................................. 153

Determinación del Tamaño de Muestra.................................................................... 155Tamaño Aproximado Requerido para Estimar µ ......................................................... 156Tamaño Aproximado Requerido para Estimar τ usando

stimada de .........................................................................................

cyM .................................... 156

Tamaño Aproximado Requerido para Estimar τ usando τN ...................................... 157¿Cómo estimar una proporción poblacional?......................................................... 158Estimador de la Proporción Poblacional....................................................................... 158

Varianza estimada de ............................................................................................ 158

Tamaño Aproximado Requerido para Estimar .................................................... 160

COMENTARIOS........................................................................................................ 160APÉNDICE II. Hoja de Cálculo................................................................................ 161 CAPITULO 8. MUESTREO POR CONGLOMERADOS EN DOS ETAPAS Introducción................................................................................................................. 163Comparación con otros muestreos............................................................................. 165Notación........................................................................................................................ 166Estimación de una Media y un Total Poblacional.................................................... 166Estimador de la Media Poblacional........................................................................... 167Estimador de la Varianza de

cp∧

cp

cy 2 ................................................................................ 167Estimador del Total Poblacional.................................................................................. 170Varianza Estimada de ry 2 ........................................................................................... 170¿Qué pasa cuando desconozco el tamaño de la población?..................................... 171Estimador de Razón de la Media Poblacional........................................................ 171

13

Page 29: TESIS MUESTREO Arana2003

ry 2Varianza Estimada de .......................................................................................... 172Determinación del Tamaño de la Muestra............................................................... 174Tamaño de m aproximado requerido para estimar µ ................................................. 175

amaño de n aproximado requerido para estimar µ ................................................... 175PÉNDICE II. Hoja de Cálculo................................................................................ 176

........................ 178

1

C

TABIBLIOGRAFÍA...............................................................................

APÍTULO

CONCEPTOS BÁSICOS DE ESTADÍSTICA

14

Page 30: TESIS MUESTREO Arana2003

¿QUÉ ES LA ESTADÍSTICA Y PARA QUÉ SIRVE?

Aunque al intentar una definición siempre se corre el riesgo de incurrir en proposiciones demasiado generales, que son vagas, o en otras demasiado específicas que resultan insuficientes o restrictivas, suele ser conveniente aceptar alguna definición que al menos siente un lugar común de referencia. Existen numerosas definiciones en la literatura relacionada con la estadística. En lugar de hacer acopio de diversas definiciones y darnos a la tarea de compararlas, señalando su vaguedad o insuficiencia, aceptaremos la siguiente,

Definición Estadística “La estadística es la ciencia de la recopilación, clasificación, presentación e

interpretación de datos” (Johnson, 1996). La estadística sirve para, 1. Describir a un conjunto de objetos mediante el análisis de algunos de sus elementos. 2. Tomar decisiones sobre opciones diversas con información parcial contenida en un conjunto de datos. 3. Predecir el comportamiento de una medida o característica, en condiciones no observadas. Los usos y aplicaciones son innumerables; sin embargo estas se pueden resumir en algunos de los puntos anteriores con la finalidad de llevar a cabo inferencias sobre la población (estimación y pruebas de hipótesis). ESTADÍSTI

mo se me nó, uno d objetivos de l dística es terpretaci e datos, es decir, obtener la información que ellos contienen. Un conjunto de datos en forma de un listado tiene utilidades muy importantes y diversas, pero también tiene limitacione cuanto a poder comunicar la información. Enseguida revisar s algunas técnicas que nos permitan leer e interpretar má ilmente la información contenida en un conjunto de datos. ORDENAMIENTO, CLASIFICACIÓN Y FRECUENCIA

proceso in puede ser el denamiento e los valores de acuerdo a su magnitud de manera crecie decreciente a actualidad programas de cómputo muy eficientes y sencillos de manejar para realizar esta tarea.

biendo orde os datos se puede observar r q de y calcular el rango amplitud que es l difere ia res.

mbién será p inar l es el valor qu pa la posición l en l sta or , si el número de valores es im será el valor upa exactam a po ión c el número es par será el prome e los dos va centrales; es lor, para el que itad d os val on me res y l mitad son m s, se llama m a.

niendo orde os valores t bién será fácil inar se rep cada uno, al valor que se e un mayor veces se le llama moda. P n hab o alores e teng ayor frecue ada uno, as onjunto de d calificará c unimo l, bim multimodal, e , que tienen dos o mucha das.

ra acción qu de ser conv para obten a informaci conj de v es la clasifi n, ésta cons ncluir ca valor en una c depen ndo agn . Est ón es frecue ente usada para trabajar con información relativa metros de árb edido centí . Así, por ej omando cl 5 en 5 los ores 12, 13, 14 , 18 , pue ignarse a las cl 0, 15, 15, 15 20, 20, resp mente. De e anera se pierd ta pre ión e alore ro se ganar la pos ad de resum formación. a una de las cla el eje lo tie ites d se, u rior y

CA DESCRIPTIVA e los ón dCo a estancio la in

s enemo

s fác

Un icial or dnte o . En l existen

Ha nado l fácilmente el valo más pe ueño y eleso d

mos lo

ás gran o , a nc entre s va

Ta osible determ cua e ocu centra a li denadapar que oc ente l sic entral, si

dio d lores e va la m e l ores s no a otra ayore edian

Te nados l am determ cuantas veces ite repit número de uede er dos más v qu an la mncia c í el c atos se omo da odal o s decir una, s mo

Ot e pue eniente er ciert ón del unto alores cació iste en i da lase die de su m itud a opcintem a diá oles m s en metrosemplo t ases de val , 15, 16 , 22 den as ases 1, 15, ectiva sta m e cier cis n los v s pe puede ibilid ir la in Cad ses d mp ne lím e cla no infe

Page 31: TESIS MUESTREO Arana2003

otro superior, el valor central de la clase se denomina marca de clase; por ejemplo, la primera clase expuesta tiene como límite inferior 7.5 cm, el superior es 12.4 cm y la marca de clase es 10 cm, etcétera.

Una clas s los lores s e hacer un pamiento para marca e clase tar la frecuencia ab uta p e, est el número de valores q edan i uido da cla

El ra o, la a y la moda s en determi mbién ara la s, au e se h rdido cierta precisión existen fórmulas q permi catarla au totalmente.

La c ifica su s lamiento de frecuen iten trodu gunas ociones útiles. La fre ia, es decir e ero d lores da clase ncluye, dividida entre el número total de valores, se de frecuencia relativa y v de c no; natu ente, la suma de todas las frecuencias relativas es

no. La suma de la frecuencia, absoluta o relativa de una clase, más las frecuencias, absolutas o relativas, orrespondientemente, de las clases menores se llama frecuencia acumulada, absoluta o relativa, la frecuencia

a es un

ecuencia re la frecu lativa acu nen una in términos de probabili La frecuencia relativa de un es una apro ación de la prob de que un valor cualquiera proveniente de conjunto pertenezca a esa clas modo semejante, la frecuencia relativa acumulad e una clase lo es de la proba e que un v cualquiera prove e ese conjunto de

p nezca a esa clase a una menor

ón transversal del tronco del árbol a una altura de 1.30m) medidos en centímetros que se muestran en el Cuadro 1. La primera columna contiene los datos originales, la segunda los muestra ordenados de menor a mayor, la tercera columna muestra la categoría a la que pertenecen teniendo categorías de 5cm de amplitud y marca de clase en múltiplos de 5cm, de la cuarta columna a la octava se incluyen los valores observados, su frecuencia absoluta y la frecuencia relativa. En el Cuadro 2 se muestran las clases o categorías observadas, la frecuencia absoluta y relativa, así como éstas acumuladas, las que también se muestran en forma gráfica en las Figuras 1 y 2. Cuadro 1. Datos de diámetro normal de 35 árboles Datos originales de

diámetro (cm)

Datos ordenados crecientemente

(cm)

Clase o categoría (cm)

vez ificado va e pued agru cada d y anosol or clas o es ue qu ncl s en ca se. ng median e pued nar ta p s clase nqu aya pe

ue ten res nque no las ción y eña cia perm in cir al n

cuenc l núm e va que ca iralmnomina aría ero a u

ucacumulada absoluta de la clase más grande es el número total de valores y su frecuencia acumulada relativ

o. La fr lativa y encia re mulada tie terpretación endad. a clase xim abilidad

ese e. De a d bilidad d alor niente d

valores E

erte o . jemplo. Ordenamiento, clasificación y frecuencias

Los 35 árboles de una parcela tienen los diámetros normales (es el diámetro de la secci

16.3 13.2 15 23.5 16.3 15 18.9 17.8 20 20.3 18.7 20 21.0 18.7 20 21.5 18.9 20

20 20

24.1 19.6 20 18

21.9 20 19.6 22.4 20 18.7 22.4 20 23.8 22.4 20 22.4 22.4 20 26.3 22.4 20 22.4 23.1 25 22.4 23.2 25 25.8 23.2 25 23.2 23.2 25 24.3 23.5 25 23.2 23.6 25 25.1 23.8 25 19.6 24.1 25 18.7 24.3 25

28.9 18.9 23.6 19.6

.9 20.3 20 17.8 20.4 20 21.9 21.0 20 20.4 21.5 20 23.2 21.6 20 26.5

Datos originales de diámetro

(cm)

Datos ordenados crecientemente

(cm)

Clase o categoría (cm)

22.4 24.5 25 13.2 25.1 25 21.6 25.8 25 22.4 26.3 25 23.1 26.5 25 24.5 28.9 30

Valores observados

(cm)

Frecuencia absoluta

Frecuencia relativa

Frecuencia absoluta

acumulada

Frecuencia Relativa

Acumulada13.2 1 0.029 1 0.029 16.3 1 0.029 2 0.057 17.8 1 0.029 3 0.086 18.7 2 0.057 5 0.143 18.9 2 0.057 7 0.200 19.6 2 0.057 9 0.257 20.3 1 0.029 10 0.286 20.4 1 0.029 11 0.314 21.0 1 0.029 12 0.343 21.5 1 0.029 13 0.371 21.6 1 0.029 14 0.400 21.9 1 0.029 15 0.429 22.4 5 0.143 20 0.571 23.1 1 0.029 21 0.600 23.2 3 0.086 24 0.686 23.5 1 0.029 25 0.714

2

Page 32: TESIS MUESTREO Arana2003

Valores vados

(cm)

Frecuencia absoluta

Frecuencia relativa

Frecuencia absoluta

acumulada

Frecuencia Relativa

Acumuladaobser

23.6 1 0.029 26 0.743 23.8 1 0.029 27 0.771 24.1 1 0.029 28 0.800 24.3 1 0.029 29 0.829 24.5 1 0.029 30 0.857 25.1 1 0.029 31 0.886 25.8 1 0.029 32 0.914

Valores observados

(cm)

Frecuencia absoluta

Frecuencia relativa

Frecuencia absoluta

acumulada

Frecuencia Relativa

Acumulada26.3 1 0.029 33 0.943 26.5 1 0.029 34 0.971 28.9 1 0.029 35 1.000

Número de datos 35 1.000

Cuadro 2

Clase . Datos de diámetro de 35 árboles mostrados en el Cuadro 1, ahora agrupados en categorías.

o categoría (cm)

Frecuencia absoluta

Frecuencia relativa

Frecuencia absoluta acumulada

Frecuencia relativa acumulada

15 2 0.0571 2 0.0571 20 18 0.5143 20 0.5714

0.9714 30 1 0.0286 35 1.0000 25 14 0.4000 34

Representación gráfica de las frecuencias y de las frecuencias acumuladas

Frecuencia Absoluta Figura 2. Frecuencia Relativa

l menor valor es de 13.2 y el mayor de 28.9cm, por lo que el rango de valores es de 15.7cm; en las columnas cuarta y quinta se puede leer que el valor más frecuente o la moda es de 22.4cm con cinco valores en su frecuencia. Información que no era tan fácilmente identificable en la primera columna.

Figura 1.

En cuanto a las estadísticas descriptivas que podemos calcular está el rango, observando en la segunda columna del Cuadro 1 se aprecia inmediatamente que e

0

5

30 15

10

15

20

25

30

35

40

25 20

Frecuenciaabsoluta

frecuenciaabsolutaacumulada

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

30 15 25 20

Frecuenciaelativar

frecuenciarelativaacumulada

3

Page 33: TESIS MUESTREO Arana2003

MEDIDAS

Al te cuál puede ser el centro de la distribución o valor típico, u er esto se denomina una medida de tendencia central. Las tres medidas

pleadas son la media, la mediana y la moda, éstas son funciones que se r en un conjunto de datos, por ello existen para una población y también para una muestra, es decir

pueden s

DE TENDENCIA CENTRAL ner un conjunto de datos, suele ser de interés saber n valor que tienda a satisfac

ás comúnmente emde tendencia central mpueden defini

er parámetros o estimadores. Esto es, los valores poblacionales de estos indicadores (los parámetros) se estiman con los valores muestrales (estimadores). La media es la más usada de ellas, a continuación será introducida. Media

Es un promedio de un conjunto de valores, y se representa por Yµ cuando se hace referencia a una

población cuyos elementos se simbolizan por “y”, y por y , cuando la media se refiera a una muestra de esa población. Se les denominarán media poblacional y media muestral respectivamente.

Empleando la simbología ya expuesta, la media de la población es,

NY

y para una muestra será,

yi

i∑N

== 1µ

n

yy i

i

n

∑=

s del conjunto población y n el tamaño de µ no siempre se escriben, ya que el

propio cont ario anotarlos para evitar una posible confusión;

Es i da sólo para una población finita, es, la generalización la veremos más adelante al tratar el

valor esperado.

jemplo

os la media muestral del diámetro de los árboles, usando los datos del Cuadro 1.

ustituy

= 1

En donde N significa el número de elementola muestra. Los límites de la sumatoria y el subíndice de

exto los define, aunque en ocasiones es necesen el presente texto generalmente no se usarán a menos que sea conveniente.

mportante hacer notar que esta definición está dadiscreta y con valores equiprobabltema de

E

Obtengam

S endo la fórmula se tiene lo siguiente,

9852135

524123422918523316.

......y =++++++

=L

En una tabla de frecuencias, la media aritmética se calcula suponiendo que todas las observaciones en

ase son iguales a su valor medio ( , por lo que la contribución de la i-ésima clase a la suma es . Por edia se calcula por la ecuación,

iv ) iivfuna cllo tanto, la m

∑=

=k

vfy 1 i

iin 1

4

Page 34: TESIS MUESTREO Arana2003

equivalentemente,

∑=k

iivpy =i 1

recuencia absoluta de la i-ésima clase

La mediana como ya se mencionó, es el valor que divide a los datos en mitades, una

es o iguales a la mediana y otra con aquellas menores o

será la mediana; si n es un número par, hay dos valores centrales, y la mediana debe tomarse como la

e estos dos valores.

ulada hasta ella, son respectivamente menor que, y mayor o igual que 0.5.

b)

donde, fi: F

vi: Valor medio de la i-ésima clase

pi: Frecuencia relativa de la i-ésima clase

k: El número de clases

Mediana

con todas las observaciones mayoriguales a ella. Para conjuntos de datos asimétricos (que tienen muchos datos pequeños y pocos grandes o viceversa), es mejor medida de tendencia central que la media.

La mediana (Me) de un conjunto de n datos, ordenados de menor a mayor, es el número central en el arreglo. Si n es un número non, solo hay un valor central y ese

media d

Para calcular la mediana en una tabla de frecuencias se procede de la siguiente manera,

a) Localice la clase de la mediana, que es la clase en que la frecuencia relativa acumulada hasta la clase que le precede y la frecuencia relativa acum

La mediana se calcula mediante la siguiente ecuación,

( )( )d

cabaMe −−+=

5.0

donde, r de la clase de la mediana.

b: Límite superior de la clase de la mediana.

con mayor frecuencia. Si es un valor único decimos que la distribución de frecuencias es unimodal, si se tienen dos o más valores con la misma frecuencia máxima, decimos que la distribución es bimodal y así sucesivamente.

a: Límite inferio

c: Frecuencia relativa acumulada hasta la clase que precede a la de la mediana.

d: Frecuencia relativa de la clase de la mediana.

Moda

Esta medida de tendencia central es poco usada, ya que puede ocurrir que no exista o que no sea un valor único.

La moda (Mo) de un conjunto de datos es el valor (si existe) que ocurre

5

Page 35: TESIS MUESTREO Arana2003

Ejemplo Del Cuadro 1, podemos observar que el valor que se repite má veces es 22.4cm, por

lo tanto esta es la media de los datos.

a

la mediana tienen las mismas unidades que los datos, es decir, si los datos están expresados en centímetros, cualquiera de éstas también lo estarán.

n la sección anterior discutimos las medida ue describen el “centro” de una distribución de n, puesto que por otro lado Existen varios parámetros y

stimadores que miden esta característica, tales como: el rango o amplitud, la desviación media, la varianza, la esviación estándar y el coeficiente de variación, los cuales describiremos brevemente a continuación.

l valor más grande y el más chico, esta medida de dispersión es la más fácil de obtener, a presencia e valores extremos de poca fre

Ejemplo etros.

alor máximo: 28.9 cm

Podemos darnos cuenta que al medir una misma característica en diferentes individuos de la misma población encontramos variación entre ellos. Tener conocimiento sobre esta variaci bservar

n, pues nos da una idea de la dispersión de los valores unitarios individuales con ferencia a su media; una varianza grande indica una amplia dispersión, por consiguiente una

ca dispersión. s de

total de desviaciones.

s

En una tabla de frecuencias, la moda se define como la marca de clase de la clase cuyfrecuencia tiene el valor numérico mayor, la cual recibe el nombre de clase modal, y seobtiene promediando el límite superior e inferior de dicha clase, o sea la marca de clase.

Ejemplo Del Cuadro 2, podemos observar que la clase con mayor frecuencia es la 20.

Nótese, que tanto la media, la moda y

MEDIDAS DE DISPERSION E s q

frecuencias. Sin embargo, éstas no son suficientes para caracterizar una distribuciódebemos tomar en cuenta la variabilidad que existe en nuestro conjunto de datos. ed

Rango Es la diferencia entre e

sin embargo es poco utilizada debido a que es muy influenciable por l dcuencia, lo que conduce a apreciaciones erróneas, ya que por lo general se piensa que cuanto mayor es el

rango, mayor es la dispersión de los datos.

Nuevamente de los datos del Cuadro 1, podemos obtener el rango de los diám VValor mínimo:13.2 cm Rango = (28.9-13.2) cm = 15.7 cm

Varianza

ón, ayuda a dar estimaciones confiables sobre la característica que deseamos ode la poblaciórevarianza pequeña señala po

La varianza poblacional, o cuadrado medio se define como la suma los cuadradolas desviaciones de cada observación con respecto a la media (la observación menos el valor esperado, es decir las distancias) dividida por el número

6

Page 36: TESIS MUESTREO Arana2003

Para una población finita, equiprobable de N individuos, la varianza se expresa así, ( ) ( ) ( )

( )

N

x

Nxxx

N

ii

N

∑=

cer toda la población en cuestión, nunca llegamos a conocer la arianza de la población, por lo que tenemos que hacer su estimación a partir de una muestra, ara esto utilizamos la siguiente expresión,

−=

−++−+−=

1

2

222

212 ...

µ

µµµσ

A menos de conovp

( ) ( ) ( )

( )1

1...

1

2

222

212

−=

−−++−+−

=

∑=

n

xx

nxxxxxx

s

n

ii

n

EjemploDeseamos saber la variabilidad del peso de biomasa verde (kg), para los siguientes

atos, Peso de biomasa verde (kg): 3, 4, 8, 9.

d

Kg

y4

=

6

24

=Sustituyendo en la fórmula anterior obtenemos el siguiente resultado,

( ) ( ) ( ) ( )

Kg.

----s 6463 22222 +++

=

6666814

6968

=−

6666 Kg.

Por lo tanto la variabilidad en el peso de biomasa verde es 8.

Desviación Estándar

Esta se define como la raíz cuadrada positiva de la varianza, es decir, 2ss = . La desviación estándar al igual que el rango, tiene las mismas unidades que la media, en tanto que la

varianza tiene esas unidades al cuadrado, por lo cual la primera resulta ser la más usada. Ejemplo

Así del ejemplo anterior, obtenemos la desviación estándar de la siguiente manera, Kg9439.26666.8 =

Desviación Absoluta Media

7

Page 37: TESIS MUESTREO Arana2003

La desviación absoluta media (D.M.) de un grupo de observaciones se define como la suma de los v b esviaciones con respecto a su media, dividida por el

úmero de ellas, la ecuación que la representa es la siguiente, alores a solutos de sus d

n

∑=

−=n

yyMD 1.. i

in 1

La desviación media es una medida de dispersión que es útil para propósitos des

El coeficiente de variación (C.V.) es una medida de la dispersión relativa de un junto de datos ue se obtiene dividiendo la desviación estándar del conjunto entre su media

aritmética, la ecuación que la representa es la siguiente,

criptivos. Coeficiente de Variación

con q

100).(. ×=y

syVC y

Tal como la desviación estándar y la media están en las unidades originales, el C.V. es una medida independiente de las unidades de medición, consecuentemente el C.V. es la

tidad más adecuada para comparar la variabilidad de dos conjuntos de datos, aun cuando estén en diferentes unidades. En el área de investigación donde se tienen datos de

ntos previos este coeficiente es muy usado para evaluar la precisión de un xperimento, comparando el C.V. del experimento en cuestión con los valores del mismo en

.

n

iin yy

12 ...

también pueden ser combinadas con la sumatoria, por ejemplo si lo que se desea su ar es el cuadrado de cada dato la simbología apropiada es,

iin yyyy

121 ...

can

experimeeexperiencias anteriores

ANÁLISIS TEÓRICO DE LOS ESTIMADORES Operador sumatoria y otros símbolos

Algunos parámetros y estimadores incluyen en su definición la suma de varios valores o datos. Si se simboliza por yi a cualquiera de esos datos, digamos el i-ésimo de ellos, y se tienen n datos, la suma de estosdatos se simboliza empleando el Operador Sumatoria (Σ),

∑=

=+++ yy1

Otras operaciones matemáticasm

∑=

=+++n

2222

8

Page 38: TESIS MUESTREO Arana2003

El subíndice señala una etiqueta que identifica a cada uno de los datos cuando éstos aparecen en una lista. Es importante notar qu el subíndice puede ser cualquier letra, convencionalmente se emplean las intermedias del alfabeto, minúsculas como la “i”, “j”, “k”, etc., aun los mismos datos pueden ser referidos por

s. emás, un símbolo de dato, “y”, puede tener mas o sentidos de clasificación como puede ser el caso de

una matriz que tiene renglones y columnas, como “ ”, donde “i” puede ser el renglón y “j” la columna

Ahora se exponen ejemplos de cierta complejidad en el uso de la sumatoria y subíndices. En los ejemplos, i puede tomar valores entre 1 y n, mientras que puede ser cualquier valor.

a) , donde r es un número entero mayor que 1 y menor que n

Ejemplo

)onde = cualquier valor

b) donde k pertenece a los números reales y es una constante

Si supones que necesitas saber cuánto suma la serie de números consecutivos que van de 1 a 10, podrías

hacer un cálculo mental o con una calculadora para conseguir la respuesta, pero, ¿si tuvieras que hacer el cálculo de la serie que va de 1 a 100 ó a 1000?, podrías usar la siguiente fórmula cuyo valor depende de n y está dado por,

c)

e

subíndices diferentes para indicar las operaciones apropiada Ade un subíndice cuando los datos tienen más de dos criteriosd

ijyuna tabla o ; si existen mas de dos criterios de clasificación de los datos podrán haber más de dos subíndices para

identificar apropiadamente cada dato. En otras ocasiones se empleará un subíndice con algún otro símbolo, tal vez el de un parámetro o de un

estimador, para representar que ese símbolo pertenece al objeto identificado con la etiqueta que se usa como subíndice.

iy

∑ ∑∑= +==

+=r

i

n

riii

n

ii yyy

1 11

( ) (

∑ ∑

= =

=

+=

++++=

2

1

5

3

54321

5

1

i iii

ii

yy

yyyyyy d iy

∑∑==

=n

ii

n

ii ykky

11

( )2

11

+=∑

=

nnin

i

Ejemplo ( )

( ) 500,5002

10010002

110001000

552

1102

11010

1000

1

10

1

==+

=

==+

=

=

=

i

i

i

i

Y si lo que necesitaras es sumar el cuadrado de esta misma serie de números, podrías utilizar la siguiente

fórmula,

d) ( )

6)12(1

1

2 ++=∑

=

nnnin

i

Ejemplo

9

Page 39: TESIS MUESTREO Arana2003

( )( )

( )( ) 500,833,3336

000,001,003,26

120001

385661

===i

10

1000100010002 =∑ i

2310120110

==++

++

sí, a

n un grupo de personas se desea investi ar si estas fuman o no, en este caso definir a.

1.

erado o esperanza matemática, E(Y), a la media de los datos de una población que es simplemen osibles valores, cuando se usan las pro

a aleatoria Y, y f(y) es la función de densidad de probabilidad.

i 1

Donde ) es la probabilidad de que ocurra el valor .

a empresa necesita saber la ganancia promedio que obtendrá si vende un nuevo tipo de com a a

o de

10102 =∑ i

1=i

Variable Aleatoria (v.a.) El concepto de variable aleatoria se relaciona con todos los resultados posibles que

puede tomar una variable en estudio. A dicho conjunto se le denomina espacio muestral, auna variable aleatoria Y es una función que va del espacio muestral a los números reales oun subconjunto de este bajo un experimento aleatorio. Ejemplo

E gemos como S= {si, no} al grupo de personas y sea B el evento de que la persona fum

Entonces definiremos la función Y, la variable aleatoria como sigue,

⎩ = nossi0Esta variable es conocida como la indicadora del conjunto {sí} y sólo toma los valores 0 óValor Esperado

lamemos valor esp

⎨⎧ =

=síssi

BY1

)(

Lte el promedio ponderado de los p

babilidades como factor de ponderación. Así tenemos la siguiente definición, Para variables continuas,

[ ] dyyfyYEb

a∫= )(

Donde a y b son los límites superior e inferior del r ngo de la variable

Para variable discretas,

[ ] ∑=n

ii yPyYE )( =

( iyP iy

Ejemplo Unputadora. Si la probabilidad que una persona adquiera el nuevo tipo de computador

un costo de $18,000 es 0.4 y la probabilidad que adquiera el modelo ya existente a un cost$10,000 es 0.6 ¿Cuál sería la ganancia esperada?.

Page 40: TESIS MUESTREO Arana2003

Diseño de Encuestas 11

Por lo tanto la ganancia esperada de la empresa es $13,200.

o n

r del estimador. Este valor, juega un papel m

de que una variable aleatoria tome un valor s la desviación

que la unidad, menos uno dividido entre el cuadrado de k”. Esto es, a E(W)= µ a su esperanza matemática y por S(W) a su desviación

estándar

Aplicando la fór ula anterior, mSea Y el valor de venta, E(Y) =18,000(0.4)+10,000(0.6) =13,200

Desigualdad de Chebyshev ¿Cómo estimamos?

En la mayoría de los casos nos interesa acompañar cualquier estimación de un parámetrpoblacional (puntual), con alguna medida de dispersión del mismo. Como veremos nuestra estimaciónumérica siempre irá acompañada de lo que se llama error estánda

uy importante en la inferencia estadística, ya que multiplicado por algún valor y después sumado y restado al estimador, nos dará límites de confianza superior e inferior. Para aclarar este concepto recordamos la desigualdad de Chebyshev, que dice “La probabilidad

que difiera en valor absoluto de su esperanza matemática menos que k veceestándar de dicha variable, es mayor llamando a W a la variable aleatoria,

,

( ) 2

1)()(k

WkSWEWp ≤≥−

De esta manera se puede ver que la desviación estándar es una buena medida de lación, puesto que utilizando la anterior desigualdad sabemos que la probabilidad de que se

a concentr obtenga aleatoriamente un valor exterior al intervalo es cu do mucho igual a 1/k2.

yilidad de W, ya que es válido para toda variable aleatoria, discreta o continua.

ualdad, así como la variante Camp-Meidell, es útil en control de calidad industrial moderno, ya que nos da la proporción que que r fuera de ± kσ de la calidad media µ y que por lo tanto no es aceptada.

Teorema Central del Límite dística el Teorema Central del Límite es de gran importancia, ya que en él descansan gran

parte de los métodos estadísticos. Este teorema provee una aproximación efectiva simple a probabilidades determinadas por sumas de variables aleatorias independientes y explica la gran importancia de la distribución normal en la teoría de probabilidades. Su enunciado preciso es el siguiente: “ Sean Y1, Y2, ..., Yn una muestra aleatoria de una función de probabilidades

anEste teorema nos proporciona una relación entre la desviación estándar la distribución de

probabLa desigualdad de Chebyshev tiene gran utilidad en la teoría moderna de la probabilidad, debido

a su generalidad. Esta desigda po

En esta

( )yfY

edi

(es decir variables aleatorias

independientes e idénticamente distribuidas), con m a Yµ y varianza . Sea 2Yσ

( )nn YYYY +++= L211

un tamaño de muestra N, l

la media aritmética de las variables aleatorias que integran la muestra. Para

a distribución de la variable aleatoria Y es aproximadamente normal con media Yµ y varianza, es decir,

( )nYYNY 2,σµ∼ cuando ∞→n

De acuerdo con el resultado anterior y estandarizando la variable aleatoria, la e como, expresión puede escribirs

( ) ( )1,0NY

Y ∼σ

Yn − µ

tra grande, la distribución de

El Teorema Central del Límite establece que para un tamaño de muesY es aproximadamente normal independientemente de la función de probabilidades de la variable

Y. aleatoria Para casi todas las poblaciones, la distribución del muestreo de Y es aproximadamente normal

si el m estr l azar es lo suficientemente grande, pero, ¿qué significa una muestra suficientemen penderá de la naturaleza de la población muestreada y del grado de aproximación bución normal.

u eo simple ate grande?, esto derequerida a la distri

11

Page 41: TESIS MUESTREO Arana2003

Diseño de Encuestas 12

Cuando la población muestreada es una distribución de probabilidades normal, no se r lizamos otro teorema que establece,

Si la población muestreada es una distribución e probabilidades normal, la distribución de probabil ades de

equiere el Teorema Central del Límite. En este caso, uti

dYid es exactamente normal para cualquier tamaño de muestra.

uestreada, el Teorema Central del Límite, s dice la naturaleza de la distribución del muestreo de

Puesto que a menudo no conocemos el tipo de población m Yno para una muestra razonablemente

grande, al margen del tipo de distribución que siga la población.

DISTRIBUCIÓN DE PROBABILIDADES Un muestreo aleatorio sirve para “retratar” de manera fiel la distribución

probabilística de la variable bajo estudio, pero no es quien la induce. Una distribución

n de distribución de probabilidad. Toda probabilidad es no negativa y no ayor q obabilidades es uno.

ene la misma probabilidad de ocurrencia. Es de gran importancia en el muestreo. Una variable aleatoria Y tiene distribución uniform nción de probabilidades es,

probabilística es inducida por un experimento aleatorio. A una función que asigne una probabilidad de ocurrencia o aparición a cada valor de una

oblación se le llama funciópm ue uno, además la suma de todas las pr

A continuación haremos un repaso de las funciones de probabilidad más usadas. Distribuciones Discretas

Uniforme Discreta Es aquella que describe el comportamiento probabilístico de un experimento en

que cada uno de los posibles resultados ti

e discreta si su fu

⎪⎩

⎪⎧⎨

====

rmade otra fo

nynyYyfY

0

,...,11)Pr()(

Donde n es el número total de resultados posibles en el experimento, y los son los valores que

i una variable aleatoria discreta tiene distribución de probabilidades uniforme en los primeros n enteros positivos, entonces,

iytoma.

S

121][

21][

2 −=

+=

n

yE

en general todos los momentos dependen del pará rDemostración,

n

yVar

Podrás notar que la media y la varianza ymet o n.

2)1(2

)1(1 +⋅=

nn

),...21(1

1][0

+=

+++=

⋅= ∑=

nn

n

yyEn

y

n

n

12

Page 42: TESIS MUESTREO Arana2003

Diseño de Encuestas 13

En cuanto a la varianza,

( )( )

12=

126

2 −

⎟⎠

⎜⎝

−=

n

1)12)(1( 2⎞⎛ +++ nnn

][][][

)

1][

22

2

0

22

−=

⋅= ∑=

yEyEyVar

n

nyyE

n

y

s posibles denominados éxito (E) y fracaso l o el conjunto de resultado posibles.

b) La probabilidad de que ocurra el evento {E} es p, ( 0 ≤ p ≤ 1). Por lo que,

P ({E})= p P ({F})= 1- p = q

De manera general la función de probabilidades puede escribirse,

rmde otra fo0

=∴−×+ −− 11101 )1(1)

6)12)(1(1 ++

⋅=nnn

n

,...21(1 22 +++=n

Distribución Bernoulli El modelo probabilístico Bernoulli tiene las siguientes características,

a) El espacio muestral solamente contiene dos resultado(F). Esto es, S= {E, F}, donde S es el espacio muestra

⎩⎨⎧ =−

=− ypp

yfyy

Y

0,1)1()(

1

a La esperanza de una variable aleatoria Bernoulli se obtiene,

[ ] pYE −×= 0 1(0[ ] pYE

ppp

[ ] [ ]( )

( )[ ] pqYVarpp

pppppppYVar

=∴−=

−=

−−×+−×= −−

1

)1(1)1(02

2111010

El parámetro de la distribución es p, por lo que para cada posible valor de p entre cero y uno se ene una función de probabilidades diferente, y una vez dado el valor de p las probabilidades quedan

istribución Binomial (n, p)

muestral está constituido por las secuencias de éxitos y fracasos

⎠⎝y y0onde

y es el noulli (p) independientes, es decir,

tiunívocamente determinadas.

DEn este modelo probabilístico, el espacio

que resultan de n repeticiones independientes de un experimento cuyo modelo probabilístico es

Bernoulli con probabilidad p igual para todas las repeticiones. Contiene ∑ =⎟⎟⎞

⎜⎜⎛n

nn2 elementos, d

=

úmero de éxitos. Así que una variable aleatoria binomial (n, p) se puede ver como la suma de n variable aleatoria Bern

13

Page 43: TESIS MUESTREO Arana2003

Diseño de Encuestas 14

∑=

=n

jjXy

1 …(1)

donde,

)( pBernoulliX j ∼

jX 1= ntesindependiesonnj ,...,2,

su función de probabilidad esta dada por,

Sus parámetros son n y p, donde n es un entero positivo y 0 ≤ p ≤ 1.

y

( )⎪⎩

⎪⎨

⎧=−⎟⎟

⎞⎜⎜⎝

⎛=

rmade otra fo

nyppyn

yfyny

Y

0

...,2,1)1(

[ ] npyE =

[ ] npqyVar = pq −= 1 Donde

Demostración, 1) Utilizando la expresión (1) se puede ver que,

n

jj ⎥⎦

⎤⎢⎣

⎡= ∑

=1][

pnp

XVaryVarn

j

−=

= ∑

[ ]np

XE1i

j

=

= ∑=

y

XEyE

n

1i

)1(

][][= independencia de las

2) (Opcional). Utilizando la función generatriz de momentos obtenemos, [La función generatriz es una noción de uso muy común para el estudio de una distribución].

,

jX …usando la

( ) ( ) ( ) ( )

( )∑

=

=

⎟⎟⎠

⎞⎜⎜⎝

⎛=

−⎟⎟⎠

⎞⎜⎜⎝

⎛===

n

i

ynyt

ynyn

i

tytytyY

qpeyn

ppyn

eeEeEtM

1

11

Y utilizando la propiedad del binomio de Newton

( )nt pe= q+ cto a t, la expresión anterior y sobre el resultado haciendo

t= 0 podemos obtener el primer momento, es decir, la esperanza.

Distribución Poisson Un modelo probabilístico Poisson tiene las siguientes características:

1. El espacio muestral se genera por un número muy grande de repeticiones de un experimento cuyo modelo probabilístico es Bernoulli, con probabilidades muy pequeñas de éxito. Las repeticiones del exp imento Bernoulli se realizan en cada uno de los puntos de un intervalo de tiempo o espacio.

2. El número de éxitos en el intervalo Ij es independiente del número de éxitos en el intervalo Ik, donde Ij ∩ Ik = ∅, es decir, son conjuntos ajenos.

Derivando, con respe

er

14

Page 44: TESIS MUESTREO Arana2003

Diseño de Encuestas 15

3. La probabilidad de que se tenga dos o más éxitos en el mismo punto del intervalo es cero. 4. El número promedio de éxitos en un intervalo es una constante λ, que no cambia de intervalo a

intervalo. Su función de probabilidades está dada por,

⎪⎩

⎪⎨

⎧=

=

==−

0,1,2...ye

yYPyfy

Y

)()(

λλ

forma de otra0 y!

l parámetro de la distribución Poisson es λ, el número promedio de éxitos por intervalo. Su media y za están dadas por,

E su varian

λλ

==

][][

YVarYE

Es importante hacer notar que tanto el estimador de la media como el de la varianza son el mismo.

ratriz dUtilizando la función gene e momentos,

∞<<∞−=

= − eeteλλ

==

∑ ey

ey 0

)(!

λ

=

=∑

te

ey

etM

te

y

y

)1(

0 !)(

λ

λ

∞−yy 1 λ

Y

∞− t1λ

Para obtener el primero momento, derivaremos la expresión anterior, ψ = )(log)( Y tMt

λ −= )1( te

λψµ ==⇒

λψσ == )0(''2

)0('

eatoria cuya función de probabilidades es mento

Bernoulli que son necesarias para obtener k éxitos. Una variable aleatoria Y ti

probabilidades es,

edia y varianza son,

Distribución Binomial NegativaEl espacio muestral de una variable al

binomial negativa se genera por las repeticiones independientes de un experi

ene la distribución binomial negativa si su función de

( )⎪⎩

⎪⎨⎧

+=−⎟⎟⎠

⎞⎜⎜⎝

⎛−−

=−

otra forma de 0

rryppry

yfryr

Y

,...1,)1(11

Donde r es el número de éxitos que se desean y p es la probabilidad de éxito en cada intento. Los

parámetros de la distribución son r y p. Su m

15

Page 45: TESIS MUESTREO Arana2003

Diseño de Encuestas 16

2][

][pryE =

prqyVar =

Distribu

istribución Uniforme Continua a variable aleatoria uniforme o rectangular y es continua y tiene probabilidad constante sobre el

recorrido

ciones Continuas DL

21 θθ << y , con discontinuidades en los extremos y= θ1 y y= θ2. Esta función es homóloga a la Uniforme Discreta, se dice que una variable aleatoria Y tiene una distribución Uniforme Continua si su función de densidad de probabilidades es,

( )⎪⎩

⎪⎨

⎧ ≤≤−=

forma de otra 0

yyfY

2112

1 θθθθ

Donde θ1 y θ2 son dos números reales tales que θ1 < θ2.

Fi La me

gura 3. Función de densidad Uniforme

dia y la varianza son,

( )12

][

2][

212

21

θθ

θθ

−=

−=

YVar

YE

θ1 θ2

f(x)

x

16

Page 46: TESIS MUESTREO Arana2003

Diseño de Encuestas 17

Distribución Normal Esta distribución tiene gran un modelo adecuado para una gran

iversidaimportancia debido a que es

d d de situaciones en la naturaleza y también por su sobresaliente papel en la teoría estadística, puesto que sirve como punto de partida para el desarrollo de muchas técnicas de inferencia. Es importante mencionar que debido a que la distribución normal es continua, solamente pueden calcularse probabilidades para intervalos en el espacio muestral de Y, ya que para cualquier posible valor k de Y, P(Y= k)= 0. Decimos que una variable aleatoria Y se distribuye como normal si su función de densidad es,

( )

( )⎪⎩

⎨=

orma de otra f 0 yfY

2 2σπ

⎪⎧

ℜ∈−

yy

e1 222

1- µσ

donde,

( )( ) 022

=>=

YE ∞<<∞= µµ

σσe 71828.2

YVar

14159.3=πDebe notarse que µ y 2σ son los parámetros de la distribución, es decir ( )2~Y σµN . Distribución Normal Estándar

2Sea Y una variable aleatoria distribuida N (µ , σ ),

Definamos la siguiente variable aleatoria,

σµ−

=YZ la cual tiene distribución N (0, 1).

Su función de densidad es,

( )( )

⎪⎧

ℜ∈zz

e1 2

21-

⎪⎨=zf Z 2π

⎩ formaotrade0La importancia de esta función de densidad de población es que, las

probabilidades en cualquier miembro de la familia, o sea cualquier normal pueden calcularse en la normal estándar. La ventaja estriba en que tiene media 0 y varianza 1.

El resultado de la integración se obtiene en tablas de la normal estándar o en un software estadístico.

Distribución Jí-cuadrada Esta distribución surge como la suma de cuadrados de variables aleatorias independientes iZ ,

cada una con distribución normal estándar, el número de variables independientes en la suma son los grados de libertad y este es el parámetro de distribución.

u función de densidad es la siguiente, S

( ) ( )( )

⎪⎩

⎪⎨⎧

∞≤≤⎟⎠⎞

⎜⎝⎛

Γ=

forma otra

yyvyf

y

Y

0

0e222

1 21-

12v

donde v una constante de integración y Γ(v/2) es la función gamma de v/2, definida por, es

17

Page 47: TESIS MUESTREO Arana2003

Diseño de Encuestas 18

123)...2)(1(0

⋅⋅−−=∫∞

− kkkdxex xk , esta integral es llamada k+1 y se puede escribir como Γ(k+1) la

cual tam ién es una constante de integración y el parámetro v son los grados de libertad.

u varianza y su media son,

b S

[ ]⎡ ⎤ vYVar

vYE2=

=

istribución t-Student

a distribución t es simétrica con media cero y de forma muy semejante a la normal estándar. Si Z es una variable N (0, 1), y si Jí-cuadrada ~ χ2(v) y es independiente de Z, entonces la variable aleatoria definida por,

t

DL

=v

Z/2χ

tiene una distribución t-student con v grados de libertad. Esta definición está dada para una población finita discreta con valores equiprobables, la generalización la veremos más adelante al tratar el tema de valor esperado.

Su función de densidad es la siguiente,

( )( )[ ]

[ ]

( )

⎪⎩

⎪⎨

⎧∞≤≤∞⎟⎟

⎞⎜⎜⎝

⎛+

+=

+−

rmade otra fo

tmt

mm

mtf

m

T

0

1!2/

!2/112/12

π

F de Fisher Sean χ2(m) y χ2(n) dos variables aleatorias distribuidas como Jí-cuadrada con m y n grados de

libertad respectivamente. Entonces, la variable aleatoria F definida como,

F mn

m

n

=χχ

2

2

//

F con m y n grados de libertad.

SPECTOS GENERALES DEL MUESTREO

Tiene la distribución APÍTULO 2

A

C

18

Page 48: TESIS MUESTREO Arana2003

Diseño de Encuestas 19

INTRODUCCIÓN

Las técnicas de muestreo tienen su fundamento teórico en la estadística y la probabilidad. Como en todas las áreas del conocimiento, en el muestreo se ha generado o adoptado una terminología específica para definir de manera apropiada los conceptos que se utilizan, por lo que es conveniente revisar algunos de ellos, en particular de la estadística, y presentar la simbología que se emplea en las

treo. técnicas de mues

Definición Conjunto

Es una colección de objetos definidos y distinguibles cuya única propiedad indispensable es que sean identificados como pertenecientes a dicho conjunto, a cada uno de los objetos que lo constituyen se le llama elemento. Por ejemplo todos los árboles de un predio pueden constituir un conjunto, también los

illas dentro de un salón de clases constituyen un conjunto. Cabe mencionar que no es un requisito

describir el estado de un bosque o de una l, para ello se toman mediciones en los árboles como la altura, el diámetro u otras

variable

arios y aun todos los elementos del primer conjunto pueden estar vinculados al mismo emento del segundo conjunto, lo que no es válido es que un elemento del primer conjunto esté inculado con más de un elemento del segundo. Las funciones que comúnmente abordaremos en este xto son funciones matemáticas, en las que los conjuntos son de números y la regla de asociación es una

emos mencionado que los elementos de interés para el muestreo son los valores medidos de los n seleccionados del conjunto población a los cuales se les denomina datos. Es decir un specífico que tiene la característica de interés en un elemento de la población. Conviene término dato, se puede referir a un valor realmente conocido o que se sabe que existe

pero que

observación o ejecución del experimento. La determinación del valor de la característica es la medición o la calificación, la cual algunas

estudiantes y las s que los objetos sean de la misma naturaleza, aunque en la mayoría de los casos que involucran

las técnicas de muestreo los objetos suelen ser de la misma naturaleza, o al menos muy semejante. Las técnicas de muestreo se aplican directamente a conjuntos de objetos con valores medidos en

escalas continuas o discretas, la definición formal de estas escalas se presentará en este capítulo. En alguna circunstancia pudiera ser de interés

plantación forestas de interés. El conjunto de mediciones de estas variables medidas es el sujeto de aplicación de las

técnicas de muestreo. Otro ejemplo puede ser la determinación de la calidad del aire en una ciudad, para ello se toman mediciones de diferentes contaminantes, el conjunto de las mediciones del contaminante es la variable a la que se aplican los conceptos del muestreo.

Otro término muy usado es función, matemáticamente el concepto de función consta de tres elementos, dos conjuntos y una regla que asocia o vincula a cada elemento del primer conjunto con uno y solo uno de los elementos del segundo conjunto. Una lista de nombres y un grupo de estudiantes pueden constituir una función si cada nombre de la lista le corresponde a uno y solo uno de los estudiantes.

ótese que vNelvteecuación.

Helementos que sodato es el valor emencionar que el

aún no ha sido determinado. En el contexto del presente trabajo se entenderá como un valor que ya ha sido determinado. El procedimiento que permite determinar un dato se denomina experimento. En este procedimiento se incluyen dos aspectos: uno es la forma en que se decide la observación o ejecución y otro en el que se hace la determinación del valor de alguna manera.

En este texto será de relevancia considerar la forma en que se decide la

veces representa un problema que puede implicar considerable dificultad y requerir tratamientos específicos; precisamente este es el tema que abordaremos a continuación.

19

Page 49: TESIS MUESTREO Arana2003

Diseño de Encuestas 20

¿QUÉ ES UNA MEDICIÓN? La medición es una tarea en la que la estadística no interviene directamente pero que influye de manera importante en el éxito del análisis estadístico de los datos. Para hacer una medición deben tenerse presentes las técnicas adecuadas. Entenderemos genéricamente como m inación del

cplean técnicas muy distintas a las requeridas para

e una coní ro los métodos estadísticos para tos pudieran ser los mismos en ambos casos.

nas. Sin embargo, la comparación entre técnicas de medició puede ser motivo de aplicación de los métodos estadísticos. VARI BLES

na característica que es determinada para cada uno de los elementos de una población mediante una medición o una calificación La altura de los árboles es una que pertenece cada uno de los árboles.

os reales son posibles, al menos teóricamente ya que por limitaciones en los medición muchos de los valores en ese intervalo no pueden ser observados

cluir en este tipo de variables aquellas que son medidas en kilogramos, centímet más y más el instrumento de medición.

de variables son los conteos, el número de personas en un lugar, el número de libros en una biblioteca, etc.

s grupos y cada elemento pertenecería solamente a uno de esos grupos o clases. POBL

edición a la determvalor de la cara terística de interés. Para medir la altura de árboles en pie se emmedir la longitud de las traqueidas de la madera d fera; peanalizar dichos da

Las técnicas de medición pueden variar enormemente y es posible que algunas de ellas lleguen a tener una gran complejidad para su realización. La instrumentación, selección y validez de las técnicas de medición son motivo de estudio de otras discipli

n

AU

se entenderá como una variable. variable, también lo es la especie a la

El peso de cada silla o de cada estudiante también es una variable. Una variable continua, como su nombre lo indica es aquella en que todos los valores dentro de un intervalo de los númerinstrumentos de prácticamente. En general se pueden in

ros, etc., y cuya precisión puede ser incrementada indefinidamente afinando

Una variable discreta, se puede medir en una escala que no incluye a todos los posibles valores

en un intervalo de los números reales. Un ejemplo de este tipo

Las variables por tributos permiten la clasificación en función de que una cierta propiedad esté presente o no en el elemento que está siendo evaluado. La pertenencia a un grupo botánico es un ejemplo de un atributo, podría haber un número variable de atributos, como tener varios grupos botánicos, lo que permitiría hacer diverso

ACIÓN Y MUESTRA Ya se ha establecido que las técnicas de muestreo, y en general los métodos estadísticos, son

20

Page 50: TESIS MUESTREO Arana2003

Diseño de Encuestas 21

aplicables a un conjunto de valores pertenecientes a un conjunto de datos. Propiamente, se le puede denominar población al conjunto de objetos tanto como al conjunto de valores. El segundo es una función del prim ro, y aunque con frecuencia no se distinguen explícitamente, el contexto en que se usa el término

epoblación deja clara la referencia. En este texto se usará la palabra población para referirse al

conjunto de mediciones que se hacen de una característica en todos y cada uno de los elementos del conjunto de objetos.

Definición Población y Muestra Formalmente entenderemos como población a un conjunto de valores y muestra a un

subconjunto de la población. El conjunto que incluye a todas las partes constitutivas de la totalidad de un recurso es una

población. Así, la población es un conjunto de números que tienen las unidades en que se hace la medición.

n general, en el análisis no suelen incluirse las E unidades de medición de los valores de una variable

etros, etcétera, por lo que, los resultados del análisis pueden hacernos más sentido, que facilita enormemente la interpretación.

Por ejemplo, si el recurso son los árboles presentes en un predio y la

carac está constituida por todos los árboles, pero la población a la que las técnicas de muestreo se referirán es al conjunto constituido por las alturas de esos árboles, alturas que estarán denominadas pejemplo 24.5 población. PARÁMET

Definición

, es decir estos se analizan simplemente como números. Sin embargo, resulta sumamente conveniente no olvidar que los valores de una población siempre representan dimensiones físicas como peso, volumen, longitud, etcétera, y que estas dimensiones son medidas en unidades como kilogramos,

etros cúbicos, centímmlo

terística de interés es la altura promedio de ellos, la población original

or el número que indica la dimensión y las unidades en que se mide, por metros podría ser uno de los elementos constitutivos del conjunto

ROS Y ESTIMADORES

Parámetros Sobre el conjunto población se pueden definir funciones muy diversas como el valor más

pequeño, el más grande, el que ocupa la posición central una vez que han sido ordenados ascendente o descendentement el e, la suma de todos ellos después de elevarlos al cuadrado, el valor que se repite mayor nú s más, todas esas funciones son parámetros. Los parámetros suelen mero de veces y muchos otroser representados por letras griegas, como µ , τ , σ, en tanto que los estimadores generalmente se simbolizan con otros caracteres específicos que oportunamente se introducirán.

Existe u

no tienen utilidadlos valores incluiuna casa, la suma

Definición

n número infinito de parámetros para una población dada; sin embargo, muchos de ellos , en cambio otros manifiestan el interés de la evaluación. Por ejemplo, la suma de todos dos en una población puede ser de interés si cada número representa el gasto de agua en representa el gasto de agua en una localidad.

Estimadores Las funciones que se pueden proponer como parámetros, también se pueden definir para el

conjunto muestra, y aun otras funciones adicionales, entonces reciben el nombre de estimadores a cada

21

Page 51: TESIS MUESTREO Arana2003

Diseño de Encuestas 22

parámetro pueden corresponder uno o más estimadores. También existe un número infinito de estimadores, pero solo algunos tienen interés práctico.

En algúnse verá mas adeltener propiedade al del parámetro es unnumérica. Mientestimar los parám

TAMAÑO ar que al plantear un análisis es indispensable preguntarnos ¿Cuál es la

cantmuestreo, pues edesprendan del a

Definire

sentido puede haber una confusión entre parámetros y estimadores. Sin embargo, como ante, un parámetro puede tener vinculación con más de un estimador y esa vinculación s específicas que pueden ser más o menos deseables. Una definición genera función que describe el total o una parte de la población, usualmente en forma ras que un estimador es una función de datos disponibles (muestra) que se usa para etros.

DEL ERROR DE ESTIMACIÓN Es importante hacer not

idad de error tolerable?, el cual debe ser definido por la persona que utilizará los resultados del s ella quien conoce el fenómeno en cuestión y lo delicado de las conclusiones que se nálisis. A continuación presentamos el concepto de error de estimación.

mos a θ como el parámetro de interés y a ∧

θ

límite de error de

como su estimador y especificaremos un

estimación. Esto es, debemos especificar que θ y ∧

θcantidad menor q

difieran en valor absoluto en una ue B, simbólicamente escribimos,

BstimaciónError de e <=∧

θθ -

También

veces en muestrepuede escribirse

podemos establecer un nivel de probabilidad (1-α), que especifique la fracción de las o repetido en que requerimos que el error de estimación sea menor que B. Esta condición como,

[ ] α−=< 1BstimaciónError de eP

Seleccionamos )( ˆ1, θα σ−= nt ; regularmente se asume )( ˆ1, θαB σ−= ntB con α=0.05 lo cual se justifica

l límite central. Para fines prácticos 21,por el teorema de =−ntα por lo que )(2 θ̂σ=B .

co con su probabilidad asociada (1-α), nos ayuda a comproporcione la pr

El marc

las unidades de m

Definición

La determinación de un límite específiparar diseños diferentes (métodos de selección de la muestra) para determinar el procedimiento que

ecisión deseada al mínimo costo.

MARCO DE MUESTREO

o de muestreo, o marco muestral, está constituido por un listado, real o virtual, de todas uestreo.

Unidades de Muestreo Son colecciones de elementos de la población que cubren la población completa. Hacer el listado parece una labor simple pero puede presentar dificultades para su obtención,

ademtareas particulare

Decimos

físicamente la lisgenerarlo y aunqrequiere dicho ma

ás conviene apuntar que diferentes poblaciones pueden presentar características que demandarán s para obtener el marco de muestreo.

que el marco de muestreo es real o virtual porque en ocasiones se puede tener ta de todas las unidades, mientras que en otras bastaría con tener la posibilidad de ue no se genere físicamente puede ser suficiente para lograr el objetivo para el que se rco.

22

Page 52: TESIS MUESTREO Arana2003

Diseño de Encuestas 23

Idealmen

muestral. En nidades muestrales son excluyentes entre sí y exhaustivas sobre la población. atisface cabalmente esta condición ideal y la aceptación o no de su insatisfacción ndiciones en que se suscite.

En v s partes de la población quedan incluidas en

alguna unida ecursos mediante parcelas de muestreo de forma circular. Si l sentan una característica distintiva del resto de la oblación, tal de ser considerada intrascendente y, partiendo de un marco de muestreo ue no cubre ción, las inferencias todavía se pueden aceptar como aplicables a la oblación. Sin embargo, en otras aplicaciones el hecho de no dar la oportunidad de que algunas partes de

la población sean in plo, si esas partes que son excluidas ti n alguna unidad de muestreo, y por lo tanto en el marco, entonces las estimaciones serán sesgadas, o bien solamente serán aplicables a la población definida por el propio marco de muestreo. Si en las ciencias sociales se aplica una encuesta por teléfono a una cierta población, debe quedar claro que los resultados solamente son aplicables a la población constituida por las personas en hogares que tienen teléfono y no a las otras personas a quienes la encuesta telefónica no puede aplicarse, ya que el tener o no tener teléfono puede representar una diferencia importante entre unos y otros.

Entenderemos que el marco de muestreo contiene una identificación única para cada unidad de

muestreo, como puede ser un número progresivo desde 1 hasta N, el número total de unidades en la población.

PASOS A SEGUIR PARA EL DISEÑO DE UNA ENCUESTA

Planteamiento de Objetivos Al empezar a diseñar un plan de muestreo es importante que definas los objetivos, ya que esto te permitirá mantenerte en una línea de investigación sin perder tiempo con detalles que te alejarían de los resultados esperados.

Población Bajo Muestreo Es importante que definas desde el principio las unidades que serán tomadas en cuenta para el muestreo y establezcas reglas claras para que el encuestador las identifique al momento de tomarlas para la medición. Recuerda que la población que se muestrea debe coincidir con la población sobre la cual se desea información.

Características de la Encuesta Es conveniente cerciorarse que todos los datos son pertinentes a la encuesta y que no se omiten datos esenciales. Particularmente en presencia de poblaciones humanas, existe la tendencia a hacer un número excesivo de preguntas que no se analizan posteriormente, debes tomar en cuenta que un cuestionario demasiado largo produce una baja general de la calidad de las respuestas, tanto en las preguntas importantes como en las otras.

Grado de Precisión Deseado Los resultados de una encuesta de muestreo siempre están sujetos a un nivel de incertidumbre porque sólo se mide una parte de la población. Esta falta de certeza se puede reducir al tomar muestras más grandes, es decir un mayor número de unidades muestrales y emplear mejores dispositivos de medición; sin embargo, esto suele costar tiempo y dinero. En consecuencia, la especificación del grado de precisión deseado es un paso decisivo en la preparación de la encuesta. Este paso es responsabilidad de la persona que va a utilizar los datos ya que es quien suele entender la magnitud del error tolerable de una encuesta para hacerla compatible con una buena decisión. Es el profesional de la estadística quien debe ayudar en esta etapa para lograr el propósito del estudio.

te cada elemento de la población debe estar incluido en una y sólo en una unidad ue las ueste caso se dice q

No siempre se s depende de las co

arias aplicaciones de muestreo no todas lad muestral, como en evaluación de ras partes que quedan excluidas no pre insuficiencia pue a toda la pobla

pqp

cluidas en la muestra puede tener enorme trascendencia. Por ejemenen algo que las hace distintas a las partes que si son incluidas e

23

Page 53: TESIS MUESTREO Arana2003

Diseño de Encuestas 24

Métodos de Medición Puede existir la posibilidad de escoger el método de medición y el método de inspección de la población. Los datos acerca del estado de salud de una persona se puede obtener de sus declaraciones, o de un examen médico. La encuesta puede emplear un cuestionario auto administrado, o un proceso de entrevista en la que los entrevistadores simplemente leen un cuestionario prescrito, o bien, un proceso en el que se permite mucha libertad en la forma y el orden de las preguntas. La inspección puede ser por correo, por visitas personales, por teléfono o por combinación de los tres medios.

portante del trabajo preliminar es la construcción de las formas de registro rán las preguntas y las respuestas. En cuestionarios sencillos a veces es

ger lo que será la unidad

Existe actualmente, una gran variedad de planes para seleccionar una muestra. Por cada plan considerado, se pueden hacer estimaciones del tamaño de la muestra partiendo de un conocimiento del nivel de precisión deseado. Los costos relativos y el tiempo empleado para cada plan se comparan antes de tomar una decisión.

ajo. Un mucho

valor. Se deben hacer planes para manejar las no-respuestas, es decir, la falla del encuestador para obtener la información de ciertas unidades muestrales.

Resumen y Análisis de los Datos Después de realizar la encuesta se deben editar los cuestionarios obtenidos, con la

ando menos desechar los datos que obviamente están isiones respecto al procedimiento de ienes responden o de eliminación de

de probabilidad es que se pueden hacer tales enunciados (de error esperado).

Una parte imdonde entraposible precodificar las respuestas es decir, colocarlas de tal modo que se puedan transferir rutinariamente a un equipo electrónico. De hecho para la construcción de buenas formas de registro se necesita prever la estructura de las tablas de resúmenes finales que se utilizarán para obtener las conclusiones.

El Marco de Muestreo

Antes de seleccionar la muestra, debes dividir la población en unidades de muestreo. Estas deben cubrir la totalidad de la población y no traslaparse en el sentido que todo elemento de la población pertenezca a una y solamente a una unidad. Algunas veces, la unidad apropiada es obvia, en otras ocasiones, es posible escode muestreo. En el muestreo de los residentes de una ciudad, la unidad puede ser una persona, los miembros de una familia o las personas que viven en una manzana. En el muestreo de una cosecha agrícola la unidad puede ser un lote, una granja o un área de terreno cuya forma y dimensiones quedan a nuestra discreción.

Selección de la Muestra

Encuesta Piloto

Es de gran utilidad probar el cuestionario y los métodos de campo en pequeña escala. Esto casi siempre da por resultado mejoras al cuestionario y puede evitar otros problemas que serían serios a mayor escala, por ejemplo, que el costo fuera mucho mayor que el esperado.

rganización del Trabajo de Campo O

En encuestas extensas se encuentran muchos problemas de orden administrativo. El personal debe recibir un entrenamiento sobre el propósito de la encuesta y los métodos de medición que se emplearán, además de supervisar adecuadamente su trabprocedimiento de verificación anticipado sobre la calidad de las respuestas es de

esperanza de corregir errores o cuequivocados. Habrá necesidad de tomar ciertas deccálculo en los casos de omisión de respuestas de qudatos en el proceso de edición. Después se realizarán los cálculos que conduzcan a las estimaciones. Puede haber diferentes métodos de estimación para los mismos datos. Una práctica aconsejable en la presentación de los datos es informar la magnitud esperada de error en las estimaciones más importantes. Una de las ventajas del muestreo

Información Conseguida para Encuestas Futuras Cuanta más información de una población se tenga inicialmente, más fácilmente será el diseño de una encuesta que proporcione estimaciones adecuadas. Toda muestra obtenida es una guía potencial de futuros muestreos, por los datos que revela sobre las medias,

24

Page 54: TESIS MUESTREO Arana2003

Diseño de Encuestas 25

las desviaciones estándar y la naturaleza de la variabilidad de las medidas principales, así como sobre los costos de obtención de datos. Las prácticas de muestreo avanzarán más rápidamente si se prevé lo necesario para reunir y registrar ese tipo de información. Hay otro aspecto importante en el que una muestra completa facilita la obtención de

otras posteriores. Un encuestador hábil aprende a reconocer los errores de ejecución y a evitar que se repitan.

APÍTULO 3 C

MUESTREO ALEATORIO SIMPLE

25

Page 55: TESIS MUESTREO Arana2003

INTRODUCCIÓN

Al realizar una evaluación por muestreo el interés es determinar, de la mejor manera, características de

los elementos que constituyen a una población. Esto se logra analizando la información contenida en una muestra extraída de la población. La cantidad de información que la muestra aporta depende de su tamaño, y de la variabilidad existente entre los elementos de la población, en cuanto a la característica de interés. El evaluador decide la forma de seleccionar la muestra y su tamaño, con esto podrá controlar la calidad de la información proveniente de la muestra y la precisión requerida.

esAunque en el caso más frecuente de la aplicación de un mucaracte

treo se evalúan varias rísticas o variables en cada sujeto o unidad muestral, en el presente trabajo para efectos

pedagógicos, solamente seguiremos la evaluación de una variable. Teniendo la información que el análisis de la evaluación de la muestra nos produce, podemos hacer

inferencias sobre la población. La validez de tales inferencias depende fundamentalmente del diseño de muestreo, es decir, de la forma en que se obtuvo la muestra. Para que los principios de la probabilidad sean aplicables al hacer la inferencia, es necesario que la selección de la muestra se haga mediante un diseño de muestreo probabilístico. El término diseño también se usa como sinónimo de procedimiento o técnica. Definición

Muestreo Aleatorio Simple (MAS) Se denomina muestreo aleatorio simple, o completamente al azar, al diseño que

habiendo decidido q nte ue el tamaño de la muestra será de n unidades de muestreo (o simplemede tamaño n), le asigna la misma probabilidad de ser la elegida a cada una de todas las muestras posibles de ese tamaño. Es decir cualquiera de las muestras distintas que podemos obtener de la población tendrá la misma probabilidad de ser elegida.

Este d

SELECCIÓN DE LA MUESTR¿Por

n sin reemplazo.

iseño es el más sencillo que veremos en este texto, pero es el que nos dará las bases para desarrollar diseños más complicados, que estudiaremos más adelante.

A qué usamos muestreo aleatorio simple? Si sabemos que cada posible muestra tiene la misma probabilidad de ser elegida, nos

preguntamos ¿cuántas muestras posibles existen?. Para responder esta pregunta tendríamos que analizar dos posibilidades, la selección con reemplazo y la selecció

Definición 1. Muestreo Aleatorio Simple con Reemplazo En el muestreo con reemplazo si el tamaño de la m estra es n y el ción es N, existen nN u de la pobla

muestras diferentes; y el procedimiento de selección consiste en seleccionar una unidad que tiene la posibilidad

26

Page 56: TESIS MUESTREO Arana2003

de ser incluida nuevamente en la muestra. Esta opción genera fórmulas de estimación más fáciles, pero en la práctica tiene poco sentido medir más de una ocasión la misma unidad muestral, salvo en diseños específicos u otros m p ricas n los supuestos en que se sustenta ás elaborados en los que las com licaciones teó sugiere simplificarsu análisis.

2. Muestreo Aleatorio Simple sin Reemplazo En el muestreo sin reemplazo se pueden construir tantas muestras diferentes como combinaciones se

pueden hacer de N elementos de tamaño n ( nN C ), cantidad que se calcula por,

)!(! nNn −!NCnN =

El procedimiento de integración de la muestra difiere en que una vez seleccionada una unidad ya no es considerada como elegible al continuar separando las unidades que se incluirán en la muestra. Esta opción genera fórmulas un tanto más elaboradas que el muestreo con reemplazo, pero tiene más sentido en la práctica.

¿Qué tipo de muestreo simple aleatorio debo utilizar?

Conviene reiterar que la definición de muestreo simple aleatorio prescribe igual oportunidad a cada le, lo que haría suponer que todas las muestras posibles deberían configurarse antes de hacer la

to sería una tarea imposible de realizar en poblaciones grandes. Para tenerlo evidente simplem

idad muestral tenga la misma

muestra posibselección de una de ellas, es

ente calcula el número posible de muestras para una población con 100 unidades muestrales y una muestra de tamaño 15, encontrarás que 171053338.2 × muestras son posibles. Afortunadamente la

nte dejando que cada unprescripción de la definición se satisface simplemeoportunidad de ser incluida en la muestra, esa probabilidad es Nn , así pues, solamente necesitamos una muestra.

Cuando el tamaño de la población (N) es muy grande con respecto al tamaño de la muestra (n) y el uestreo se lleva a cabo con reemplazo la probabilidad de que una unidad muestral sea elegida dos veces es muy

equeña. De hecho la probabilidad de elección de cualquier unidad una sola vez también es muy pequeña;

indique al c

niente aclarar el

IA SIMPLE Cómo seleccionamos la muestra?

Para hacer la selección de las unidades muestrales que constituirán la muestra se parte del marco uestral (definido en el capítulo anterior). A cada unidad se le asigna una etiqueta que la identifique, por ejemplo

secutivos y la selección se puede llevar a cabo usando una tabla de números aleatorios, la mayoría de textos so en tablas de números aleatorios regularmente de 10,000 dígitos. Entrando sin ningún orden a la tabl os números ale orios ubicados consecutivamente, tantos como sean necesarios para represen ero total de unidades m or ejemplo, si la población tiene entre 10 y 100 unidades ecesitaremos dos dígitos para representarlas (desde el 00 hasta el 99), si son entre 100 y 1,000 unidades

necesitaremnúmero to enocon esa ecualquier des decir n. amientos para elegir el punto de partida en la tabla de números aleatoriocuerpo d

sil hacerlo que explicarlo.

mpentonces, el muestreo aleatorio simple con reemplazo se aproxima al aleatorio simple sin reemplazo.

En lo sucesivo consideraremos el muestreo aleatorio simple sin reemplazo, a menos que se una otra situación explí itamente. También es pertinente mencionar que este diseño

de muestreo recibe diferentes nombres, como muestreo simple al azar, muestreo completamente aleatorio o muestreo irrestricto al azar. Por ello es conve

g

concepto cuando se usa una u otra denominación. OBTENCIÓN DE UNA MUESTRA ALEATOR¿

mnúmeros con

bre muestreo tiena se eligen l at

tar el núm uestrales. Pn

ti

os tres dígitos (desde el 000 hasta el 999), y así sucesivamente. Si el número elegido es mayor que el tal de unidades en el marco, no se toma en cuenta, si es igual o m r que ese total entonces la unidad queta se incluye en la muestra. El proceso sigue análogamente con el siguiente número ubicado en irección en la tabla, hasta completar el número de unidades elegidas que deben constituir la muestra,

También se proponen algunos refins; algunas tablas tienen encabezados numéricos que identifican a las columnas y a los renglones en el e la tabla, eligiendo azarosamente un punto en la tabla y los números alrededor se usan para identificar

los encabezados de renglón y columna, coordenadas del punto definitivo en que se iniciará la selección de lo números aleatorios; afortunadamente es más fác

27

Page 57: TESIS MUESTREO Arana2003

En la actualidad muchas de las calculadoras manuales incluyen un generador de números aleatorios, al igual qu las hojas de cálculo que operan en computadoras personales; éstos son números entre 0 y 1 con un

depende de la configuración del dispositivo, de ese número se toma la cantidad de dígitos convenie

An ncia de usar escalas de medición apropia a.usada en toda la evaluación.

Debes tener especial atención cuando ódigos p r eva e características cualitativas, como atributos. Al registrar colore mplo, podría asignars me color, el “2” a otro, y así sucesivame . Por supu ue s “números” no es cor hac ca, es decir, no tendría ningún sentido sumar o multiplicarlos, ya que en realidad son simple gos s y no números en una escala. Puede da e el caso q que digos alguna m se a una escala, por ejemplo colores o tonalidades vincu n e onda de la energía ada sos casos debes tener cuidado de verifi e los có estén espaciados en una escala aritm Tipos de Escalas… Cuantitativa, C ardin Nomin

Algunas dime ones medi una mérica ruente en cierto con eden no serlo en otro y podríamos no da s un tratam num o. P emplo, al r el r el azimut de una orientación cardinal, umas o lo edi no ten ingún sen si un medida en azimut tiene 0° y otra e 360°, el edio sería 1 uando e idad rientaciones son coincidentes ya que en azimut 0° y on e s y 180 la orientación totalm uesta. Este es el caso de dimensiones q e miden e las c

Cuando se us ste tipo de as, s er muy claro los aná e se llevar a cabo, ya que como se mencion todos los ador interpretarse acorde lema ¿Dónde Proces is Dat omo ya h , é ño má por lo que los cálculos

se pueden realizar todavía más fácilmente con la ayuda de una hoja de cálculo o con un uete de cómputo especializado para el análisis estadístico como SAS (Statistical

Analysis System), SPSS (Statistical Package for the Social Sciences), Minitab, etc. Estimación de la Media y del Total de la Población

riables cuantitativas, los parámetros que con mayor frecuencia interesa estimar son la

e número de dígitos que

nte y se procede a hacer la selección como se explicó para el caso de las tablas. ¿En Qué Medimos... Centímetros, Kilogramos, Metros2...?

tes de continuar es importante recordar la conveniedas a y za dimla magnitud naturale de la ensión que se evalú Esa escala debe ser

se usan c ara el regist o de la luación ds, por eje e el nú ro “1” a un

nte esto q obre esos recto er aritmétis códianera

o etiquetasocien conrs ue aun solo sean có , de

lados co longitud d reflej , aun en ecar qu digos ética.

íclica, C al, al nsi das en escala nu cong texto, purle iento érico correct or ej medi umbo o

las s s prom os pueden er n tido; a orientación tien prom de ambas 80°, c n real ambas o

360° s quivalente ° es ente opue s n esca íclicas. an e escal e debe ten lisis qu puedenó, no estim es pueden al prob .

o m os? C abíamos mencionado ste es el dise s sencillo,

paq

Al evaluar va

media ( )Yµ o el total ( )Yτ de la variable “Y” para toda la población. Estos parámetros tienen las siguientes definiciones,

N

yN

ii∑

poblaciónladeMedia Y==== µµ …(1)

==== ∑

1

µτµτ NypoblaciónladeTotalN

iiY

=

…(2)

omite el subín ont claro a qué variable se refiere. Naturalmente al no tener acceso a t d trales, de donde proviene cada yi, se hace

necesario definir estimadores sobre los datos que s proporcionan las mediciones que se hacen en las unidades de muestreo incluidas en la muestra. Los estimadores de µ y τ se ntinuación.

1

diceEn ocasiones se “Y”, ya que el c

odas las N unidaexto dejae ss mue

no dan a co

28

Page 58: TESIS MUESTREO Arana2003

Estimador de la Media Poblacional µ

n

yy

n

ii∑

=∧

== 1µ …(3)

Estimador del Total Poblacional τ

yN=∧

τ …(4)

Estas expresiones se denominan estim res y una vez que se ejecutan usando los datos de una muestra específica, los valores que se obtienen se denominan estimadas. Los estimadores tienen propiedades estadísticas, en camb estimadas son realizaciones de los estimadores, los estimadores son variables aleatorias que tienen propiedades estadísticas derivadas de la probabilidad.

Es favorable que los estimadores tenga nas propiedades estadísticas deseable. En esta ocasión revisarem d dia y del total de la población a saber, insesgam ción.

¿Cuáles son esas características que hacen atractivo a un estimador?

ado

io las

n alguos dos propiedades deseables en los estimadoresiento y consistencia, las cuales revisamos a continua

e la me

Definición Insesgamiento Un estimador insesgado es aquel que en un número muy grande de estimaciones,

tiene un promedio que difiere muy poco del valor del parámetro. Algebraicamente se representa como sigue,

( ) 0=−⎟⎠⎞

⎜⎝⎛= θθθ Esesgo

Es un estimador insesgado de µ. Esto implica que el promedio de las medias de todas las muestras posibles es igual a la media de la población. Otra manera más formal, de expresar lo anterior es que la

esperanza matemática de y es µ. Existen tantas es o muestras posibles haya, sin embargo no sabremos cuál de todas es la que hemos obtenido, por eso es que en torno a ella se desarrollan los principio i r

y timadas com

s de la probab lidad pa a inferir sobre la media de la población que desconocemos. La verificación de esta propiedad puede verificarse en el apéndice (A).

∧τ También es un estimador insesgado del total de la población.

La verificación de esta propiedad puede verificarse en el apéndice (B).

Definición

Consistencia

θθ →⇒→∧

Nn Cuando

29

Page 59: TESIS MUESTREO Arana2003

media de la población µ, y ∧

τ es un ador consistente del total poblacional τ. Esta propiedad implica que cuando el tamaño de la mu gual al tamaño de la población, es decir, n = N, el estimador es igual al parámetro. La stración resulta casi

evidente por las definiciones de

Es un estimador consistente de la estimestra es i

demo

y , µ y τ. La consistencia y el insesgamiento, aunque parecen propiedades casi naturales, son importantes y

, ∧

τ

y

pueden no estar presentes en otros estimadores de la media y del total poblacional. Por esta razón, es que y y ∧

τres de µ y de τ más utilizados.

taturas s habitantes de una región en o aleatoriamente por el número

de paciente, o

son los estimado

Ejemplo. EsEl sector salud está interesado en saber la estatura promedio de lo

particular. De los datos de los registros de la clínica de salud de la región, eligiend obtuvim s los siguientes 35 registros de la población de 700 personas.

Cuadro1. Estaturas de los residentes de cierta comunidad Observación Estatura

(m) Género Observación Estatura

(m) Género

1 1.65 Hombre 19 1.85 Hombre 2 1. 0 Hombre 20 1.65 Hombre 3 1.84 Hombre 21 1.78 Hombre 4 1.83 Hombre 22 1.75 Hombre 5 1.73 Hombre 23 1.75 Hombre 6 1.83 Hombre 24 1.88 Hombre

8

7 1.80 Hombre 25 1.53 Mujer

78 Hombre 28 1.70 Mujer 11 1.85 Hombre 29 1.58 Mujer 12 1.80 Hombre 30 1.75 Mujer 13 1.75 Hombre 31 1.70 Mujer 14 1.68 Hombre 32 1.73 Mujer 15 1.78 Hombre 33 1.73 Mujer 16 1.80 Hombre 34 1.57 Mujer

Σyi = 61.13

8 1.85 Hombre 26 1.65 Mujer 9 1.80 Hombre 27 1.70 Mujer

10 1.

17 1.73 Hombre 35 1.70 Mujer 18 1.83 Hombre

Apl dican o la ecuación (3),

my 75.135

13.61==

Lo que quiere decir que la estatura promedio de la población localidad se estima que es 1.75m.

s En el ejido de San Miguel s desea onocer d de hectáreas que están cultivadas con frijol pues

ente es suficiente para cubrir un contrato con una empresa procesadora de frijoles en lata. Sabemos que en el ejido existen 205 ejidatarios que cultivan frijol los ente la ocupan en su totalidad

de esa

Ejemplo. Ejidatarioe c la cantida

el líder de los ejidatarios quiere saber si la capacidad que tienen actualm

cuales tienen la misma cantidad de tierra cultivable, pero no necesariam

30

Page 60: TESIS MUESTREO Arana2003

para sem

brar frijol, de estos ejidatarios tomamos una muestra de 20 y les preguntamos la cantidad de hectáreas que tienen sembradas con frijol, las respuestas se listan a continuación.

Cuadro 2. Número de Has por ejidatario

No. Ejidatario No. Ha 1 8.94 2 11.02 3 11.53 4 10.9 5 7.71 6 10.22 7 10.14 8 11.28 9 9.5

10 11.03 11 7.98 12 10.43 13 12.08 14 11.06 15 8.26

.19

16 8.44 17 7.87 18 1319 11.85 20 10.53 Σ 203.96

Aplicando la ecuación (4), obtenemos lo siguiente,

HasyN 59.090,2)198.10(205 ===∧

τ Lo que significa que estimamos que 2,090 Has están cultivas con frijol en el ejido de San Miguel.

Dado que ∧

µ y ∧

τ son variables aleatorias, es de interés conocer los estimadores de sus varianzas ya que es fundamental que en nuestras estimaciones incluyamos la varianza que estas poseen, a continuación mostramos

las varianzas de ∧

µ y ∧

τ

bolizada por . Con su ién por sí m

y explicamos detalladamente su importancia. Estimación de la Varianza de la Población

Podemos mencionar que otro parámetro importante de la población es la varianza sim 2σauxilio podrás hacer inferencias probabilísticas sobre la estimación de la media; tamb isma

puede tener gran importancia pues refleja la variabilidad que existe entre los valores que puede tomar la variable que se está analizando Este parámetro se define por la siguiente expresión,

( )

N

yN

ii

Y

∑=

−== 1

2

22µ

σσ …(5)

31

Page 61: TESIS MUESTREO Arana2003

Al igual qu y también tiene su estimador el cual se obtiene con la muestra. Este estimador se

denota c

e ∧

µ∧

τ , 2σ como sigue, 2Son

( )1

1

2

22

−==

∑=

n

yySS

n

ii

Y )

o y mencionó, e o es se omite el subíndice “Y”, que indica la variable sobre la que se ado parámetro.

s datos del ejemplo de las estaturas, y aplicando la fórmula (6) obtenemos la varianza de los

…(6

Com a se n ocasi nefine el estim r o el d

Ejemplo. EstaturaTomando los

datos,

( ) ( ) ( ) 222

35274.1yi −∑

12 0072.034

74.170.174.165.134

mS iY =

−++−== = L

Por el teorema central del límite, la distribución del estimador y es normal con los siguientes parámetros.

stimador de la Varianza de la Media E

NnNy −

=2

2 σσ

ny

y = µµ…(7)

Al no conocer los paráme expresiones, recurrimos a utilizar sus estimadores.

tros incluidos en estas

[ ]fS

NnSy ⎥⎦⎢⎣

=

2

…(8)

n

donde

nNS

y

y

y

y

−=

⎤⎡ −

==∧∧

1

22

µµ

Nnf =

La demostración de este resultado se da en el apéndice (C) del presente capítulo. Al factor ( ) NnN − se le denomina corrección por población finita, que también se puede expresar

omo c ( )[ ]Nn−1 , donde el cociente ( )Nn se denomina fracción de muestreo ( )f . La importancia del factor de corrección se reduce a medida que la fracción de muestreo se hace más peque s decir, cuando la muestra representa una proporción menor de la población. Por la reducc de esta magnitud, en ocasiones suele omitirse si la fracci menor que 5%, esto es, si

ña, eión

( ) 05.0<Nnón de muestreo es . os estimadores y recurriendo a las propiedades de la distribución normal, podemos

establecer un intervalo alrededor de Teniendo est

y que cubra cier de valores dada, teniendo

que el estimador

ta probabilidad de ocurrencia

ycomo base el hecho de se distribuye normalmente con los parámetros señalados, de los que

estará incluida en dicho intervalo. Ejemplo. Estaturas

ahora tenemos estimadores. Así, conociendo el intervalo fijado para la probabilidad indicada, podremos aseverar con se nivel de probabilidad (confianza) que la media de la población e

32

Page 62: TESIS MUESTREO Arana2003

Aplicando la ecuación (8) y tomando los datos del ejemplo de las estaturas, obtenemos la varianza de la media muestral,

( )

00020.070035

=⎦⎣

Para el total también son aplicables los argumentos expuestos. El estimador ∧

357000072.0

2

⎥⎤

⎢⎡ −

=

2⎥⎦⎤

⎢⎣⎡ −

=N

nNnS

S yy

τ

del total se distribuye normalmente con los siguientes parámetros.

Estimador de la Varianza del Total

⎥⎦⎤⎡ −

= ⎢⎣

==

nNN

N

y2

22 σσ ∧

Nn

µτµ

τ

Nuevamente, al no conocer los parámetros incluidos en estas expresiones recurrimos a utilizar sus estimadores.

τ

…(9)

⎥⎦⎤

⎢⎣⎡ −

=

==

∧∧∧

NnN

nS

NS

yNN

y2

22

τ

τ µµ …(10)

Este resultado se presenta en el apéndice del capítulo (D).

Claro está que estas expresiones pueden simplificarse algebraicamente. A la desviación estándar de los estimadores, o sea la raíz cuadrada positiva de sus varianzas, por

convencionalismo se le conoce como error estándar, de la media y del total respectivamente. El estimador expuesto anteriormente es insesgado y su demostración se presenta en el apéndice (E) del

presente capítulo.

Tomando nuevamente el ejemplo de los ejidatarios que siembran frijol y aplicando la ecuación (10), obtenemos la siguiente estimación,

Ejemplo. Ejidatarios

33

Page 63: TESIS MUESTREO Arana2003

( )

34

35.4629=

Estimación del Intervalo de Confianza de la Media µ y del Total τ de lPoblación

Debemos tener presente que lo que nos interesa estimar es la media o el total de la población, es

µ ó τ, basándonos en la información que nos provee la muestra, esto es

9024.020

2052= 4413.2

⎥⎤

⎢∧

n

a

decir

222 ⎡ −

=NS

NS y

⎦⎣ Nnτ

y , 2yS ,

τ y 2∧τ

emos

e han os en ar, ya os de

libertad; con esas dos piezas de información entramos a la tabla de

S que ya h

calculado. Un intervalo de confianza se establece utilizando las propiedades de la distribución de “t” que s

revisado anteriormente. El valor de t que debemos usar depende del nivel de confiabilidad que deseamnuestra estimación (o correspondientemente de la probabilidad de error (α) que estamos dispuestos a aceptque 1 menos la probabilidad de error es la confiabilidad), y del tamaño de la muestra que nos indica los grad

( )2,1 α−nt y leemos el valor correspondiente, o e cálculo.

α=0.05, que muestrales.

Existen argumentos más elaborados que la mera lectura en la tabla de t, en los que no abundaremos, pero frecuentemente se emp da de 95%, por eso algunos autores no incluyen una tabla de t en sus textos, además de que tanto las hojas de cálculo, los paquetes de cómputo uestro

por el

empleamos la función incluida en algunos programas de cómputo, en hojas dConvencionalmente se ha adoptado como aceptable el nivel de confiabilidad de 95%,

conduce a un valor aproximado de t menor que 2 para tamaños de muestra mayores a 60 unidades

lea el valor de t = 2 para tener una probabilidad aproximaya para análisis estadístico y aun algunas calculadoras manuales proporcionan los valores de t, en n

caso utilizaremos la expresión con el valor de t. Un límite en error en la estimación de un parámetro bajo cierto nivel de probabilidad, se establece

producto del valor de t por la desviación estándar del estimador (llamado error estándar). Para el caso de la media de la población, al sumar y restar este límite ( )( )n St 2,1 α−

estimación puntual de la media (y a la

y ), se origina un intervalo que se presume incluirá a la media de la poblacon el nivel de probabilidad estipulado al obtener el valor de t.

ción µ

Intervalo de

Confianza para la estimación de la media de la población

( ) yn Sty 2,1 α−± …(11)

donde Nny

nNSS −2

y=

Ejemplo. Estaturas

Page 64: TESIS MUESTREO Arana2003

35

lo de Utilizando la media y la varianza estimada del ejemplo de las estaturas y la ecuación (11), el intervaconfianza para un 95% de confiabilidad es como sigue,

( )( )78.1,71.1

00020.03451.275.1 ±

Lo que significa que se estima con un 95% de confiabilidad que la estatura promedio de los habitantes

e

de la localidad se encuentra entre 1.72 y 1.78m.

la población, el intervalo se establecAnálogamente, para la estimación del total de

como sigue,

Intervalo de Confianza pa la estimación del total de la población

ra

( ) τατ ˆ2,1 StyN n−

±= …(12)

donde ⎥⎦⎤

⎢⎣⎡ −

=⎥⎦⎤

⎢⎣⎡ −

=N

nNnS

NN

nNnS

NS yy22

2τ̂

El intervalo de confianza es la referencia de mayor importancia al tener los resul

de un muestreo. El tamaño del intervalo nos indica la precisión que se ha logrado stimación del parámetro de interés.

tados en la

tervalo pequeño, pero su amplitud depende r del estimador. Si deseamos más confiabilidad el

la de

Así el p nza de

ePor supuesto que siempre es deseable un in

del nivel de confiabilidad y del error estándaintervalo tendría que ampliarse como resultado de una t más grande (obsérvese en una tabt). Así que la mayor confiabilidad se paga con menor precisión.

Por su parte, el error estándar depende de la variabilidad en la población y del tamaño de la muestra. tamaño de la muestra es el factor que odemos manipular para lograr una precisión deseada ya que la varia

µ y por lo tanto el error estándar es cero cuando el tamaño de la muestra es igual al de la población.

NnN

nSy −

×2

Cuando N=n ⇒

002

=×Nn

Sy

Ejemplo. Ejidatarios Utilizando el total y la varianza estimada del ejemplo de las tierras sembradas con frijol y la ecuación (12), el

intervalo de confianza para un 95% de confiabilidad es como sigue,

( )( )256,2925,1

629,44334.2090,2 ±

q táreas sembradas de frijol n el

PRECISIÓN RELATIVA

Lo ue significa que se estima con un 95% de confiabilidad que el total de las hec ejido de San Miguel se encuentra entre 1,925Has y 2,256Has. e

Page 65: TESIS MUESTREO Arana2003

La amplitud del intervalo de estimación puede verse abultada por la escala de medición que se evaluar la variable. Por otro lado, a veces es de interés comparar la variabilidad de dos variables que sdiferente naturaleza. Para atender adecuadamente las dos situaciones expuestas se puede recurrir a

ntervalo respecto a la dimensión del estimador, lo cu

use al on de una

al se puede lograr dividiendo el valor estandarización del idel límite de error de estimación entre el estimador mismo.

Para el caso de la media, un límite de error estandarizado respecto a esta es ( ) ( ) ySt yn 2,1 α−, y para el

total ( )∧

− ⎟⎠⎞⎜

⎝⎛

∧ ττ

α Stn 2,1 (donde t como vimos anteriormente es el valor de la distribución t de Student c

correspondiente nivel de confianza y grados de libertad n-1). Usando estos valores estandarizados podcom

on su

ríamos s, o el parar cual es la precisión relativa a la que se ha llegado al estimar la media de dos variables diferente

total si fuera el caso.

36

Page 66: TESIS MUESTREO Arana2003

CÁLCULO DEL TAMAÑO DE LA MUESTRA Una pregunta cotidiana que te harás al iniciar un muestreo es, ¿Cuántas unidades muestrales debemos medir para que mis estimaciones sean adecuadas?

Esta cuestión ya fue introducida en una sección anterior señalando que su discusión se

presentaría mas adelante; este es el momento de hace esa discusión. Com

“rep la representatividad pro ida en la muestra poporrepmuro la precisión de los stimadores que producen, en tanto el tamaño de la muestra sea mayor, mayor será la re ó

n anterior, ahora podemos frasear la pregunta en términos más ceptables en el contexto del muestreo,

Qué pr

ino p

¿Con qué confiabilidad se desea establecer esa precisión? Es decir, estamos preguntando de qué tamaño máximo se desea el producto

r únmente la pregunta referida se hace en términos de lograr la

resentatividad” de la muestra respecto a la población. En muestreo viene de seleccionar cada unidad muestral que será inclu

r un mecanismo probabilístico, en este caso por la aleatoriedad. Esto es así que con esa base se desarrollan los estimadores y podemos decir que tan resentativa es una muestra de pocas unidades muestrales como otra que incluya chas, siempre que ambas muestras hayan sido seleccionadas por el mismo cedimiento aleatorio. La diferencia entre una y otra estriba enp

ep cisi n de los estimadores.

Después de la argumentacióa

¿ ecisión se desea en la estimación de la media ó total poblacional?

pero no estará suficientemente expuesta la pregunta s reguntándonos también,

( )yn St α,1− . Este

roduc o de t y de n implícito en ySp t depende del nivel de confiabilidad implícito en el valor la que a su

m

vez depende de N y 2σ ; de estos tres, los dos últimos están fuera de nuestro control, el tamaño de la población es un número dado que no podemos modificar y la varianza de la población es desconocida, sola ente la podemos estimar por

yS , pero tampoco la controlamos pues es una característica intrínseca

( )yn St α,1− al fenómeno de la p oduoblación que estamos midiendo. Así, finalmente, del pr cto solamente

podemos manipular el nivel de co i y el ta , y si el nivel de confiabilidad es ado por una convención, digamos 95%, solamente nos queda la n como medio para responder la

pregunta

para determinar la n que responda la petición que se establez

a menos a

Qué significa circularidad?

ón, pero además también necesitamos información sobre la variabilidad que existe entre los valores de la característica de interés en las unidades de muestreo, naturalmente esta información no la conocemos hasta después de hacer algunas mediciones.

nfiab lidad maño de la muestrad

. Pero tenemos un problema circular, pues

ca necesitamos información acerca de la variabilidad de 2yσ , la que no puede ser estimada con

que dispongamos de inform ción. 2yS

¿

La decisión de qué tamaño de muestra emplear en cada caso es un problema “circular”, esto es, para decidirlo claramente es necesario tener información sobre el tamaño de la poblaci

37

Page 67: TESIS MUESTREO Arana2003

La medición puede llegar a ser un problema ya que muchas veces el objeto de estudio es de difícil acceso, enseguida se analizan brevemente algunas circunstancias que es prudente tener en uenta al considerar el c problema de la medición.

es, antes de hacer la medición es preciso icultad si el área de interés es grande o

inaccesi

e ean muy especializados, más aun brar para que operen correctamente. Cuando su

comportamiento es consisten e, como un “metro” que solo mide 90 cm, el problema ocasionado se puede corregir una vez detectado; pero si el comportamiento es impredecible o no se identifica una falla consistente, se producirán mediciones equivocadas contra las que el muestreo no ofrece una defensa. Para romper esa circularidad se tienen varias opciones, 1. Contar con una estimación de , obtenida de un trabajo similar previo.

. Emplear algún estimador de que se pueda generar de manera más expedita que

discutiremos en torno a la tercera, teniendo presente que σ es la raíz cuadrada de y es su estimador.

Por las propiedades de la distribución normal, recordamos que el intervalo comprendido en

Cuando se pretende una evaluación de recursos naturalllegar a la unidad muestral, esto puede representar cierta dif

ble. Además, es necesario contar con los instrumentos de medición adecuados, que a veces son muy especializados por lo que se puede requerir una capacitación específica del personal que hará la medición.

Aun cuando los instrum ntos de msi lo son, se deben revisar o cali

e dición no s t

2yS

2yS . 2. Hacer un muestreo preliminar (piloto) para calcular

2yσ 2

yS . 3

Las dos primeras opciones nos entregan un valor con el cual trabajaremos en lo sucesivo, por ello 2σ 2S

σµ ± incluye aproximadamente 68% de área bajo la curva y que σµ 2± incluye aproximadamente el 95%. Así, si se puede estimar cuales son el valor menor y el may perados en la medición y con ellos se calcula el rango o amplitud, y se acepta la proposición cluye aproximadamente el 95% de los valores posible en los datos, dividiendo ese ro tendremos una estimación de σ, la que al elevarla al cuadrado se podría utilizar como en el desarrollo que enseguida se discutirá. ¿Hasta donde puedo equivocarme?

El error de muestreo que se está dispuesto a aceptar debe ser establecido por una instrucción colateral al proceso de muestreo, es decir, alguien con conocimientos sobre el fenómeno debe establecerla. Digamos que ese error se desea de tamaño B, que debe estar dado en las mismas unidades que la media, entonces, partiremos de la expresión

or valor esde que ese rango in

rango entre cuat 2S

( ) BSt yn =− α,1 . Formalmente el siguiente desarrollo debe hacerse

en términos de y no de , pero al final en virtud de que el parámetro no se puede conocer se necesita usar el estimador por lo que de una vez se ha empleado al estimador.

2σ 2S

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎠⎞

⎜⎝⎛ −=

nSt y 1

22

⎟⎟⎠

⎜⎜⎝

⎟⎠

⎜⎝

=Nn

tB2 ⎞⎞

⎠⎝

Nn

Nn

⎟⎞

⎜⎛ −

=nNS

tB y2

⎛ ⎛ −

nNSy2

2

38

Page 68: TESIS MUESTREO Arana2003

NS

tB

nS

NS

nS

tB

yy

yy

2

2

22

22

2

2

+=

−=

La última expresión se puede simplificar para llegar a la ecuación siguiente.

Tamaño muestral requerido para estimar µ con un error de estimación B

( )

( ) ( )2

2/,122

22

=NB

NStn 2/.1

1 α

α

+− nyM

yn

tS …(13)

N : Número de unidades muestrales en la población. S : Varianza estimada en la población de interés.

aceptar. tos a aceptar si los supuestos

2y

MB :El tamaño del error de estimación de la media que estamos dispuestos aEl valor de n cumplirá con el error y precisión que estamos dispues

para calcular 2S son apropiados. En estricto sentido, para calcular n requerpodemos lograr también tomando una muestra previa e ir verificando erecordarás de la sección anterior a este fenómeno se le llama circularidad. Ejemplo. Estaturas Supongamos que deseamos saber cuál es el tamaño de muestra aproestimación de 0.015m (1.5cm) con respecto a la estimación de la media, para

imos un valor de lo cual l valor correcto de n, como

piado para tener un error de el ejemplo de las estaturas,

2S

( )( ) ( )( ) ( ) ( )( )

96.140=Lo que

197.0=

estimación a la media verdadera s 141 pacientes.

estra stimación de ara obtener un estimador del total con el error tolerado para él, la expresión para el cálculo de este

tamaño se presenta a continuación,

76.270072.050.5699015.0

0072.070050.52 +

=n

significa que el número de unidades muestrales que deben constituir a la muestra para tener un error cm5.1± con 0.05 de probabilidad de no incluir en el intervalo dee

De la misma manera que nos interesa saber cuál es el tamaño de muestra necesario para tener nula media con el error tolerado, es necesario saber cuál es el tamaño de muestra necesario e

p

Tamaño muestral requerido para estimar τ con un error de esti

mación B

( )

( ) ( )22

,122

232,1

2

2

1 ynT

yn

StNBNSNt

α

+−=

donde N : Número de unidades muestrales en la población.

2yS : Varianza estimada en la población de interés.

:TB El tamaño del error de estimación del total poblacional que estamos dis

...(14)

puestos a aceptar. Ejemplo. Ejidatarios

39

Page 69: TESIS MUESTREO Arana2003

Ahora lo que nos interesaría saber para el ejemplo de las tierras cultivadas con frijol sería, cuál el tamaño apropiado de unidades muestrales incluido en la muestra para tener una confiabilidad del

5% en la estimación del total poblacional, y un error de estimación de = 70m es

TB9

( )( ) ( )( )( ) ( )( ( ))

49.77140,607,1

886,545,12444.22058.4701205 2

=

=

+−

Lo que sig

3 2

nifica que el número de unidades muestrales que deben constituir a la muestra para tener un error

stimación de una Proporción Poblacional Otra tarea que suele ser de interés al estudiar una población es la determinación de la proporción

(P ó do caso de quere orción de personas en una población que son analfabetas, o la proporción que poya a lítico o iniciativa gubernamental, o la proporción de árboles de un bosque que stán enfermos, etc. Debe notarse que en todos los e sta, es la medición que se hace en

idad muestral, que puede se sí o o; esto e solamente consideramos dos grupos . En ocasiones son más de dos grupos a los que pueden pertenecer las unidades muestrales; este

caso no lo consideraremos aquí, pero aun así se podría tener la posibilidad de análisis si se considera que una cierta es

determinado por la posesión por atributos. ocesamiento de los datos es

unidad de muestreo tiene el . Para muchos atributos tal especie vegetal, suponiendo e esta pertenezca a un género

o vivo o no a un árbol, o condición en la que se presenta una gradualidad desde vivo hasta muerto. Es decir, no es posible considerar estados intermedios, por lo que debe establecerse un criterio unívoco que nos permita calificar al árbol como vivo o como muerto (no vivo) y nada más.

Estimador de una Proporción Poblacional P y su Relación con el

as expuestas anteriormente son aplicables, aunque ahora la simbología conviene que se adecue al caso. Para esto, simbolicemos po a la proporción de la población que pertenece a uno de los dos grupos definidos por tener o

no r el atributo evaluado en Y está definida por la siguiente expresión,

44.220538.4 3

=n

70 Has con 0.05 de probabilidad de no incluir en el intervalo de estimación a la media verdadera es 78 ejidatarios.

±

E

π) de las unidades muestrales que pertenecen a uno de s grupos posibles. Por ejemplo, es el r conocer la propcierto partido poa

e jemplos la respuer n se debe a qucada un

posibles

unidad muestral pertenece a uno de los grupos o no, teniendo así solamente una de dos posiblrespuestas excluyentes, o sea sí o no.

Ya que para una unidad de muestreo el pertenecer a un grupo estaríao no de cierto atributo, a esta aplicación también se le conoce como muestreo

Lo relativo a marco de muestreo, selección de la muestra y el prsimilar a lo expuesto para una variable continua.

Medición

La medición en este caso consiste simplemente en determinar si laatributo que la haría pertenecer a la proporción que se desea conocerdeterminación puede ser muy sencilla, por ejemplo pertenecer a una ciertaque el evaluador es capaz de diferenciar dicha especie de otras especies, o quo al otro, ya que solamente se reconocerían dos géneros, tener un color o noocasiones se presentan ciertas dificultades en esa determinación. Por ejem

tenerlo, etc. Sin embargo, en plo el caso de calificar com

Estimador de una Media Poblacional Una manera fácil de introducir esta estimación es aceptar que se trata de una variable Y que

solamente puede tomar los valores cero o uno. De esta manera las fórmul

r YP tene , YP

Proporción de la Población

40

Page 70: TESIS MUESTREO Arana2003

NA

N

yPP

N

ii

Y ===∑

=1 …(15)

Donde A es el número de unidades muestrales en toda la población que pertenecen al grupo

efinido por la característica de tener al atributo. Es claro que ∑ iy es igual a A ya que si la unidad de uestreo tiene la característica aporta un valor de uno y si no la tiene aporta un valor de cero.

dm

Estimador de la Proporción de la P

oblación P

Si otra la

Proporción de la muestra

vez estamos considerando el caso de un muestreo, se entiende que no se puede tener acceso atodas las N unidades de la población, sino solamente a las n que constituyen la muestra. Empleando información dada por la muestra definimos un estimador de la proporción de la población, simbolizado

por ∧

p y definido por la siguiente expresión. ∧

= p

nai

i

==y

n

∑=

n1 …(16)

Similarmente a la definición del parámetro, aquí ∑= iya representa al número de unidades de la muestra que tienen el atributo que se evalúa.

De una vez definamos el complemento de P, denominado por ( )PQ −= 1 para la población y

⎜⎛=

q 1 estimador de Q.

Tomando los datos del Cuadro 1, podemos buscar la proporción de hombres que existen en la muestra, dando a esta característica el valor de uno y cero de lo contrario, de esta forma aplicamos la ecua n

⎟⎞−

p para la muestra, es decir, ∧

q es un⎝ ⎠

Ejemplo. Estaturas

ció (16) para obtener la proporción,

686.0=De es

35

ta forma podemos concluir que el 69% de los seleccionados son hombres y el 3 Est

mos la varianza de la población usan l sarrollando un poco del algebra implicad res de uno o cero.

24=

p

1% mujeres.

imación de la Varianza de la Población Para mantener cierta mecánica en la presentación, ahora definire

do as mismas expresiones que en el caso de una variable continua, dea por el hecho de que la variable solamente toma valo

41

Page 71: TESIS MUESTREO Arana2003

( )

NN

yN

∑ ⎟⎞

⎜⎛

2

y

N

y

N

i

ii

i

N

=

= ⎠⎝−=

1

12

…(17)

Haciendo la siguiente sustitución, tenemos,

ii

=== 122 σσ Y

PQN

NAA

NNAA

=⎟⎠⎞

⎜⎝⎛ −

=

−=

1

2

2σ …(18)

donde,

Representa el número de unidades en la población que tienen el atributo que se

n muestreo necesitamos un estimador de este parámetro, que se efine por la expresión que sigue,

∑=

=N

iiyA

1

evalúa.

Naturalmente, por ser el caso de u

d

( )

11

1

1

1

2

2

12

1

2

22

11

−=

⎟⎠⎞

⎜⎝⎛ −

=

−=

⎟⎠

⎞⎜⎝

==

∧∧

=∑

nqn

nnaa

nnaa

n

y

nSS

n

n

ii

n

iy

1

donde,

Representa el número de unidades en la muestra que tienen el atributo que se evalúa.

Estimación de la Varianza y el Error Estándar del Estimador de la Proporción

Esta estimación sigue un desarrollo paralelo a lo expuesto para una variable continua. Así que por obviar espacio, se presenta una forma más breve.

−=∑ yyi

−=

n …( 9)

−=∑ yi

i

p

∑=

=n

iiya

1

42

Page 72: TESIS MUESTREO Arana2003

Existen otros desarrollos diferentes al que se sigue y el cual se conoce como aproximación usando la distribución normal, el que implica una corrección que se ha omitido por su reducida

trascendencia práctica. Así, tendríamos que se distribuye normalmente con los siguientes parámetros.

p

Media y Varianza del Estimador de P

∧∧

= pPµ …(20)

⎟⎠⎞

⎜⎝⎛ −

−=

⎟⎠⎞

⎜⎝⎛ −

=

∧∧

NnN

nqp

NnN

nSS Y

p

1

22

…(21)

La raíz cuadrada positiva de la varianza del estimador se conoce como error estándar del

estimador de la proporción. Usando nuevamente el Teorema Central del Límite, P tiene aproximadamente una distribución

normal con media y varianza

o la proporción,

p p

σ .

Siguiendo con el ejemplo de las estaturas podemos aplicar la ecuación (21) para btener varianza estimada de la

( )( )

0060.0700

3570034 ⎝

p31.069.02

=

⎟⎠⎞

⎜⎛ −

=S

Cálculo del Intervalo de Estimación de la Proporción P de la Población

Recurriendo a los mismos argumentos que en el caso de una variable continua, vayamos directamente a la expresión del intervalo de confianza de la estimación.

Intervalo de confianza para la estimación de la proporción de la población

( ) ∧−

±p

n Stp2

α ...(22)

donde,

,1

⎟⎞

⎜⎛ −

=∧

nNqpS ⎠⎝−

∧∧

Nnp 1

Ejemplo. staturasE

43

Page 73: TESIS MUESTREO Arana2003

El cálculo ón

del intervalo de confianza para el ejemplo de las estaturas, pero ahora estimando la proporci de hombres en la población lo calculamos aplicando la ecuación (22) y la varianza el ejemplo anterior,

obtenida en

( )( )( )85.0,53.0

03.2077.069.0 ±

Lo que significa que la estimación de la proporción de hombres en la población se encuentra entre 53% y 85%, podemos afirmar esto con un 90% de confiabilidad. Varianza Acotada en la Estimación de una Proporción

Como puede observarse en las expresiones de y de , existe el producto PQ ó , de esas expresiones se puede apreciar que el tamaño de la varianza depende de ese producto para u año de población y de muestra constantes. Esto nos indica que las varianzas, de la población y del estim or,

serán máximas cuando P ó sean iguales a 0.5, ya que entonces el producto mencionado tiene un valor máximo.

Esta propiedad se puede emplear para suponer una varianza máxima antes de realizar el

igu puede

2yσ 2

p̂S∧∧

qpn tam

ad∧

p

muestreo, empleando 05.0=∧

p para los cálculos requeridos, así se tendrán resultados conservadores en el sentido de que los resultados finales siempre serán ales o más precisos que lo esperado.

Respecto al tamaño de muestra requerido, se derivar la siguiente expresión.

Tamaño muestral requerido para estimar ∧

p con un límite para el error de estimación B

( ) ( )2

21,n−P tBnqpNn 21 α

∧∧

−= …(23)

donde,

El tamaño del error de estimación de la proporción poblacional que estamos dispuestos a aceptar.

∧∧

−= pq 1

:PB

Ejemplo. Estaturas

44

Page 74: TESIS MUESTREO Arana2003

Supongamos que necesitamos estimar P res que existen en la población con un erro

para el ejemplo de las estaturas, es decir, la proporción de homb r de estimación B= 0.2, y una confiabilidad del 95%.

( )( )( )( )( )

31.069.0700=n

3.19633.073.149

13.42.034 2

=

=

Lo na ementos para tener un error de estimación de 0.2 en la estimación de la pr orción, con una probabilidad de 0.90 de que la dia verdadera sea incluida en el intervalo de confianza.

APÉNDICE. Revisión Teórica

Para comprobar los resultados expuestos en rrafos anteriores debemos conceptualizar varios detalles del muestreo simple aleatorio.

En esta sección abordaremos los conceptos cesarios para derivar los estimadores y sus propiedades. Cabe destacar que en el muestreo tradi onal la parte aleatoria es la presencia o no de una unidad en la muestra, lo cual es básico para est diar la teoría del muestreo.

Definición

que significa que necesitamos seleccio r 197 elop

me

neciu

Función I icadora nd Sea A un evento cualquiera relacionado con una variable aleatoria Y. Entonces la función indicadora IA se define como,

⎩⎨⎧

=...0

1fod

Ael evento si ocurre I A

Ejemplo. Estaturas

45

Page 75: TESIS MUESTREO Arana2003

Es importante notar que el evento A ocurre rta probabilidad IA por lo que la función concieindicadora IA también puede denotarse como,

⎩⎨⎧ Abilidad con proba π 1

=A

A ilidad con probabI

π-1 0

Lo cual equivale a una v.a. Bernoulli Las oria Bernoulli son muy útiles en la teoría estadística. A

ontinuación damos algunas de ellas, 1.

propiedades de la variable aleatc

( ) AAIE π=

( ) ( )AAAIV ππ −= 1 2.

3. También podemos definir como una v.a. cuya esperanza BAI ∩

( ) ( ) ==⋅=∩ ABBABA IIEIE π Probabilidad de que ocurra A y B y

( ) BAABBA IIV πππ −=⋅ En muestreo, tradicionalmente el evento de interés es que la i-ésima unidad de la población aparezca

en la

sí, lo se refiere a unidades que pueden o no pertenecer a la muestra. n el presente capítulo se asume un muestreo simple aleatorio, es decir,

2. 3. plazo, por lo tanto las probabilidades de,

a) Que una unidad quede en la muestra es n/N.

b) Que la unidad i y la unidad j queden en la muestra es

muestra.

s eventos A y BAE1. Cada unidad de la población tiene la misma probabilidad de entrar en la muestra.

Cada muestra tiene la misma probabilidad de ser seleccionada. El muestreo es sin reem

, ( )( )1

1−

−NNnn

.

c) Que la probabilidad de una muestra de tamaño n sea seleccionada es

. Insesgamiento de

1−

⎟⎟⎠

⎞⎜⎜⎝

⎛nN

.

y A

Teorema. Un estimador insesgado de µ es ∑=

=n

iiy

ny

1

1 donde n= tamaño de muestra en un muestreo

sin reemplazo.

emostración D Por definición

∑=

N Iy

hora, sea Ii el evento de que yi está en la muestra para i= 1, 2, …, N , entonces,

=i

ii

ny

1

A

46

Page 76: TESIS MUESTREO Arana2003

[ ] ( )

( )

µ=

=

=

=

=

=

=

=

=

N

ii

N

ii

N

iii

N

iii

yN

yNn

n

IEyn

IyEn

yE

1

1

1

1

1

1

1

1

y∴ es insesgado

B. Insesgamiento de

Teorema. Un estimador insesgado de

τ

τ es yN=∧

τ donde N= Es el número total de unidades muestrales en un muestreo sin reemplazo. Demostración Esta se deduce inmediatamente del teorema anterior,

[ ]

τ

τ

=

=

=⎥⎦⎤

⎢⎣⎡

∑=

N

iiy

NN

yNEE

1

C. Demostraremos la expresión de la varianza de y

yTeorema. Bajo un esquema de muestreo simple aleatorio sin reemplazo, la varianza de está dada por la siguiente expresión.

( ) ( )N

nNn

Sfn

SyV −=−=

22

1

Demostración

Por definición ( ) ( )

2µ−⎥⎥⎦

⎤⎟⎟⎠

⎞+ ∑

n

jijiji yyyy2

1⎢⎡

⎜⎜⎛

=

∑n

i

nE

22

1

22

1 µ

µ

⎢⎣ ⎝

−⎥⎥⎦

⎢⎢⎣

⎡⎜⎝

⎛=

−=

=

=

ji

n

iy

nE

yEyV

⎟⎞

47

Page 77: TESIS MUESTREO Arana2003

( ) ( )

( )( )

( )( )

( ) ( )( ) ( )

( )( )( )

( )( ) ( )

( )2

1

2

111

1µ−

−−−−

+−

−= ∑

= NnNnnNy

NnNnN N

ii

22

2

2

11

2

1111

11

µ

µ

−⎥⎤

⎢⎡

−−

+−−−

=

−⎟⎠

⎜⎝−

+⎟⎟⎠

⎜⎜⎝ −

−=

∑∑==

nNynN

yNNn

yNnNnN

N

i

ii

ii

1

2

22

11

1111

1 µ

⎦⎣ −−

⎞⎛−⎞⎛ −

⎤⎡ ⎞⎛

−⎥⎥⎦

⎤⎡⎟⎟⎠

⎞⎛+ ∑∑

=

≠=

NnNNnN

nn

yyy

i

NN

NN

n

jiji

n

jii

…continua

2⎢⎢⎣

⎜⎜⎝

=n

E

2

1

22

11

2

22

1

22

22

22

222

1111

1111

11

1

µ

µ

µ

µ

−⎥⎥⎦

⎢⎢⎣

⎡−⎟

⎞⎜⎝

⎛−

−+=

−−

−+=

−⎟⎟⎠

⎞⎜⎜⎝

⎛+=

−⎥⎥⎦⎢

⎢⎣

⎟⎟⎠

⎜⎜⎝

+=

∑∑∑

∑∑

∑∑

∑∑

===

≠=

≠=

≠=

yyNN

nn

ynN

yyNNnn

ny

Nn

n

IIEyyn

IEyn

IIyyyIn

E

N

ii

N

ii

N

ii

N

jiji

N

ii

N

jijiji

N

jiii

jiji

jiji

ii

( ) ( ) ( )

( fS 1−= ) dqql

NNn

nS

Ny

nNnN

NnnNy

NnNnNyV

N

i

i

N

ii

...

1

11

2

2

1

22

2

1

2

−⋅=

⎥⎦

⎤⎢⎣

⎡−

−−

=

−−

−+

−−

=

=

=

µ

µ

n D. Estimador de la varianza del total

Usando este resultado es inmediato demostrar que el estimador del total poblacional ∧

τ tiene

varianza ( )fn

SN −12

2 ya que µτ N=∧

.

Ahora probaremos que el estimador anterior es insesgado.

y E. Insesgamiento del estimador de la varianza de En el estimador de la varianza inmediatamente llama la atención que el denominador no es

milar al del parámetro, como fue el caso en el parámetro y el estimador de la media. Este cambio si

48

Page 78: TESIS MUESTREO Arana2003

encuentra justificación al perseguir que el estimador sea insesgado, es decir que la esperanza matemática de s

Teorema. Un est

2S ea 2σ .

imador insesgado de ( )yV está dado por la siguiente expresión.

( ) ( )( ) ( )∑ −−

=n

i yyfyV 1

=− inn 11 Demostración

Sumando y restando y en el argumento de la sumatoria, el valor esperado de ( )yV , puede expresarse como,

( )[ ] ( ) ( ) ( )[ ]( )

( ) ( )( ) ( ) ( )

( )( )( ) ( ) ( )⎥

⎤⎢⎣

⎡−−

−−

=

⎥⎦

⎤⎢⎣

⎡−

−−−⎥

⎤⎢⎣

−−

−=

⎪⎭⎪⎩ −

∑∑

=

==

=

N

iii

n

i

n

i

i

i

ynVyIEnn

f

nnyEf

nnyEf

nn

1

2

11

2

1

11

11

11

1

µ

µµ

⎪⎬⎫⎪

⎨⎧ −−−

−= ∑n

i yyEfyVE2

1 µµ

…continua

( )[ ] ( )( ) ( ) ( ) ( )

( )( ) ( ) ( )

( )( ) ( )

( ) ( ) ( ) ( )

( ) ( )

( ) ( )

( )yVNn

=⎦⎣−1

yVnN⎥⎤

⎢⎡ −

=11

yVN

nNN

Nnn

yNn

ynVNnyf

ynVIEynn

fyVE

Ni

N

i

N

iii

⎥⎦⎤

⎢⎣⎡ −

−−

−=

⎤⎤⎡ −−

⎥⎦

⎤⎢⎡

−−−

=

⎥⎦

⎤⎢⎣

⎡−−

−−

=

∑=

11

1

11

1

11

2

2

1

2

µ

µ

µ

m

inf n

estos resultados, podemos llegar a hacer las inferencias necesarias sobre la población onfianza. Para ello, sabemos que el error estándar de un estimador

yVfnfNnNnn i ⎥

⎥⎦⎢

⎢⎣

−−−⎥⎦

⎢⎣ −−

= ∑=

1111 1

nn i

⎡⎣− =1

2

1

Puedes notar que S2 no es un estimador consistente ya que al hacer n igual a N, el denominador del esti ador todavía es diferente en el parámetro y en el estimador, sin embargo se dice que es consistente asintóticamente, esto quiere decir que 2S tiende a 2σ cuando n tiende a N y ésta tiende a un valor

i ito. A partir de

como sería el calcular intervalos de c∧

θ es igual a la raíz cuadrada de su varianza. Por lo tanto un intervalo de confianza con ( )%1 α− de

nfiabilidad para co y , está dado por,

( ) ( )[ ]yEE2ty n ,1 α−± onde, d

( )[ ] ( )( ) ( )∑

=

−−

=i

i yynn

yEE11

− nf 21

49

Page 79: TESIS MUESTREO Arana2003

Con respecto al total τ se sigue el mismo razonamiento. Cabe hacer notar que dado que

µτ N= y yN=∧

τ ⎛ ∧

, tenemos que un estimador de ⎟⎠

⎜⎝

⎞τ ado por, V estaría d

( )( ) ( ) ( )yVNyyfNV

n

i

∧∧∧

=−−−

=⎟⎞

⎜⎛ ∑ 221τ

nn i=⎠⎝ 1

2

1

varEsta ianza es la que usamos para inferencias sobre τ ,

⎥⎦⎢⎣⎟⎠

⎜⎝

± − ττ α EEtn )2(,1⎤⎡ ⎞⎛ ∧∧

En el caso de proporciones, se asume que 1=iy si posee un atributo específico y iy 0=iy si no lo posee. Entonces, sustituyendo estos valores es las expresiones anteriores, se obtienen los estimadores y sus propied ón p es la que se desea estimar en nuestro estudio. No es difícil demo r que,

ades cuando una proporcist ar

nay

np i == ∑1

n

ni=

donde, a = # de elementos que poseen el atributo

es un estimador insesgado de

p NAP = con varianza,

( )⎟⎠⎝ −⎠⎝ 1Nn⎞−−∧ 1 nNpp

y se estima como⎜⎛=⎟

⎞⎜⎛ pV ⎟

⎠⎝− Nn 1

Además ⎟⎠⎞

⎜⎝⎛ ∧

pV es un estimador insesgado de

⎞⎜⎛=

−⋅

⎟⎠⎞

⎜⎝⎛ −

∧∧

pVnNpp 1

( )PV .

Con respecto al I.C. se puede proceder de 2 maneras. La primera sería con una aproximación a la normal y la segunda con la distribución binomial.

En el primer caso, el I.C. con un ( )%1 α− de confianza, está dado por,

⎥⎦⎢⎣⎟⎠

⎜⎝

± − pEEtp n )2(,1 α

Para el segundo caso, debemos encontrar p y p tal que,

⎤⎡ ⎞⎛ ∧∧

u l

( )∑ − =−=

⎞⎛msnsn

⎟⎟⎠

⎜⎜⎝s

uu pps0

21 α

y

( )∑=

− =−⎟⎟⎠

⎞⎜⎜⎝

⎛n

ms

snl

sl pp

sn

21 α

Cochran (1977) de las condiciones bajo las cuales la distribución normal aproximando a la binomial, da una razonable estimación.

50

Page 80: TESIS MUESTREO Arana2003

APÉNDICE II. Hoja de Cálculo

El texto cuenta con un disquete que tiene un archivo en Excel con 7 hojas de cálculo, cada una con el nombre del diseño de muestreo que contiene las fórmulas para calcular sus correspondientes estimadores.

En cada hoja se nstru nes d uso pa principales estimadores. Para ejemplificar este punto a continuación presentamos algunos ejemplos vistos en el capítulo, los

diferente tipo de información, según sea conveniente.

Es recomendable copiar la hoja de cálculo y guardarla con otro nombre para evitar la pérdida de alguna fórmula.

indican las i ccio e ra obtener los

cuales pueden variar por redondeo.

Es importante mencionar que estas hojas pueden usarse con

51

Page 81: TESIS MUESTREO Arana2003

Ejemplo. Estaturas

Media

Como podrás darte cuenta los resultados son prácticamente los mcalculados anteriormente con las ecuaciones que presentamos a lo largo d

Ejemplo. Ejidatarios

52

Intervalo deConfianza

ismos que losel capítulo.

Page 82: TESIS MUESTREO Arana2003

En este caso lo que nos interesa estimar es un tot lacobservar, la misma hoja de cálculo nos proporciona estas estimpuedes calcular el tamaño de muestra necesario para estimar el totalerror.

ESTREO ALESTRATIFICAD

APÍTULO 4

al pob

MUC

Total

53

Intervalo deConfianza

ional, como puedes aciones y también

con cierto límite de

EATORIO O

Page 83: TESIS MUESTREO Arana2003

Estratificar por… Género, Edad, Nivel de Estudios, etc.

INTRODUCCIÓN estreo t io Simple es en principio una buena opción para la

ealización de un muestreo, ya que representa una forma sencilla de obtener n de cualquier

s puntos como el costo que nos implica un muestreo ni la variabilidad que puede existir en muchas poblaciones vistas de esta manera. Por esto el presente capítulo intentará brindar otras opciones que respondan a estas situaciones que se presentan en nuestro universo con la introducción del muestreo aleatorio estratificado. Este plan de muestreo trata de hacer aún más precisas las estimaciones que podemos obtener con un diseño básico de muestreo como el

el que se divide la población N individuos, en E subpoblaciones o estratos, con respecto a criterios que puedan ser

cada uno de estos estratos o subpoblaciones se realiza, un muestreo leatorio simple con muestras respectivas de tamaño nh, así que la muestra de tamaño n s igual

hhnn

1

Definición

El Mu Alea or

restimaciones de los parámetros necesarios para la caracterizació

y como te habrás percatado, hasta el momento no hemos población. Sin embargo, tomado en cuenta alguno

aleatorio simple. Un Muestreo Aleatorio Estratificado es aquel en

de importantes en el estudio. Los estratos contienen N1, ..., NE unidades muestrales, de manera que,

∑=

=E

hhNN

1

Y en ae a,

E

∑=

=

Muestra aleatoria estratificada

Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran respecto a alguna homogeneidad entre unidades muestrales característica, (se puede e , el municipio de stratificar, por ejemplo, según la profesiónresidencia, el género, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra y que estos no presentarán traslapes. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos un muestreo aleatorio simple, para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las

54

Page 84: TESIS MUESTREO Arana2003

dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población, como tamaño geográfico, sexo, edades, etc.

ado cuando la población es muy heterogénea y las limitan el tamaño de la muestra. Si consideramos estas

ción y utilizamos el muestreo aleatorio simple sería nes ficientemente precisas o el costo sería demasiado

Cuándo debo utili r MAE?

Algunos motivos para util io estratificado en lugar de muestreo simple aleatorio son,

) Si deseamos una siderar a cada es

obtener cierto cua ciones dentro de los estratos son homogéneas. cir el cost por observación de la encuesta, mediante la estratificación de

lementos de la es y fácilmente diferenciables. tratificación puede lles característica

otación Para esta técnica de mu nguir

cada elemento de la població

Características del Muestreo Aleatorio Estratificado (MAE)

Este tipo de muestreo es utiliz

consideraciones de costo características en una poblaimposible obtener estimacio suelevado.

Como ya mencionamos en el muestreo aleatorio estratificado la población se divide en subpoblaciones llamadas estratos de acuerdo a alguna semejanza a fin de reducir considerablemente la variación entre las mediciones en cada estrato, donde los elementos en cada uno de éstos no se traslapan y en su conjunto constituyen a toda la población. Una vez dividida la población se realiza la selección de una muestra aleatoria irrestricta para cada estrato, lo que nos permite la estimación separada de parámetros poblacionales dentro de cada uno de ellos.

¿ za

izar muestreo aleator

1 cierta precisión en algún estrato, de esta manera podemos trato como una población.

un límite para el error de estimación más pequeño, esto se ndo las medi

con2) Podemos

considera 3) Para

los eo redupoblación en grupos convenient

4) La esde la

varnos a obtener una mayor precisión en las estimaciones s de la población total.

N

estreo necesitamos una notación adicional para distin. a

55

Page 85: TESIS MUESTREO Arana2003

E Número de estratos en la población N tal de

h

des en

Número to N

unidades muestrales en la población

h Número total de unidades en el estrato n Número deh unida y

la muestra en el estrato h

hi Valor obtenido en la i-é W

sima unidad dentro del estrato h

h= Nh/N Ponderación del estrato (tamaño relativo del estrato) fh= nh/N Fracción de muestreo parh a el estrato h

hn

n

ihy

∑=1 Media del Estrato h

hiyh

=

( )1−hn

Ejemplo. Horas de televisión

Si deseamos conocer la cantidad de horas promedio que cierto grupo de personas en una adultos en ese lugar y que el tiempo de hor

1

2−=

∑= a en el estrato h

ciudad ven la televisión; debemos considerar que existen niños, jóvenes y as libres que tienen varía, entonces de

mane lación e tres estratos, ya que es lógico afirmar ilares y existe homogeneidad dentro de cada

mos entender que el número total de personas de nuestra población es la suma de los elementos en cada estrato.

trato, de esta forma existe homogeneidad entre

¿Cómo seleccionar una muestra aleatoria estratificada? La selección de la muestra va a ser diferente para cada estrato ya que cada uno

tiene características y costos de medición distintos por lo que e unidades también será diferente. Por ejemplo la muestra en el estrato debe ser mayor si este

mayor número de unidades o es muy variable en las características de sus enor si el costo de la medición es elevado. Antes

ser el error de

n

ihhi

h

yys

h

Varianz

ra natural podemos dividir a la pobstrato son sim

nque las tendencias en cada euno de ellos. También pode

Otro ejemplo es el siguiente, si queremos conocer el diámetro promedio en los árboles de cierto bosque donde existen especies diferentes, podemos considerar a los rboles de una misma especie como un esá

los elementos de cada estrato.

l número de

contieneelementos, por el contrario va a ser mde seleccionar una muestra es preciso considerar que tan grande debe stimación y de acuerdo con esto seleccionar el tamaño de la muestra. e

56

Page 86: TESIS MUESTREO Arana2003

En resumen, de un estrato dado se toma una muestra más grande sí, 1) El estrato es más grande. 2) El estrato es más variable internamente, es decir existe diferencia en los elementos

del estrato. ) El muestreo es más barato en el estrato. 3

57

Page 87: TESIS MUESTREO Arana2003

La determinación del tamaño de muestra y su alocación, se discutirán posteriormente. Estimación de la media y el total poblacional

Estimador Puntual Supongamos que ya hemos tomado nuestra muestra aleatoria estratificada, y

entonces nos preguntamos ¿cómo debemos usarla para estimar nuestros principales parámetros?, Es decir, contestarnos preguntas como ¿cuál es la media de nuestra población? o ¿cuál es el total?. Para esto utilizaremos la notación presentada ante cuanto a nuestros parámetros, definiremos a µh como la media pob i como el total verdadero para el estrato h. De esta manera resulta obvio que

riormente, en lac onal y a τh

Eτττ L+2 es igual a τ, que en nuestro caso es el total verdadero de la población. Para comprender la expresión que nos dará esta estimación, debemos tomar en

cuenta algunas propiedades revisadas en

+1

el capítulo anterior tales como que hY es un estimador insesgado de hµ y que hYN es un estimador insesgado del total del estrato

∑=

=hN

ihih y

1τ , tal como en el muestreo aleatorio simple. Hasta aquí todo parece razonable,

tal como formar un estimador de τ, con la suma de los τh y de esta manera podemos construir un estimador para la media de la población al dividir τ entre N, el cual hereda la propiedad de insesgamiento. Así pues, nuestro estimador luce de la siguiente manera,

Estimación de la Media Poblacional µst

∑==

E

hhh

st

yNy 1

∑=E

yW hh

…(1) N

=h 1

Dado que cada estrato se maneja de manea independiente, las hy con h= 1, 2, ...E

también son independientes. Por lo tanto la varianza de sty es la suma de las varianzas de las medias de cada estrato y este estimador es insesgado.

Estimación de la Varianza de sty

58

Page 88: TESIS MUESTREO Arana2003

( )

∧∧∧∧

⎡ ⎛⎞⎛⎞⎛

⎥⎦⎤

⎢⎣⎡ +++= EEst yVNyVNyVN

NyV

2

22

221

212 )(...)()(1)(

=

=

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛ −=

⎟⎟⎠

⎜⎜⎝

⎟⎟⎠⎝

⎟⎜

=

⎞⎛⎞⎜⎜⎛ −

=

⎟⎠

⎜⎝

∑E

SW 22

=hyh h

1

Como te imaginarás, el paso inmediato es la obtención del intervalo de confianza d

⎞⎛⎞⎛ − snN 2

⎟⎟⎜=

⎥⎥⎦

⎢⎢⎣

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

−++⎟⎟

⎠⎜⎜⎝

⎟⎟⎠

⎜⎜⎝

−=

E

h h

h

h

hhh

h hh

hhhE

E

E

E

EEE

ns

NnN

W

n

N

ns

NnNN

ns

NnNN

N

1

22

1

2

22

1

1

1

11212

21

...1

K

e nuestra estima capítulo anterior, sin embargo existe una clara diferencia, y esta radica en la obtención del número de grados de libertad que en este caso o efectivo de grados de libertad.

Si sólo se dan algunos ca tr el procedimiento usual para tomar en cuenta el err nado

⎠⎜⎝

Ehhhh

hhhh

sN

nNNN

nNN2

2

2

12

ción, esta es una tarea similar a la vista en el

le llamamos númer grados de libertad para da es ato, or de muestreo relacio a )t c( y onsiste en leer el valor

de t en las tablas de la t de Student, como lo hi e streo aleatorio simple. En

2s s

uecimos n el meste caso la distribución de )(2 ys es en general demasiado cost mpleja, para permitir la aplicación estricta de este método. A continuación presentamos el método aproximado

e asigd nación de un número efectivo de grados de libertad a )(2stys (Satterthwaite,

1946).

Número Efectivo de Grados de Libertad

∑=

⎟⎠

⎜⎝ h

hhsg1

2

= −

⎞⎛

=E

h h

hh

E

e

nsg

n

1

42

2

1

donde,

…(3)

⎟⎟⎠

⎞⎜⎜⎝

⎛ −=

h

hhhh n

nNNg 2

12

2 1)( h

E

hhst sg

Nys ∑

=

= y

Ahora si estamos en posibilidad de construir un intervalo de confianza para nuestro estimador, la expresión que lo representa se escribe a continuación,

Intervalo de Confianza para nuestro estimador

59

Page 89: TESIS MUESTREO Arana2003

( )

=

=

∧ 1

±=

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛ −±=±

E

yhnst

h

h

h

hhE

hhnststst

he

e

SWty

ns

NnN

NN

tyyVty

22,

2

1

22,

2

2

α

α

…(4)

h 1

Total Poblacional τ Hasta este momento hemos revisado todo lo referente al estimador de la media de la

o el total de

personas que asisten a cierto cenconsumen cierto prod timadores del total, los cuales son fácilmente derivados ores de la media.

Estimador del Total Pobl

población, sin embargo, a veces puede no ser nuestro principal interés saber la media,sino el total de la población, por ejemplo, el total de madera de un bosque,

tro turístico o quizá la cantidad de personas que ucto. A continuación presentamos los es

de los estimad

acional

∑∧

=

== stst NNyNNy 1τ …(5) =EE y++1 ...E

hy h 1

La varianza se deduce inmediatamente de la varianza de la media y hereda todas sus

ropiedades. Para la estimación tanto de la varianza de la media como del total deben xistir por lo menos dos observaciones en cada estrato.

pe

Varianza Estimada del Estimador del Total Poblacional

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛ −== ∑

=

∧∧

ii

iiE

iistst n

sN

nNNyVNyNV21

1

22 )()( …(6)

En

Int

el caso del intervalo de confianza utilizamos la varianza de la expresión (6) y los grados efectivos de libertad de la expresión (3). De esta manera sabrás entre cuáles valores se encuentra el total verdadero.

ervalo de confianza

∑ ⎟⎟⎠

=

⎜⎛⎜⎝

⎟⎟⎞

⎜⎛

±E

h

hhhn n

sN

nNt

e1

22

,α⎠h

⎜⎝

h−

h2styN N …(7).

Ejemplo. Bosque de Pino, Encino y Cedro.

ió en tres estratos

Nos encontramos ante la situación de muestrear un bosque para la estimación del volumen medio de madera por hectárea expresado en metros cúbicos, de un bosque de 800 hectáreas. Por medio de fotografías aéreas, la superficie se divid

60

Page 90: TESIS MUESTREO Arana2003

que corresponden a los tres tipos principales de bosque, pinos, encinos y cedros. Se conocían los límites y la extensión total de cada tipo de bosque. Se seleccionaron al azar y sin reemplazo en cada estrato diez sitios de un décimo de hectárea cada uno. Así las observaciones se dividieron de la siguiente manera,

Cuadro 1. Bosque de Pino, Encino y Cedro.

No. Estrato Tamaño Observaciones 1 Pino 3,200 sitios 16 14 17 18 17 22 14

19 20 16 Σ= 173

2 Encinos 1,400 sitios 15 18 23 20 22 16 22 25 24 24 Σ =209

3 Cedros 3,400 sitios

12 15 9 6 5 8 8 7 6 10 Σ = 86

Σ = 8,000 La estimación de la media muestral por cada estrato es,

sitiomy3 6.810/86 ==

sitiomy

sitiomy

3

32

31

9.2010/209

3.1710/173

==

==

Utilizando la fórmula (1) obtenemos,

( )( ) ( )( ) ( )( )

sitiom

N

yNy h

hh

st

3

1=∑

323.14

6.834009.2014003.173200

=

++8000

=

=

Las siguientes son las varianzas para cada estrato,

( ) ( )

45.6)110(

1017316...1416

2222

21

=−

−+++=s

similarmente,

22 =s

on la información anterior podemos obtener la varianza estratificada,

32.12

37.923 =s

CUtilizando la fórmula (2),

61

Page 91: TESIS MUESTREO Arana2003

( )( ) ( )

[

309.0

562,796,198000

13400101

137.93400

001080001

2

2

2

=

=

⎥⎦

⎤⎢⎣

⎟⎠⎞

⎜⎝⎛ −= LstyV

a estimación del intervalo de confianza es la siguiente,

]

0321⎜ −

1045.632002⎡ ⎞⎛ ++⎟⎠⎝

L

( ) [ ]309.023.142,αe stnst yVty ±=±

2,αent

En este caso el número efectivo de grados de libertad utilizando la fórmula (3), es 21, con 025.0,2105.0 t⇒=α = 2.414 sustituyendo,

( )( )57.1589.12

556.0)414.2(23.14556.0)414.2(23.14 +−

El total poblacional estimado, es decir, el total de madera en el bosque, así como

su correspondiente intervalo de confianza, se obtienen con las fórmulas (5) y (7) respectivamente y son los siguientes,

3860,113)23.14(000,8 mst ==∧

τ Su varianza,

( )

562,796,19)3093.0(000,8 2

2

==

=⎟⎠⎞

⎜⎝⎛ ∧∧∧

stst yVNV τ

Y su intervalo de confianza es,

)600,124120,103()449,4(414.2860,113 ±

Población N Población en cada estrato Nh

n n Muestra en un estrato h nh

Ahora es tiempo de planear cuántas unidades muestrales de cada uno de los estratos serán incluidas en la muestra. A

Muestra en la població

Cálculo del Tamaño de la Muestra

62

Page 92: TESIS MUESTREO Arana2003

continuación planteamos blem

soluciones a las ias que se

Cuando decides e

debe tener una muestra debes tomar en cuenta varios factores, como etro a estimar, el error muestral

admisible, la varianza poblacional y el nivel de confianza de la inferencia. Además, dependiendo de las estrategias de asignación, se puede resumir información más específica o adicional.

edades que nos teresan, 6,000 acuden a colegios públicos, 3,000 a colegios privados incorporados y 1,000 a

colegios privados no incorporados. Como estamos interesados en que en nuestra muestra estén representados todos los tipos de colegio, realizamos un muestreo estratificado empleando como variab

nación o alocación más comunes,

Asignación

imple Proporcional

A cada estrato le corresponde igual número de unidades

Por ejemplo si empleamos una asignación simple elegiríamos 200 niños de cada tipo de centro. En ás razonable utilizar una asignación proporcional pues hay bastante diferencia en el

año, calculamos la proporción de cada uno de los estratos en la población para poder reflejarlo en la muestra.

este pro a y damos el tipo de muestreo, el parám

estrategplanteen.

determinar el tamaño quEjemplo. Reforma educativa.

Supongamos que estamos interesados en estudiar el grado de aceptación que la implantación de la reforma educativa ha tenido entre los padres de familia de una determinada provincia. Para que tal efecto seleccionamos una muestra de 600 sujetos. Conocemos por los datos del sistema escolar que de los 10,000 niños escolarizados en lasin

le de estratificación el tipo de colegio. En este muestreo consideramos que cada padre de familia solamente tiene un hijo en la escuela dada.

A continuación mostramos los métodos de asig

Asignación Simple

muestrales. S

este caso parece m

Optima

tamaño de los estratos y puede ser factor de interés en el proceso de estimación.

Neyman Asignación Proporcional

Debido a que los estratos varían mucho en tam

63

Page 93: TESIS MUESTREO Arana2003

Colegios

icos: 6000/10000=0.60 Colegios privados

rados:

3000/10000=0.30 Colegios privados no incorporados: 1000/10000=0.10

Para conocer el tamaño de muestra en cada estrato, no tenemos más que multiplicar esa proporción por el tamaño muestral. Si n= 600

Colegios públicos: 0.60*600=360 sujetos Colegios privados incorporados: 0.30*600=180 sujetos Colegios privados no incorporados: 0.10*600= 60 sujetos

Anteriormente revisamos los elementos estadísticos que se deben tomar en cuenta para btener un tamaño de muestra preciso, sin embargo existen otros factores que son

les para tomar una decisión a este respecto, para este método de asignación también se requiere información sobre,

• El número total de elementos en cada estrato • La variabilidad de las observaciones dentro de cada estrato • El costo que representa muestrear cada unidad en un estrato De aquí que podamos hacer algunas conclusiones, como que entre mayor sea el tamaño

uestral en nuestros estratos, obtendremos información más precisa, por lo que a estratos randes le corresponden tamaños muestrales grandes. También es fácil inferir que si en algún

stra mayor que en el ue existe poca variabilidad.

Por último es importante considerar que si el costo para obtener una observación varía en cada estrato, decidiremos tomar muestras pequeñas en estratos donde el costo sea alto y viceversa, todo esto con el fin de minimizar el costo total del muestreo. Así debemos onsiderar que la calidad de la información que obtengamos de nuestras estimaciones

n, ya que al incrementarse ésta, nuestra varianza de la media decrecerá. Debemos tener claro que nuestro interés es obtener una cantidad fija de información para estimar un parámetro poblacional, por lo que delimitaremos nuestro “error” en B

nidades e nuestro parámetro a estimar, lo que simbólicamente se representa de la siguiente rma,

públ

incorpo

ofundamenta

mgestrato tenemos gran variabilidad debe considerarse un tamaño de mueq

cprovendrá directamente de

u dfo

( )yVtB n α,= ( )yV : Varianza del estimador a evaluar

α: Nivel de significancia

( ) ( )2,αn

2 tByV =⇒ A continuación se presenta la generalización de las fórmulas de asignación vistas

anteriorm nte y la introducción de otras.

Tamaño de Muestra Aproximado que se requiere para estimar µ y τ

e

∑=

+ hhnM sNtBN1h

, )( α

∑== E

E

hhhh WsN

n2222

1

22

…(8)

donde,

64

Page 94: TESIS MUESTREO Arana2003

NN

W hh = ,

BM= Tamaño del error que se desea aceptar en la estimación de la media

∑=h

hhh WsN1

22

=

+= E

hhhnT

E

sNtBn

1

22,

2 )( α

…(9)

BT= Tamaño del error que se desea aceptar en la estimación del to

tal

Asignación Proporcional

hh Wnn *= …(10)

n= Total de unidades muestrales necesarias para estimar la media (8) ó el total (9) según sea el caso. Wh= Proporción asignada a cada estrato (según importancia), o bien,

NNW h

h =

Ejemplo. Humectante labial

Supongamos que realizamos un estudio sobre la población de estudiantes de una universidad, en el que a través de una muestra de 10 de ellos queremos obtener información

so de humectante labial. imación lo que procede es hacer un muestreo aleatorio simple, pero

en su lugar podemos reflexionar sobre el hecho de que el comportamiento de la población con respecto a este carácter no es hom

De modo que se repartan proporcionalmente ambos grupos el número total unidades cluidas en la muestra, en función de sus respectivos tamaños (6 varones y 4 mujeres). Esto

s lo que se denomina asignación proporcional.

sobre el uEn una primera aprox

ogéneo, y atendiendo a él, podemos dividir a la población en dos estratos,

• Estudiantes masculinos (60% del total); • Estudiantes femeninos (40% restante).

ine

65

Page 95: TESIS MUESTREO Arana2003

Si observamos con más atención, nos encontramos (salvo sorpresas de probabilidad ducida) que el comportamiento de los varones con respecto al carácter que se estudia es muy

homogéneo y diferenciado del upo e las

obre el carácter que estudiamos, será muy a en el grupo de los varones aunque en la muestra haya muy pocos (pequeña varianza), ientras que en el grupo de las mujeres habrá mayor dispersión. Cuando las varianzas

ob

imple cierto número de , de modo que se elegirán más individuos en los grupos de mayor

sí probablemente obtendríamos mejores resultados estudiando una muestra de, • 3 hombres • 7 mujeres

Ahora nos referiremos al caso en el que se toma en cuenta el costo por muestrear en

ada estrato y la variabilidad en estos, a este tipo de asignación se le llama asignación óptima uiente fórmula,

regr d mujeres.

Por otra parte, con toda seguridad la precisión s

ltamp lacionales son pequeñas, con pocos elementos de una muestra se obtiene una información más precisa del total de la población que cuando la varianza es grande. Por tanto, si nuestros medios sólo nos permiten tomar una muestra de 10 alumnos, será más conveniente dividir la

uestra en dos estratos, y tomar mediante muestreo aleatorio smindividuos de cada estratoariabilidad. v

A

cy se representa con la sig

Asignación Óptim a

⎥⎥⎥⎥

⎢⎢⎢

= Ehhh

h

csNnn

⎢⎣

∑=

hhh csN1h

…(11)

n: Total de unidades muestrales necesarias para ar la media (8) ó el total (9) según sea el caso.

ch: Cos

estim

to por muestrear una unidad en el estrato h Notemos que en este caso la ecuación (8) para obtener n no es aplicable, ya que

debemos tomar en cuenta los costos por muestrear, así que nuestra nueva ecuación es,

66

Page 96: TESIS MUESTREO Arana2003

∑∑

=

==

+

⎥⎦

⎤⎢⎣

⎡⎥⎦

⎤⎢⎣

= E

hhnM

hh

E

hh

E

hhhh

sNt

c

BNn

22 (

sNcsN

1h

22,

11

…(12)

edia BM: Tamaño del error de muestreo que se decide aceptar en la estimación de la mpoblacional.

Cuando el caso sea estimar n para nuestro total poblacional, simplemente excluiremos el término N2 del denominador de la ecuación anterior.

Notarás que un caso particular de la asignación óptima se da cuando el costo de muestrear en los diferentes estratos es el mismo o cuando no lo sabemos, a esta particularidad se le

esenta es la siguiente,

Asignación Neyman

denomina asignación Neyman y la ecuación que la repr

⎟⎟⎟⎟

⎜⎜⎜⎜⎛

N

=

∑=

E

yh

yhh

h

h

sN

snn

1h

…(13)

Es obvio que dado que no estamos tomando en cuenta el costo en este tipo de

u stra muestra total será la ecuación (8) para la asignación, la ecuación del tamaño de n estimación de la media y (9) para la del total. e

Ejemplo. Bosque de pino, eucalipto y cedro. (Asignación Igual)

Nos encontramos en un área forestal de 151 hectáreas dividida en 3 estratos. De experiencias anteriores tenemos disponible la siguiente información para cada estrato,

Cuadro 2. Bosque de pino, eucalipto y cedro. Estrato Nh S2

Plantación de Pino 610 3.9 Plantación de Eucalipto 400 4.5 Plantación de Cedro 500 3.5

Total 1,510 Le asignaremos la misma proporción de muestro a cada estrato,

3333.031

321 ==== WWW

Nuestro objetivo será estimar el volumen de madera comercial en cada uno de los estratos de las 151 hectáreas con un error máximo de estimación del volumen total en los tres estratos de 400m3.

Para esto primero calcularemos el tamaño muestral para la estimación del total, es decir obtendremos n con la ecuación (9),

67

Page 97: TESIS MUESTREO Arana2003

68

El n te, umerador de nuestra ecuación es el siguien( ) ( ) ( )

790,952,833.0

5.327.040.01

==h hW

5005.44009.3610 223

++=∑ yh sNy

222

Ahora calculemos el denominador,

2400 2

,602

2

⎟⎠⎞

⎜⎝⎛=

αtBT

000,40=

92955350054400936103

1

2 ,).)(().)(().)((sNh

yh h=++=∑

=

Sustituyendo los valores anteriores en la ecuación,

92.194

929,5000,40790,952,8

+= n

=

Par

= Ejemplo. Bosque de pino, eucalipto y cedro. (Asignación Proporcional)

Cuadro 3. Bosque de pino, eucalipto

Así que redondearemos a n= 195

a la asignación por estrato utilizaremos la ecuación (10),

Wnn hh

===

65)3333.0(195*

1,2 y 3para h

y cedro Estrato hN 2

hs 2hh sN hW

Pino 610 3.9 2379 0.40Eucalipto 400 4.5 1800 0.27

Cedro 500 3.5 1750 0.33Total 1,510

Para obtener el ste

tamaño muestral total n, utilizaremos nuevamente la ecuación (9), pero en e La asignación para cada estrato es la siguiente,

caso nuestra Wh cambia ya que estamos utilizando asignación proporcional,

Page 98: TESIS MUESTREO Arana2003

( )( )( ) 326.6433 =.0195

630.52.019597.7740.01951

== 27 =

3

2

==

nnn

Redondea hic s para el caso de la asignación total muestral, nuestra

asignación por es ía fi ente de uiente for78 3

ndo como lo imotratos quedar nalm la sig ma,

53 64=== nn21 Eje p

nm lo. Bosque de pino, eucalipto y cedro. (Asignación Óptima)

Cuadro 4. Bosque de pino, eucalipto y cedro. Estrato hN hc 2

hs 2hh sN hhh csN hhh csN

Pino 610 2 3.9 2,379 1,704 852 Eucalipto 400 1 4.5 1,800 849 849

Cedro 500 ¾ 3.5 1,750 810 1,080 Total 1, 3,362 2,780 510 5,929

Utilizando la ecuación (12) co on asignación óptima en el caso de estar buscando el estimador del total pobl ona el valor de n,

rresp diente a la aci l, obtenemos

[ ][ ]362,3780,2

55.203929,5000,40

=+

Por lo tanto necesitamos muestrear 204 elementos en la población para la estim

otal con un error tolerable de 400m

=n

ación del t

cada unoEl d

3. Ahora utilizando la ecuación (11) encontraremos la asignación que se le dará a

de los estratos, enominador de nuestra ecuación es el siguiente,

780,23

1=∑

=

Y la

h h

hh

csN

asignación por estrato es,

25.79780,2080,1204

780,2

3 =⎟⎠

⎞⎜⎝

⎛=

⎠⎝

n

Redondeando como lo hicimos para el caso de la asignación total muestral, nuestras asignaciones por estratos quedaría finalmente de la siguiente forma, n

50.628522041 =⎟⎞

⎜⎛

=n

26.62780,2

8492042 =⎟⎠

⎞⎜⎝

⎛=n

796263 === 32 nn 1

69

Page 99: TESIS MUESTREO Arana2003

Ejemplo. Bosque de pino, eucalipto y cedro. (Asignación Neyman) Recordemos que e ignación óptima, en donde los

costos se omiten. Así que utilizando la fórm a mos el tamaño muestral, en este ejemplo, como recordarás, es 195. La asignación por estrato las obtendremos con la ecuación (13).

ste a as caso es una particuul

laridad de l (9) obtene

61.03989,2

935195

55.36989,2

849195

989,2

3

2

1205,1195

78.60

=

⎟⎠

⎞⎜⎝

⎛=

⎟⎞

⎜⎛

=

⎠⎝

n

n

Asignación

⎟⎞

⎜⎛

=n

=

=⎠⎝

Así finalmente usaremos los siguientes tamaños muestrales para cada estrato, 79=1n 6155 == 32 nn

A continuación mostramos el resumen de los ejemplos anteriores,

Cuadro 5. Resumen Método de n n1 N2 n3

Igual 195 65 65 65 Proporcional 195 78 53 64

Optima 204 63 62 79 Neyman 195 79 55 61

Estimación de la Proporción Poblacional

la a satisfacer cierta precisión

n la estimación de una variable continua para una población que se ha estratificado. Ahora rge la necesidad de hacer la estimación de la proporción de unidades muestrales que cuentan

on cierto atributo. cara en saber cómo se manifiesta la

los estratos. En tal caso nos importaría saber cuál es la C en el estrato h.

a siguiente aseveración,

te del h-ésimo estrato y el éxito consiste en tener característica C.

Parece ya estar resueltas las dudas acerca de la forma de estimar la media, el total,varianza el intervalo de estimación y el tamaño de la muestra paresuc

Es decir, supongamos que nuestro interés radicaracterística C en cada uno deproporción (ph) de unidades muestrales que tienen la característica

De esta forma resulta evidente l

⎭⎩ fracaso0Que representa el i-ésimo componen

⎬⎫

⎨⎧

=éxito

y ih

1,

la

70

Page 100: TESIS MUESTREO Arana2003

71

La cual se comporta como u s ador de la proporción de la característica de interés para el estrato k es,

na variable binomial, así el e tim

∑∧

=nn

=

ihyp ,

Y su correspondiente varianza es, i h

st n1

⎟⎟⎠

⎞⎜⎜⎝

⎛ −−−

=

∧∧

p∧

h

hh

h

hh

p NnN

np

sh 1

)1(2

emos que ph es un estimador insesgado de ph de unidades muestrales y razonando de la misma manera Nh* ph también es un estimador insesgado del total en el estrato h que

a característica C, de esta forma podemos observar que

Not

∑∧E

=hh pN es un buen cuentan con l

h 1

estimador del número total de la población que cuentan con la característica C.

Estimador de la Proporción Poblacional π

∑=

∧∧∧

=

++=

E

hhh

EEst

pNN

pNpNN

p

1

11

1

)(1L

…(14)

∑=

∧∧

∧∧∧∧∧∧

=

⎟⎠⎞

⎜⎝⎛ ++=

E

hhh

EEst

pVNN

pVNpVNN

pV

1

22

21

212

)(1

)()(1)( L

…(15)

⎟⎟⎟donde, ⎠

⎜⎝⎠⎝ 1hh nN

⎜⎜⎛

−⎟⎟⎞

⎜⎜⎛ −

=

∧∧∧∧

)( hhhhh

qpnNpV

De la forma tradicional construimos u tiene la siguiente ecuación, n intervalo que

⎟⎟⎟

⎜⎜⎜

−⎟⎟⎠

⎞⎜⎜⎝

⎛ −±

∧∧

=

∑ 11

1

22,

h

hh

h

hhE

hhnst n

qpN

nNNN

tp α …(16)

Ejemplo. Área forestal

E mero es una a segundo es

un bosque natural de pinos maduros sobre una superficie de 50 hectáreas. Una muestra sistemática* toma todos los 50-ésimos árboles de cada es queremos tomar en cuenta

dos los árboles que miden mas de 30cm de diámetro normal (dn), es decir,

Un área forestal de110 hectáreas fue dividida en dos estratos. l priplantación de pinos de 38 años de edad sobre una superficie de 60 hectáre s y el

trato yto

* La estrategia de muestreo sistemático se explica en el capítulo 5 del texto

Page 101: TESIS MUESTREO Arana2003

⎭⎬⎫

⎩⎨⎧ >

=dode otro mocmsi dm

y ih 0301

,

Un total de 352 árboles fueron muestreobtuvo

ados en el estrato1 y 369 en el estrato 2 y se la siguiente información, Cuadro 6. Área forestal.

Estrato1 Estrato2 n =352 n =369 1 2

151 352

1,1∑

=

=i

iy 199 369

1,2∑

=

=i

iy

Haremos la estimación de la proporción de árboles con

así como la estimación de sdm > 30cm en el estrato 1 y 2

u varianza,

∑=

n∧

===1

1 1

,1 429.0

352151

i

ih

ny

p

∑=

===2

1 2

2,2p 539.0

369199n

i

h

ny

Not u . Sin embargo puede ser estimado ya que la persona que ha tom do los datos, escogió un árbol después de caminar pasando 49, así que si ningún árbol fue ign

)50(352

22

=

=

e q e Ni es desconocidoa

orado nuestra estimación es la siguiente, 50*11 = nN

50*600,17

==

nN

)50(369=450,18

Por lo que nuestra fracción muestral para el estrato 1 es,

02.0600,171

==N

3521n

Lo cual es menor que 0.05, así que el factor de corrección por finitud puede ser ign adAsí estro estimador para el estrato 1 y 2 es,

or o. que la varianza de nu

00067521.01369

)539.01(5399.000069789.0=

1352)429.11(429.0

2

2

2

1

=−−

=

−−

=

p

p

s

s

A continuación se muestran los intervalos de confianza para cada estimador,

72

Page 102: TESIS MUESTREO Arana2003

Estrato 1:

81)(0.377,0.4264)1.9667(0.00.429

)00069789.0(429.0 ,

±

± αnt

donde,

Estrato 2:

1.966710.0,352 =t

590)(0.4879,0.60)1.966(0.020.539

)00067521.0(539.0 ,

±

± αnt

donde,

El estimador de la proporción poblacional utilizando la fórmula (14) es,

1.96610.0,369 =t

485297.0=

varianza está dada por,

))539.0(18450)429.0(17600(36050

1+=

stp

La

001935.0

)00067521.0(18450)00069789.0(1760036050

1)( 222 +=

∧∧

stpV =

El I quedarían de la siguiente manera, .C. para el estimador poblacional

1833)1.9667(0.00.485)0003363.0(85 ,

±

± αnt

213)(0.449,0.5

4.0

don

de, 1.966710.0,721 =t

73

Page 103: TESIS MUESTREO Arana2003

Tamaño de Muestra para Estimar una Proporción En cuanto a la asignación del tamaño de muestra en este caso, se procede de manera

análoga a la asignación vista en la sección anterior, definiendo un límite dado B de error de estimación, por lo que se utiliza una modificación de la ecuación (8) sustituyendo la estimación de nuestra desviación estándar σh por la varianza de la proporción estimada, que es phqh

Tamaño aproximado que se requiere para estimar n, con un límite B para el error de

.

estimación

=

=

+= E

hhhnP

E

hihhi

qpNtBN

WqpNn

1h

2,

22

1

2

)( α

…(17)

BP: Tamaño del error de muestreo que se decide aceptar en la estimación de la proporción poblacional.

Procediendo de manera análoga encontramos las diferentes asignaciones de muestra sim ulas introducidas anteriormente.

Como podrás imaginar, este es el caso que se apega completamente a la estimación del tamaño de muestra de una proporción pues la proporción va implícita en la fórmula que se presenta a continuación y notarás que es idéntica a la utilizada en el muestreo e tificado trad l.

Asignación Proporcional

plemente realizando algunas modificaciones a las fórm

straiciona

…(18)

ph: Proporción asignada a cada estrato (puede ser según importancia).

** hh pnn =

NN

p hh =*

ir el gas or muestrear una unidad muestral en da ormente en (11), con la m la varianza por el término phqh.

Tal como en el muestreo estratificado tradicional, este tipo de asignación busca reducto en la toma de la muestra tomando en cuenta el costo pca estrato; la fórmula es prácticamente la misma que la vista anteriodificación de reemplazar

74

Page 104: TESIS MUESTREO Arana2003

Asignación Óptima

⎥⎥⎦⎢

⎢⎣∑

⎥⎥⎤⎡

⎢⎢

= hhh cqpN

=

hh nn …(19)

n: Número de unidades a muestrear. ch: Costo por muestrear una unidad en el estrato h.

E

hhhh cqpN1h

os diferentes estratos es el mismo o que simplemente no conoceremos el costo por muestrear. Si es así, podremos omitir este dato y utilizar la asignación Neyman que se muestra a continuación.

Existe el caso de que el costo por muestrear en l

Asignación Neyman

⎟⎟⎟⎟

⎜⎜

= hhh qpNnn …(20)

⎜⎜

∑=

E

hhh

h

qpN1h

Ejemplo. Green Peace Green Peace quiere saber el daño que han hecho los desecho tóxicos de cierta empresa en dos localidades cercanas, para esto, realiza una encuesta a los habitantes preguntando si desde la inclusión de la fábrica ha visto afectada su salud. Sabemos por el censo de población, cuantas personas viven en las dos localidades y los resultados de la encuesta son los siguientes.

Cuadro 7. Green Peace Muestra1 Muestra2

N 700 553 n 150 120 y 100 103 p 0.667 0.858

Ch 1 2

q 0.333 0.142 Nh 0.559 0.441

Aplicando la fórmula (17), obtenemos el número total de elementos a muestrear para

tener un error de estimación del total de 0.2.

72.62033.235

41.074,146

=

=n

75

Page 105: TESIS MUESTREO Arana2003

con

la confiabilidad deseada. En cuanto a la partición por estrato, a continuación se presenta para el caso de la

asignación proporcional,

Lo que significa que necesitamos muestrear 621 elementos para tener la estimación

95.273441.0*62177.346559.0*621

2

1

====

nn

Redondeando, tendríamos que muestrear, 47 21 3 274== nn Para el caso de la asignación óptima, se muestra la distribución a continuación,

49.1183721.01088.0621

22.4393721.02633.0621

2

1

=⎥⎦⎤

⎢⎣⎡=

=⎥⎦⎤

⎢⎣⎡=

n

n

Redondeando, tendríamos que muestrear, 182439 21 == nn Por últim

o, para la asignación Neyman,

94.2294172.01538.0

77.3912633.06211

⎤⎡

=⎥⎤

⎢⎡=n

621

4172.0

2 =⎥⎦⎢⎣=

⎦⎣

n

edondeando, tendríamos que muestrear, 230391 21 == nn R Selección de Estratos

Ahora que sabemos como hacer estimaciones en cada uno de los estratos resulta rzoso contestar cada una de las preguntas que puedan surgir acerca de la estimación

stratificada, así que intentando agotar las dudas que puedas tener hasta el momento, nos acemos algunos cuestionamientos, es decir, a veces es fácil delimitar los elementos que orresponden a cada estrato, pero ¿esto siempre es así?, definitivamente no, y como lo es en stadística cada problema es una nueva experiencia, la cual no necesariamente tiene nicamente una respuesta y en donde debes de hacer uso de todas tus herramientas y sobre do de un razonamiento lógico para llegar a la solución más satisfactoria. Sin embargo este abajo puede resultar un poco complicado y tornarse desesperante en algunas ocasiones, por que a continuación se bosquejan algunas ideas que te pueden ayudar en esta labor.

foehceútotrlo

76

Page 106: TESIS MUESTREO Arana2003

¿Qué hago cuando… ¿Cómo delimitar mis estratos? ¿Debo estratificar después de seleccionar mi muestra?

Cómo delimitar mis estratos? A veces es una tarea bastante fácil, ya que como vimos en algunos ejemplos

nteriores, los estratos están ya implícitos pues conocemos el comportamiento con base antiguos registros, o a características fenotípicas; también podría ser con base en uestra experiencia o simplemente a la naturaleza de los resultados que deseamos btener. Este último es un caso interesante ya que te estarás preguntando.

¿Con base en qué delimitaría mis estratos?. Una primera aproximación sería en el aso cuantitativo, el construirlos dado nuestro interés, es decir, muchas veces al omento del diseño de nuestra evaluación, sabemos los rangos que nos gustaría

nalizar para obtener nuestras estimaciones. Pero también se puede dar el caso en el que nemos el rango de salida de los datos y algunas frecuencias en categorías generales de variable de interés o de alguna variable altamente correlacionada. Es aquí donde odemos hacer uso del “método acumulativo de la raíz cuadrada de la frecuencia”, el ual es muy sencillo y se explica a continuación.

¿

aano

cmatelapc Método Acumulativo de la Raíz Cuadrada de la Frecuencia

1. Elegimos el número de estratos que deseamos obtener. 2. A nuestra variable de interés o en su defecto a una altamente correlacionada con

ésta, le obtenemos su frecuencia por rango y con estos resultados formamos una columna más de resultados.

3. Formamos dos columnas más, una constituida por la raíz de las frecuencias y otra por la raíz acumulada de estas.

4. Dividimos la frecuencia acumulada final entre el número de estratos, este resultado será el ancho de nuestra clase (AC).

5. Utilizamos la siguiente ecuación, AChAChi *=

6. Ahora con nuestras marcas de clase por estrato, podemos delimitar estos, tan

solo eligiendo la raíz de la frecuencia acumulada más cercana a la marca de clase, así cada estrato est

Donde h representa el estrato h, h= 1, 2,… n

ará formado por todas las clases de nuestra variable original que correspondan a nuestra marca de clase.

Ejemplo. Ventas.

frec y acostumbra clasificarlos en rangos de $2,000, Cómo asignarías estas ventas en 3 estratos, es decir h =3?

El departamento de planeación de una empresa desea estimar el promedio semanal de venta de 445 vendedores, el departamento tiene información de

uencias de la última semana ¿

77

Page 107: TESIS MUESTREO Arana2003

Semanal Frecuencia Cuadro 8. Ventas

Venta FrecuenciaacumuladaFrecuencia

0- 8000 50 7.07 7.07 8001- 10000 60 7.75 14.82 1001- 12000 80 8.94 23.76

12001- 14000 100 10.00 33.76 14001- 16000 95 9.75 43.51 16001- 18000 60 7.75 51.25

Suma 445

Utilizando el método de la raíz cuadrada, encontramos el ancho de clase aciendo la siguiente operación AC = 51.l25/3=17.08, lo que nos daría el valor proximado del primer estrato, eligiendo el número más cercano en la columna de la íz de frecuencia acumulada, que en este caso sería 14.82, análogamente obtendrías el gundo estrato, utilizando h=2, es decir, AC2 =17.08*2 =34.16 y el valor más cercano ría 33.76. De esta forma nuestros estratos quedarían de la siguiente manera,

Estrato Venta $

harasese

1 0-1000 2 1001-14000 3 14001-18000

¿Debo estratificar después de seleccionar mi muestra?

Puede ocurrir que en algún caso no tengamos posibilidad de estratificar con base en alguna variable clave ya que ésta no será identificada hasta después de haber tomado la muestra. Por ejemplo, al intentar deducir información sobre el tipo de fauna de un determinado lugar; en donde sabemos que la muestra se tomará tan solo por la observación de los animales que pasen por ahí, o cuando queramos obtener información sobre el tipo de transporte que pasa por un puente, en fin, podrás imaginarte diferentes ejemplos en los cuales nuestras nh serán variables y tendremos que utilizar Y para estimar a µ siempre y cuando Nh/N sea conocida. Dadas las características anteriores de nuestras Nh y a nuestra definición de muestra aleatoria estratificada, podemos deducir que no estamos hablando propiamente de una muestra aleatoria estratificada, sin embargo con Nh/N conocido y nh mayor que 20 para cada estrato, nuestro método de estratificación después de tomar la muestra resulta casi exacto.

Sin embargo debemos hacer notar que la varianza de un muestreo proveniente de postestratificación es ligeramente mayor que en uno previamente estratificado, todo dependerá de la precisión de nuestras Nh. Debe tomarse en cuenta que la post-estratificación es una estrategia de análisis distinta a las de estratificación común. Para mayores detalles ver Sukatme, et. al (1995).

∑=

=n

h

hpost N

Ny1

ny

Ejemplo. Dinero gastado en comida

78

Page 108: TESIS MUESTREO Arana2003

Supongamos que se desea estimar la cantidad promedio de gastos en comida de las familias de cierta comunidad, de información anterior sabemos que la distribución de familias por tamaño es de la siguiente manera,

Cuadro 9. Distribución de familias

Número de personas En la familia

Porcentaje de familias

3 20 4 30

+5 50 Corrimos un muestro estratificado sobre cada tipo de familia y obtuvimos los

guientes resultados, 3 integrantes 4 integrantes 5 integrantes

si

000,5$1 =y301=n

000,7$1 =y351=n

000,9$35

1

1

=

=

yn

Como podrás notar, el número de muestras tomadas para cada estrato son diferentes

a las reales en cada estrato, por lo que utilizando la fórmula anterior podemos obtener una estimación más acertada,

)000,950.0000,730.0000,520 ++

Comparación del muestreo Aleatorio Simple con el Estratificado

Una muestra aleatorio estratificada se obtiene al hacer un muestreo aleatorio simple en cada uno de los estratos que contiene elementos similares en él. Las principales ventajas que presenta sobre el aleatorio simple son,

1. Generalmente el estimador de la media poblacional presenta menor varianza. 2. El costo por muestrear y analizar es menor ya que en lugar de tomar observaciones sobre toda la poblacional, sólo las tomamos sobre los estratos, que son más pequeños. 3. Al final del análisis tenemos estimaciones sobre el total poblacional y sobre los estratos individuales.

En la sección final del capítulo se muestra un análisis teórico de estos puntos comparativos entre el muestreo estratificado y el muestreo simple. APÉNDICE. Revisión Teórica

sumiremos los siguientes supuestos,

( )( ) ( )( ) ( )(

600,7$

.03

1

=

= ∑=h

posty

A

79

Page 109: TESIS MUESTREO Arana2003

• En cada estrato se lleva a cabo un muestreo simple aleatorio, donde yhi es la i-ésima unidad del h-ésimo estrato, i= 1, 2, …, N

stamos interesados en la media µ y el total de la población τ. Los que están dados por,

E

hhhW

1µ y

donde,

h y h= 1, 2, …, E. • Los estratos son independientes, es decir, ninguna unidad de muestreo puede

pertenecer a dos estratos diferentes. Parámetros E

∑=

=E

hhhst N

1µτ ∑

=stµ =

∑=hN

y1µ =

y i

hih

h N 1 NN

W j=

Y su er ico

hhhst sWV

1)(µ

donde,

h

medio se define como, E

22

ror cuadrát

∑=

=

( )

11

2

−=

∑=

h

N

ihhi

h N

ys

h

µ

Estimadores Los estimadores y respectivas varianzas de µ y τ se presentan a continuación, Teorema. Los estimadores insesgados de µ y τ están dados por,

∑=

=E

hhhst yWy

1

y ∑=

=E

hhhst yN

donde,

∑=

=hn

ihi

hh y

ny

1

1

Cuyas varianzas son,

=

=

=

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛ −=

E

hyh

E

h h

h

h

hhhst

hsW

ns

NnN

WyV

1

22

1

22)(

y

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛ −= ∑

=

∧∧

h

h

h

hhE

hhhst

ns

NnN

NWV22

1

22)(τ

Demostración

En el capítulo anterior se demostró el insesgamiento de hy para hµ ya que en cada estrato se lleva a cabo un muestreo simple aleatorio. Entonces,

80

Page 110: TESIS MUESTREO Arana2003

( ) ( )

=

=

==

=

E

hhh

E

hhhst

W

yEWyE

1

1

µµ y

( )∑∧

=⎟⎞

⎜⎛ E

hhst yENE τ

∑=

=

==

⎠⎝E

hhh

h

N1

1

τµ

De la misma manera en el capítulo anterior se demostró que la varianza de hy es,

∑=

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛ −=

E

h h

h

h

hhst n

sN

nNyV

1

22

)(

Por lo tanto, y por la independencia de estratos,

( )

( )

∑∑==

=⎟⎠

⎜⎝

=h

sthh

sthst yVWyWVyV11

)∧ ⎞⎛ EE

22(

∑=

⎟⎟⎠

⎞⎜⎜⎝

⎛−=

E

h h

h

h

hhh n

sN

nNW

1

22

∑=

=E

hyh h

SW1

22

Lo que demuestra la ecuación (2) del capítulo. De la misma manera para el total,

( )=⎟⎠

⎞⎜⎝

⎛= ∑∑

==

∧∧ E

ihsth

E

ihsthst yVNyNVV 2)(τ

⎟⎟⎞

⎜⎜⎛

⎟⎟⎞

⎜⎜⎛ −

= ∑ hhhE

hh ns

NnN

WN22

22

⎠⎝⎠⎝= hhh 1

Lo que demuestra la ecuación (6) del capítulo. Usando los resultados probados en el apéndice del capítulo de muestreo simple

alea

torio podemos ver que los estimadores anteriores son insesgados.

Alocación de la muestra

En la discusión del capítulo, presentam trategias para la selección del tamaño de muestra y su división para los diferentes estrato.

o Alocación Óptima

os diferentes es

o ual o Alocación Proporcional

Alocación Ig

81

Page 111: TESIS MUESTREO Arana2003

o Alocación Neyman Las dos primeras no las discutiremos por su relativa sencillez. En cambio las dos

h ue para una función de osto C

y que asumiremos en el resto del capítulo, es la siguiente,

don

eseamos minimizar la

restantes representan un interés mayor en cuanto sus fundamentos teóricos y las revisaremos a detalle.

La estrategia en la alocación óptima es la selección de n tal qc se tenga la máxima precisión o para una precisión dada se tenga el mínimo costo.

La función de costo más común

∑=

=E

hhhncC

1

de, ch= costo por unidad de muestreo en el h-ésimo estrato.

)( styV∧

Supóngase un costo fijo C y d que está dada por,

∑=

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛ −=

E

h h

h

h

hhhst n

sN

nNWyV

1

222)(

res de Lagrange, encontramos que con la restricción λC, la función a derivar es, Usando multiplicado

∑∑== ⎠⎝⎠⎝ hh hh nN 11

Así, la derivada con respecto a n

+⎟⎟⎞

⎜⎜⎛

⎟⎟⎞

⎜⎜⎛ −

=+E

hh

Ehhh

hst ncsnN

WCyV2

2)( λλ

h está dada por,

( )11==

∑∑E

hhE

hhh

sWsWn

01

0)(

11

112

22

112

22

1

22

Lλλ

λ

λ

λλ

=

=+⎟⎟⎠

⎞⎜⎜⎝

⎛ /−

/⋅=

=⎥⎦

⎤⎢⎣

⎡∂+⎟⎟

⎞⎜⎜⎝

⎛⋅−

∂⋅=⎥⎦⎢⎣+

∑∑

∑∑

∑∑

==

==

==

=

h hh h

E

hh

E

h h

hh

E

hh

h h

h

hhh

E

hhh

hh

hhhhst

cc

cn

sW

cnN

NsW

ncnNnN

sWCyVn

1=

E

hh

⎤⎡∂ ∧ E

Es decir,

∑= h

hh

csW

Esto lo interpretamos como que en un estudio con un costo fijo C0, la

≈h

hn1

E

)( styV∧

es

mínima cuando nh es proporcional a ∑=

E

h h

hh

csW

1. Para la función de costo, entonces

tenemos,

82

Page 112: TESIS MUESTREO Arana2003

∑=

⇒E

hhh sWcC0λ

∑∑

=

=

==

=

=⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

⋅==

E

hhhh

h

h

hhE

hh

E

hhh

Wc

C

CcsW

cncC

1

0

1

011

1

λ

λ

Sustituyendo esta expresión en la ecuación de nh (1), obtenemos,

s

1

⎪⎭=hhhh

1

⎪∑E

sWc

⎪⎬

hhh0⎪csWC⎫

⎪⎪⎩

⎨=

⎪⎪⎬

⎫⎪⎪⎨

=⋅ hhhh CsWsW 01

Dado que ++= L21 lm

⎪⎪

⎪⎪⎭⎪

⎪⎩∑

=

E

hhhh

hh sWccc1

λ

=hn

hn

Ennnn + , obtenemos fina ente que,

∑∑= ⎪h

hhh sWc1

=⎪⎩ h 1 ⎪⎪⎭

⎪⎪⎬

Cn 0

La deducción anteri mu áxi que se tiene en un estudio de costo fijo C0 lo añ ado por (2) donde

y ch fueron defin s an Antes de pasar al caso donde se tiene una posición fija y se desea minimizar el costo, mostraremos el caso de alocación Neyman, el cual es un caso particular del anterior ya que se asume el mismo costo para todas las unidades de muestreo; es dec

⎪⎪E csW⎨ E

hhh

= …(2)

or estra que la m ma precisión , se gra con un tam o de muestra d

hh sW ido teriormente.

ir Ehcch ,,2,1 L=∀= . Por lo tanto,

=

=

= Ehhh 0

⋅=

hh

E

hhh

hhhh

sWc

CcsW

sWcc

Ccn

1

0

Do

sW

h 1

nde ( )nncc ++ nE+= L 21

Y por lo tanto

83

Page 113: TESIS MUESTREO Arana2003

∑∑=

= ⎪⎪⎭

⎪⎪⎬

⎪⎪⎩

⎪⎪⎨

=E

hE

hhh

hh

sW

sWc

Cn

1

1

0

Procedamos para el caso con varianza fija (precisión fija) y deseamos minimizar el costo con la función de costo ( )EE ncncncc +++= L2311 .

La función a optimizar está dada por,

2

1

2

1

E

h

hhh

E

hhh s

NnN

WncVC ∑∑==

⎟⎞

⎜⎜⎝

⎛ −+=+ λλ h

hh n ⎟⎠⋅

ent

onces, ( )

( )

hc

hhh

h

hhh

h

hh

hhhhh

sWn

csW

n

sW

nN

λ

λ

λ

=

=

=−

⎟⎠

⎜⎝/

222

2

22

2

01

Sustituyendo esta expresión en

h

hh

hh

hhhh

h

NsWc

nNnN

nsWc

nVC

λ

λλ

=⎟⎞

⎜⎛ /

−+=

=⎟⎟⎠

⎞⎜⎜⎝

⎛⋅−

∂∂

+=∂

+∂

22

22

01

0

h nc +=

)( styV∧

, encontramos que,

( )

hh

h

hhh sWc

sWn ⋅=

⋅=

λλ11

hc

E

h hhhh

E

h hh

hhhhst Nn

sWnNnN

sWyVV

⎟⎟⎠

⎞⎜⎜⎝

⎛−=⎟⎟

⎞⎜⎜⎝

⎛⋅−

== ∑∑==

111

22

1

220

84

Page 114: TESIS MUESTREO Arana2003

∑===∴ h

hhhhh csWcs1λ

==

=

==

=

=

++

//⋅

⎟⎟⎠

⎞⎜⎜⎝

⎛−

⋅=∴

E

hhh

E

E

h h

hh

E

hh

h h

E

h

h hhh

hhh

hE

hhh

sWN

VN

sWV

W

s

NsW

NsWc

sWV

1

20

1

221

1

2

1

1

1

220

1

1

λ

λ

∑∑=

//

−=⇒E

hhE

h

hhh sWcsWV

22

1

22

0

∑∑ += hhhhh

NV0λ

E sWcW 2

0

Ya que N

WNN

NNN

NW

hh

h

h

h

h 1122

22

⋅==⋅=

⎪⎪⎭

⎪⎪⎬

⎫⎧ E

⎪⎪⎩

⎪⎪⎨

+=⇒

=

=

hhh

hhhh

h

hhh

sWN

V

csW

csW

n

1

20

1

1

E

⎪⎬

⎪⎨

+=

⎪⎪⎫

⎪⎩

⎪⎪⎧

∑∑ =

=E

h

h h

hh

sWVcn

2

1

1 1…(3)

∑E

=hhh

hhhE

N

csWsW

10

Es e muestra neces el objetivo de V0 de pre

decir, el tamaño d ario para lograr cisión a mínimo costo, está dado por la ecuación (3). Para el caso de alocación Neyman, la expresión se transforma a,

⎪⎪⎭

⎪⎪⎬

⎪⎪⎩

⎪⎪⎨

+=

⎪⎪⎭

⎪⎪⎬

⎪⎪⎩

⎪⎪⎨

+

/

/=

=

=

=

=

E

hhh

E

hhhhh

E

hhh

E

hhhh

h

hhh

sWN

V

sWsW

sWN

V

csW

csW

n

1

20

1

1

20

1

1

1

Y el tamaño de muestra total es el siguiente,

∑∑

∑=

=

=

⎪⎪⎭

⎪⎪⎬

⎪⎪⎩

⎪⎪⎨

+=

E

hE

hhh

hhhhh

h

sWN

V

sWsWn

1

1

20

1

1

⎫⎧ E

Comparación con Muestro Aleatorio Simple

85

Page 115: TESIS MUESTREO Arana2003

Tomando un muestreo aleatorio simple de tamaño n de una población de tamaño N, el número esperado de unidades en el h-ésimo estrato es , y el costo

esperado es .

Por lo tanto

nWh ⋅

∑=

=E

hhhcWnC

10

∑E

hhcW=

=C

n 0

h 1

Con esta última expresión podemos deducir que,

( ) 2

0

1 1 sNC

cWE

⎟⎞

⎜⎛ ∑

yV hhh

st

⎟⎟⎟

⎠⎜⎜⎜

−= =

Donde,

( ) (∑∑∑∑ )NE N jj

222

= == =

−=−=h i

ijh i

stij yyys1 11 1

µ

Notemos que 2s puede rescribirse con dos componentes que serían,

E

( ) ( ) ( )

( ) (∑ ∑∑

∑ ∑∑∑∑

= ==

= === =

−+−=

−+−=−

E

h

E

hhh

N

ihih

E

h

E

hhh

N

istih

E

h

N

iih

Ny

yNyyy

h

hh

1 1

2

1

2

1 1

2

1

2

1 1

2

µµµ

µµ

)

)=

−+− hhhh Ns 22 µµ

estratosentreVariaciónestratosdedentroVariacións +=2

( ) (∑=−⇒E

NsN 2 11 ) (h 1

( ) ( )∑ ∑= = −−h h NN1 1 11

−+=⇒E

h

Eh

hh N

sN

s 222 µµ

=

−+=

−1

( )∑ ∑E E

=

∴h 1

Donde,

hh

hhh WsWs 2

1

22 µµ

( )11

−N−

≈⇒N

W hh

as de los estimadores en las diferentes alocaciones (sustituyendo las correspondientes a cada alocación en la

Ahora derivemos las expresiones para las varianz

nh '( )yVar

s).

• Alocación Arbitraria

( ) 2211hh

E

sWyV ∑ ⎟⎟⎞

⎜⎜⎛

−= …(1b) 1h hh Nn= ⎠⎝

• Alocación Óptima

( ) ∑∑

=

= −⎟⎠

⎞⎜⎝

=E

hhh

E

hhhh

OP sWNC

csWyV

1

2

0

2

1 1 …(2b)

86

Page 116: TESIS MUESTREO Arana2003

• Alocación Neyman

( ) ∑=

−=h

hhN sWNC

yV10

…(3b)

∑∑==

⎟⎠

⎞⎜⎝

⎛⎟⎠

⎞⎜⎝

⎛Eh

E

hhh

E

hhh csWsW

211 1

Alocación Proporcional

( ) ∑== −⎠⎝⎠⎝=E

hhP sWyV 211 1 …(4b)

∑∑=

⎟⎞

⎜⎛

⎟⎞

⎜⎛

hhh

h

E

h

E

hh

NC

cWsW

10

2

Cuando Cch = para Ej L,2,1= y con 0CnC = las expresiones (3b) y (4b) se transforman a,

( ) ∑∑

=hhhN Nn 1

= −⎜⎝

=E

E

hhh

sWsW

yV 21 1

y

⎟⎠

( ) ∑=

⎟⎠⎞

⎜⎝⎛ −=

E

hhhP sW

NnyV

1

211

Suponiendo valores de hN tal que hh W

NN

≈−−11

y hh W

NN

≈−1

la expresión se

simplifica como,

( )∑ ∑= =

−+=∴E E

h WsWs 222 µµ h

hh 1

hh1

y por lo tanto,

( ) ( )⎭⎬⎫

⎩⎨⎧

−+⎟⎟⎟

⎠⎜⎜⎜

−= ∑∑==

=

hhh

hhh

h WsWNC

yV1

2

1

2

0

1 1 µµ …(5b) ⎟⎜ ∑ EE

E

hhcW

Comparando (5b) con la expresión (4b) de alocación proporcional, encontramos que,

⎞⎛

87

Page 117: TESIS MUESTREO Arana2003

( ) ( ) ( )

( ) ( )

( ) ( )

( ) ( )bWNC

cW

N

cW

sWNC

cWsW

cW

sWN

WsWNC

cWyVyV

E

hhh

E

hhh

hhh

E

E

hhh

hhh

hhh

E

hhh

EE

E

hh

E

hh

E

hhh

P

61

1

1

0

1

2

0

1

1111

1

2

0

11

2

1

221

L44 344 21

>

=

=

====

=

==

=

=

∑∑

∑∑∑

∑∑∑

−⎟⎟⎟⎟

⎜⎜⎜⎜

−=

⎪⎪⎬

⎪⎪⎨ −

⎟⎠

⎜⎝

⎟⎠

⎜⎝−

⎜⎛

⎪⎪⎭

⎪⎪⎩

hh 110 ==⎟⎠

⎜⎝

C0

cWsWE

hhh

hhh 1 211

2

==∑∑

⎪⎪

⎪⎪ ⎟

⎠⎜

WsWWsWC

E

hh

E

hh

E

hh

E

hhh

hhh 1 2222

0

1= ∑∑∑∑ −−⎬⎫

⎩⎨⎧

−−+= µµµµ

WsWN

WsWC

EE

E

hhh

E

hhh

E

hhh

E

hhh

hhh 1

1

2

1

2

1

2

1

2

0

1

====

= ∑∑∑∑

⎫⎧ ⎞⎛⎞⎛

⎭⎬⎫

⎩⎨⎧

−+−⎭⎬⎫

⎩⎨⎧

−+−⎟⎟⎟

⎠⎜⎜⎜

= µµµµ

044 344 21

>

⎪⎭⎪⎩

⎟⎞

⎛⎟⎠

⎞⎛

⎭⎬⎫

⎩⎨⎧

−+⎟⎟⎟⎞

⎜⎜⎜⎛

−=−

µµ

µµ

Analizando la ecuación 6b) odemo entre mayor sea la varianza entre

estratos mayor será la ganancia en precisión con muestreo

proporcional, porque (6b)

⎜⎝

( p s ver que

( )∑=

−E

hhhW

1

2µµ

siempre es no-negativa.

88

Page 118: TESIS MUESTREO Arana2003

s correspondientes estimadores.

APÉNDICE II. Hoja de Cálculo

El texto cuenta con un disquete que tiene un archivo en Excel con 7 hojas de cálculo, cada una con el nombre del diseño de muestreo que contiene las fórmulas para calcular su

89
Page 119: TESIS MUESTREO Arana2003

En cada hoja se indican las instrucciones de uso para obtener los principales estimadores. Para ejemplificar este punto a continuación presentamos algunos ejemplos vistos en el capítulo, los cuales pueden variar por redondeo.

Es importante mencionar que estas hojas pueden usarse con diferente tipo de información, según

sea conveniente.

Es recomendable copiar la hoja de cálculo y guardarla con otro nombre para evitar la pérdida de alguna fórmula.

90

Page 120: TESIS MUESTREO Arana2003

Ejemplo. Bosque de Pino, Encino y Cedro

Como recordarás, en este caso, nuestra intención era estimar la media y el total poblacional con sus correspondientes intervalos de confianza, observarás que las estimaciones son las mismas que calculamos anteriormente.

jemplo. Bosque de pino, eucalipto y cedro

E

91

Page 121: TESIS MUESTREO Arana2003

En este caso, lo que necesitábamos era calcular los tamaños de muestra con las diferentes alocaciones, este es un buen ejemplo para hacer notar las diferentes formas de utilizar estas hojas, ya que para este ejemplo, no contábamos con los datos originales, sólo con algunos como los tamaños de los estratos y las varianzas de estos. Para este ejercicio, también fue necesario indicar el costo por muestrear en cada estrato y el error que podíamos aceptar en nuestra estimación.

APÍTULO 5

ESTIMACIÓN DE RAZON, REGRESIÓN Y DIFERENCIA

C 92

Page 122: TESIS MUESTREO Arana2003

INTRODUCCIÓN En este capítulo revisaremos más que el diseño del muestreo, algunos métodos de estimación, los cuales

lacionan dos o más variables, ya que algunas veces puedes encontrar que tu variable de interés “Y” está lacionada con una o más variables auxiliares Xi. Por ejemplo, si tu variable de interés es el volumen de un árbol,

able auxiliar, o si te interesara saber el número de animales en un bosque, nes de

La tr r con

tamaño de forma

ede

diferencia son ejemplos del uso de variables uxiliares en la estimación.

En este capítulo te mostraremos primero el estimador de razón, basado en el hecho de que tanto Y como X so x on este supuesto obtendremos una

lación entre las dos variables a la que llamaremos R, y con su ayuda estimaremos los parámetros de interés. En cuanto al estimador de regresión, como te imaginarás, utiliza la técnica usual de regresión de

mínimos cuadrados. Es deci a el hecho de que X está relacionada linealm lo utiliza para hacer estimaciones. También de nsiderar que en algunas ocasiones pue es enco una variable asociada a nuestra variable de interés, en este caso le llamaremos estimación por regresión múltiple y también utilizaremos

, el método de regresión considerando un diseño basado en un muestreo simple al azar y después considerar os variantes.

Recuerda que el modelo de regresión por si solo describe una relación entre las variables implicadas y ue e nos

la

étodo de diferencia es una variante del de regresión que fija a β igualándolo a la unidad, moviendo a

reresu diámetro podría servirte como varipodrías utilizar como variables auxiliares el área del bosque, la altitud promedio, etc. En muchas estimaciopoblaciones humanas pueden serte de utilidad censos previos como variable auxiliar. La información auxiliar puede ser usada en muestreo tanto en el diseño como en la estimación. estratificación basada en el tipo de vegetación o la altitud representa su uso en el diseño; mues eareemplazo con probabilidades proporcionales al tamaño –tamaño de la parcela o l árbol- es otra de utilizar información auxiliar en el diseño. En cuanto al uso en la estimación, analizamos la relación que existe entre Yi y Xi para producirestimaciones más precisas que con las estrategias que solo usan la variable Y. Algunas veces la variable X puser conocida en toda la población y en otras tan solo en las unidades incluidas en la muestra.

Los estimadores de razón, regresión y a

n e traídas aleatoriamente tal como en un muestreo simple aleatorio. Cre

r, tom ente con Y y bes co d ntrar más de

primeroem

q uno de nuestros objetivos naturales es la predicción sobre la variable Y, así que puede darse el caso quinterese predecir la media o el total poblacional o simplemente el valor de Y en una unidad no incluida enmuestra.

El my hacia arriba o abajo por una diferencia que veremos más adelante.

Es importante que observes que ni los estimadores de razón, ni los estimadores de reg ó imp bajo los supuestos usuales de egresión el estimador sea insesgado.

Estimador de una Razón Poblacional mediante una Muestra Aleatoria Simple

Como ya hemos mencionado frecuentemente nos valemos de unas variables para

exp ayor e medirlas nos representaría un costo mayor que el de medir

lgu d . Así pues, podemos construir relaciones que nos ayuden, a s cuales les llamaremos razones.

Definición

resi n son insesgados bajo muestreo s le aleatorio aunque r

licar otras, ya sea porque estas últimas son de difícil manejo, porque deseamos mprecisión o simplemente porqu

na estrechamente relaciona aala

Razón Poblacional (R) Es la relación que se establece entre dos variables, la cual podemos utilizar para obtener un estimador poblacional.

99

Page 123: TESIS MUESTREO Arana2003

Como usualmente se usa, propondremos a X como la variable independiente, de la cual ya tenemos información y a Y como la variable dependiente de la cual nos interesa obtener estimadores. Supón que los valores de X son conocidos para toda la población y que existe una relación “razonable”1 ntre Y y X.

Tengamos en cuenta la siguiente notación,

e

∑=

=N

iiX x

1

τ

NXX τµ = Lo que denota el total y la media poblacion riable X respectivamente, y con los cuales podrás

obtener

definiremos,

al de la valos estimadores de razón de la variable Y. En la población

XYR ττ=

Razón Poblacional R

∑N

iy

∑ ix=i 1

=i 1 …(1)

= NR

Así que tomando una muestra como en un o simple de tamaño n de los valores de Y y

sus correspondientes valores asociados X, (es decir en ca d muestral se miden Y y X), definiremos el estimador de razón poblacional, como s ,

muestreo aleatoride da unidaigue

Estimador de la Razón Poblacional r

∑ iy

∑=i 1

=n

i 1=

ixr …(2)

n

Comoayuda a conoce

en los casos anteriores es muy importante el cálculo de la varianza del estimador, ya que nos r más acerca de nuestra estimación, este caso presenta una diferencia considerable a los casos

nteriores. Así, la varianza estimada del estimador de razón es,

a

Varianza del estimador de la Razón Poblacional r

1 Se verá qué significa “razonable” en una sección posterior.

100

Page 124: TESIS MUESTREO Arana2003

22 rs

xnN ⎟⎟⎠

⎜⎜⎝

1

1

1

)( n

ii

n

ii

nN

x

yVrV

⎞⎛⎟⎞⎛ −

⎟⎟⎟⎟

⎜⎜⎜⎜

=

=

=∧∧

…(3)

donde, ⎠

⎜⎝

=

( )

11

2

2

−=

∑=

n

rxys

n

iii

r

Unos de los aspectos importantes en el análisisconfianza ya que es la manera correcta de presentar

de la información es la obtención del el intervalo de el resultado de nuestras estimaciones pues nos da la

referencia tanto de la medida de tendencia central com la de dispersión de los datos. o

Intervalo de c fianza de r

on

( )2

2,11

2 rx

n sxnN

nNtr ⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎠⎞

⎜⎝⎛ −

± − α …(4)

jemplo. Estrategia de ventas Cierta empresa desea hacer una revisión importante en el negocio, para tomar la decisión necesita saber

el cambio en cuanto a ventas de este año con respecto al año pasado. Contamos con las ventas de ciertas semanas tanto del año pasado como del actual, las cuales se muestran a continuación, además debemos considerar que el total de semanas para nuestro ejercicio es de N= 52.

Cuadro1. Historial de ventas. Semana Año Anterior Año Actual

E

1 133, 156,586,208 982,5152 131,069,700 3 135,596,521

151,643,509 140,852,992

4 144,482,069 142,839,105 5 134,659,268 146,231,936 6 128,680,124 141,581,937 7 133,006,199 143,856,129 8 126,893,873 136,244,690 9 126,154,637 138,098,420

10 130,592,240 140,385,232 11 134,258,092 416,575 12 131,355,235 145,159,514 13 134,057,397 145,264,370 14 145,411,521 145,225,881

Σ = 1,870,199,392 Σ= 2,018,386,497

144,

101

Page 125: TESIS MUESTREO Arana2003

=x 133,585,671 =x 1 44,170,464

cional o el cambio que existe entre las ventas del año anterior y el )

La razón poblaactual lo podemos obtener con la ecuación (2 .

08.1392,199,870,1

97,386,018,2 4

=

=r

la o anterior a razón de 1.08, es decir, 8%.

p la sig nte manera,

Lo que significa que venta se ha incrementado con respecto al añ

La varianza de esta estimación, la podemos obtener a licando la ecuación (3), de uie

( )( )000137.0

10699.410785.15214

)( 1316 ×⎟

⎠⎜⎝ ×⎟⎟

⎠⎜⎜⎝

=rV

11452

=

⎞⎛⎞⎛ −∧

Y el intervalo de confianza con 90% de confiabilidad lo obtenemos con el resultado

anterior y la ecuación (4), ( )1046.1,0539.1

Estimador de Razón de la Media y el Total Poblacional

Algunas veces lo que te interesará es estimar la media o el total poblacional, pero desconoces el tamaño

lo que utilizar el estimador de yN=∧

τde la población, por no te será posible. Si conoces la relación que existe

ntre el total de la variable auxiliar X y su media xXτ

, podrás estimar a N, en este caso utilizando la medida del e

tamaño Xτ , en vez de la población N. Este mismo principio se utiliza en la estimación de razón de la media poblacional, como se muestra a continuación.

Estimador de Razón de una Media Poblacional

( )

Xrµ=

Xn

ii

n

ii

Y

x

yµµ

⎟⎟⎟⎟

⎜⎜⎜⎜

=

=

=∧

1

1

…(5)

La por la

ás importantes en nuestro análisis. A continuación se muestra la ecuación que la define.

varianza se calcula tan sólo multiplicando la media poblacional de nuestra variable auxiliar varianza de nuestro estimador de razón. Y como en los casos anteriores resulta ser una de las estimaciones m

102

Page 126: TESIS MUESTREO Arana2003

Varianza Estimada de

Y

µ

( )

2

2

rsnN

⎟⎠

⎜⎝

=

onde 2rs , es como se definió en (4)

XY

nN

rVV

⎞⎛ −

=⎟⎠⎞

⎜⎝⎛ ∧∧∧

µµ …(6)

D

a medio y analizar su eficiencia con otros estimadores. Un estim ón puede ser más preciso cuando es menor

ndo Y y X están altamente correlacionadas y tiene una relación lineal con ordenada al origen. Esto se demuestra en el apéndice teórico.

También puedes observar que la varianza tiende a tener valores grandes con muestras que tienen valores grandes de

R es un estimador sesgado, lo que significa que sería de interés comparar su error cu drático 2

rσador de raz

que 2σ . Lo cual se da cua

x y viceversa, por lo que el estimador ajustado es,

⎟⎠⎞

⎜⎝⎛⎟

⎠⎞

⎜⎝⎛=

∧∧∧

YX

Y Vx

V µµ

µ2

)(o

… (7)

Una aproximación 100(1-α)% para el intervalo de confianza de Yµ , basándonos en la

aproximación normal está dada por,

( ) ⎟⎞

⎜⎛ ∧∧

YV µα 2 ⎠⎝

± −

nY tµ ,1 …(8)

Donde ( )2,1 α−nt denota el punto 2α superior de la distribución t-student congrados de libertad.

n-1

La varianza ajustada alternativa ⎜⎝⎛

YVo

ued su ida en la expresión (8).

Ejemplo. Compañía de autobuses El dueño de una compañía de autobuses desea estimar la cantidad promedio de dinero gastado en el

l año en la compra de la gasolina de su flota que cuenta con 700 camiones. En los registros cuenta con todos los gastos del año pasado por cada o de sus camiones, y de una muestra aleatoria obtuvo los

s camiones durante el primer cuarto del año actual, los datos se resumen a continuación,

N= 700 n= 50

Utilizando los datos anteriores y la ecuación (5)

⎟⎞∧

µ , p e ser stitu⎠

primer cuarto deun

gastos de 50 de su

223,658,050. 50

1=∑

=iiy 753,653,379.

50

1=∑

=iix

( )

42.541,30

43.502,3075.379,653,322,050,658, ⎞⎛∧ 3

=

⎟⎠

⎜⎝

=Yµ

103

Page 127: TESIS MUESTREO Arana2003

Lo que significa que el promedio de gasto en gasolina por camión es de 30,541.42

o del año. Donde durante el primer cuart

Xµ se calculó como sigue,

700 .5021,351,697== NXµ Xτ

30,502.43 =

La varianza de este estimador la obtenemos co l e, n la ecuación (6) y es a siguient

( )( ) ( )

163,782,836.

7.81203,691,17 70050

50700

=

⎟⎟⎠

⎞⎜⎜⎝

⎛ −=⎟

⎠⎞

⎜⎝⎛ ∧∧

yV µ

Donde 2rs puede calcularse como sigue,

7.81203,691,17 49

712.609,980,867,49

3,868.94318,517,42 7,503.41637,100,34 - 1,347.07328,563,79

250

1i

50

1

2250

1

22

=

=

+=

+−= ∑ ∑∑= == i

ii

iiir xryxrys

tenidas, se trata de valores grandes por lo que sería conveniente utilizar el estimador ajustado de la varianza que es el que se encuentra en la ecuación (7) y se obtiene a continuación,

Sin embargo, como podrás notar por las medias ob

( )

659,229.51

163,782,836. 73,067.60 30,502.43

2⎞⎛∧o

)(

=

⎟⎠

⎜⎝

=YV µ

Por lo tanto el

intervalo de confianza con un 90% de confiabilidad está dado por, ( )

( ) 32,173.05 28,909.79,51.229,659010.242.541,30 ±

Lo q se encuentra entre 28,909 y 32,173 pesos.

sos lo que resulta de interés es la estimación del total de la población, como habíamos riormente, es interesante ver que la estimación del total es posible obtenerla a través del total

poblacional de la variable auxiliar y la estimación de la razón. A continuación presentamos las expresiones que definen a sus estimadores.

ue significa que la media de la población

En algunos cacomentando ante

Estimador del Total Poblacional

104

Page 128: TESIS MUESTREO Arana2003

( )

( )X

Xn

ii

n

ii

Y

r

x

y

τ

ττ

=

⎟⎟⎟⎟

⎜⎜⎜⎜

=

=

=∧

1

1

…(9)

La varianza de nuestro estimador se obtiene tan sólo multiplicando la varianza de nuestro estimador de la

media por el total al cuadrado de la varianza de la variable auxiliar.

Varianza Estimada del τ

Y

( ) ( )

( )

11 1

22

2

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎠⎞

⎜⎝⎛ −

=

=⎟⎠⎞

⎜⎝⎛

∑=

∧∧∧

n

rxy

nNnN

rVV

n

iii

XX

XY

µτ

ττ

…(10)

Por último presentamos la expresión que define su correspondiente intervalo de confianza.

Intervalo de Confianza

( ) )(2,1 YnY Vt

∧∧

± ττ α …(11)

En caso de desconocer N, podemos utilizar el sigu nte estimador, ie

( ) ( )

( )

1

−11 1

22

2,12,1 −⎟⎟⎠

⎞⎜⎜⎝

⎛⎟

∑⎠⎞

⎜⎝⎛=⎟

⎠⎞

⎜⎝⎛ =

rxyn

i

∧∧

− nxntVt i

i

XnYn ττ αα

Ejempl

dueño de la compañía de autobuses es saber la cantidad total e dinero que gastará al término del primer cuarto del año actual y la obtenemos con la cuación (9),

o. Compañía de autobuses Ahora lo que le interesa al

de

105

Page 129: TESIS MUESTREO Arana2003

( )=∧

xy r ττ( )(21,378,993

5.697,351,21002.1== )

stimación del dinero que el dueño gastó es todos sus camiones durante el primer cuarto el año es $21,378,993.

a varianza del estimador la obtenemos con la ecuación (10),

Es decir, que la e

dL

( ) ( )( ) ( )

718,054.831,853,589,

7.81203,691,17 30,502.43

15070050700993,378,21 2

=

⎟⎠

⎞⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛ −=⎟

⎠⎞

⎜⎝⎛ ∧∧

yV τ

Por último, el intervalo de confianza con un 90% de confiabilidad, se calcula como sigue,

( )( ) .1724,114,960 .70,18,643,026

1,361,466 010.2 .4421,378,993 ±

Lo que se frasea como que con una confiabilidad del 90% puedo afirmar que el gasto total de mi flota durante el primer cuarto del año se encuentra entre $18,643,026 y $24,114,960.

Selección del Tamaño de Muestra Recodarás de capítulos anteriores que la precisión de la información extraída de una

muestra depende de la dispersión de los datos que la constituyen, sin embargo esto puede ser controlado con la aplicación de un diseño adecuado y del número de observaciones que decidamos contener en la muestra.

Para seleccionar el tamaño de la muestra n, utilizarás el mismo procedimiento que en el muestreo simple aleatorio, en este caso, para estimar Yµ , Yτ ó R con un error de B unidades. Es decir, determinamos el número de observaciones requeridas para estimar una razón poblacional, con un límite de error de estimación de magnitud B. Esto se logra estableciendo t(α/2) desviaciones estándar del estimador de razón igual a B y despejando n de esta expresión. Es decir, se resuelve la siguiente expresión,

( ) BrVtn =∧

2,α …(12)

para n, donde es la varianza estimada de r, lo que resulta en l siguiente ecuación,

)(rV∧

Tamaño de muestra requerido para estimar R con un límite para el error de estimación B

( )

2

2

2,1

2

rn

r

tBN

Nn

σµ

σ

α

+⎟⎟⎠

⎞⎜⎜⎝

⎛=

…(13)

106

Page 130: TESIS MUESTREO Arana2003

Podrás notar que en este caso te encuentras con el parámetro , el cual probablemente aun no

conozcas. Si esto ocurre, deberás hacer un muestreo preliminar y calcular con la ecuación (4), así podrás sustituir esta estimada en la ecuación (13). Ejemplo. Compañía de autobuses

upón que te gustaría tener un error de estimación de 0.1 en el estimador de la razón, el tam gue,

2rσ

2rσ

Saño requerido para este error de estimación lo obtenemos con la ecuación (13) como si

( )( )( )( )

5.78

81.177,691,20343.502,301.0700

81.177,691,2037002

+⎥⎤

⎢⎡

=n

010.2 ⎦⎣=

Lo que significa que con 79 unidades en la muestra tenemos un error de estimación con respecto al estimador de razón de 0.1 con un 90% de confiabilidad.

El cálculo del tamaño de muestra requerido para estimar la media y el total se hace de manera análoga, a los casos de anteriores, y se expresa con las siguientes fórmulas.

Tamaño de muestra requerido para estimar µy con un límite para el error de estimación B

( )

2

2

2,1

2

rn

r

tBN

Nn

σ

σ

α

+⎟⎟⎠

⎞⎜⎜⎝

⎛=

…(14)

Ejemplo. Compañía de autobuses Ahora supón que el dueño de la compañía de autobuses no está conforme con el

intervalo de confianza obtenido para la media estimada, pues necesita tener mayor control sobre los gastos de su empresa y el límite de error que puede tolerar es de $1,500, así que el tamaño requerido para este error de estimación lo obtenemos con la ecuación (13) como sigue,

( )( )

( )

16.240

81.177,691,203010.2

1500700

81.177,691,2037002

=

+⎟⎠⎞

⎜⎝⎛

=n

Es decir, el número de unidades necesarias en la muestra para tener un error de estimación de $1,500 con respecto a la media estimada es 240.

Tamaño de muestra requerido para estimar τy con un límite para el error de estimación de magnitud B

107

Page 131: TESIS MUESTREO Arana2003

108

( )

2

2

2,1

2

2

σ

σ

α

+⎟⎟⎠

⎞⎜⎜⎝

⎛⋅

=

−ntNBN

Nn …(15)

Ejemplo. Compañía de autobuses. Ahora supongamos que el dueño de la compañía de autobuses está interesado en obtener el tamaño de

muestra necesario para tener un error de estimación de $2,000,000 con respecto al total estimado,

( )( )

( ) ( )( )08.88

81.177,691,20301.2700

000,000,2700

81.177,691,2037002

=

+⎟⎟⎠

⎞⎜⎜⎝

⎛=n

Por lo tanto son necesarias 88 unidades muestrales para tener un error de estimación de

$2,000,000. ¿En qué caso utilizaríamos estimación de razón?

Ya hemos mencionado algunas situaciones en las que la estimación por razón es utilizada, a continuación listamos algunas otras. 1. Cuando necesitamos estimar una razón. Por ejemplo, si te interesa saber la velocidad promedio para llegar

en auto a cierto destino, utilizaríamos su equivalente que es la razón entre la distancia y el tiempo; otro ejemplo sería relacionar el ingreso per cápita de las familias de un cierto estado, o el incremento promedio del año anterior contra el año actual del precio de ciertos productos, etcétera.

2. Puede darse el caso de que necesites estimar un total poblacional, pero desconoces N, ya sea porque es difícil medirla o porque resultaría muy costoso. Esto se soluciona si conocemos el total de su variable aux i nos

r una n,

iliar el cual puede ser fácil de medir y lo utilizamos en el estimador de razón. Por ejemplo sinteresara saber, el número de peces que miden alrededor de 17cm en cierto estanque, podríamos tomamuestra y obtener la proporción de peces del tamaño requerido en la muestra y multiplicarlos por la razó

xxτ

que estima la cantidad total de peces en la redada, donde X es la variable peso.

3. También se utiliza para aumentar la precisión de las estimaciones ya que si las variables

X y Y están relacionas linealmente a través del origen y su correlación ρ ≥ 0.5. En forma gráfica se vería así,

4. Frecuentemente se usa para ajus de la muestra de modo que reflejen

totales demográficos, por ejemplo, una universidad cuenta con 4,000 estudiantes de donde

tar las estimaciones

Y

X

Y

X

Page 132: TESIS MUESTREO Arana2003

se extrae una muestra aleatoria de 400 estudiantes que contiene 240 mujeres y 160 hom 84 de las mujeres y 40 de los hombres de la muestra planean seguir la carr ial. Si sólo se utiliza la información de l simple, tu esti

bres, dondera magistermarías que,

ea muestra aleatoria

12404001244000 =×

estudiantes planean ser maestros. Si sabemos que la universidad tiene 2700 mujeres y 1300 hombres, una mejor estimación de la cantidad de estudiantes que planean seguir la carrera magisterial sería,

12701300160402700

24084

=×+×

Este último ejemplo refleja además de la estimación de razón una variante en el diseño del muestreo, notarás que es una especie de estratificación por género.

r estimación de razón, en caso de presentarse ausencia de respuestas, por no ser posible medirlas u obtenerlas, aprovechando la relación existente entre Y y X.

.

adas . Sin e dos ades una se

s de tes

e de interés y, al valor x tados

.

que

Donde el valor de denota la pendiente y el valor de la ordenada al origen de la línea que se ajusta por método de mínimos cuadrados. Así que sustituyendo el valor de α, el estimador puede escribirse así,

5. También puedes utiliza

Estimador de Regresión

Como estudiaste en la sección anterior, existen relaciones entre las variables que pueden ser utilizpara obtener un resultado más preciso o simplemente para facilitarnos el estudio del fenómeno en cuestiónembargo el método de razón resulta apropiado cuando existe una relación lineal y a través del origen entrvariables, lo cual no siempre ocurre, por lo que abriremos aun más nuestro espectro de posibilidintroduciendo un estimador de regresión de la media µy. En este caso también debemos conocer alginformación de nuestra variable auxiliar X como su media poblacional µx. Para diferenciar los parámetros queestimarán utilizaremos el subíndice L.

El estimador que se propone a continuación supone que los valores de X son conocidos y fijoantemano, mientras que los de la variable Y son variables aleatorias y que conocemos sus correspondienvalores en la variable X.

Supongamos que la i-ésima unidad en la población está asociada al valor y de la variabli

i de una variable auxiliar, para i= 1,...,N. La media y el total poblacional de los valores de Y son denopor µ y τ respectivamente. La media y el total poblacional de X serán denotados como al inicio del capítulo

Para expresar los estimadores, supondremos que existe una muestra aleatoria simple de tamaño n yexiste una relación lineal entre Y y X.

El estimador de regresión de la media de una población se ve así,

xL µβαµ∧∧∧

+=

β ∧

αel

Estimador de Regresión de una Media Poblacional µyL

( )xy XYL −+=∧

µβµ …(16)

109

Page 133: TESIS MUESTREO Arana2003

donde,

( )( )

( )∑ −i xx …(17)

∑∧−−

n

ii xxyy== n

i

2

=i 1

A c ayor

ontinuación presentamos el estimador de la varianza de YL el cual nos ayudará a tener minformación de la población en cuestión.

µ

a estimada delVarianz estimador ∧

YLµ

( ) ( ) ⎥⎦

⎤⎢⎣

⎡−−−⎟

⎠⎞

⎜⎝⎛

−⎟⎠⎞

⎜⎝⎛ −

=⎟⎠⎞

⎜⎝⎛ ∑ ∑

= =

∧∧ n

i

n

iiiYL xxyy

nNnnNV

1 1

222

21 βµ …(18)

Así que un intervalo de aproximadamente (1-α)100% de confianza construido de la forma común es dado por,

Intervalo de Confianza del estimador de

YL

µ

( ) ⎟⎞

⎜⎛±

∧∧

yLnyL Vt µµ α 2,2 ⎠⎝

…(19)

Donde ( )2,2 α−nt es el punto α/2 superior de la distribución t-Student con n -2 grados de libertad.

El teorema central del límite para el estimador de regresión para una población finita, en el cual se el procedimiento para obtener el anterior intervalo de confianza es dado en Scott y Wu (1981). Sin embestudios empíricos de estimadores de regresión y razón para poblaciones reales con muestras de n =32 hechoRoyall y Cumberland (1985) muestran que las probabilidades reales cubiertas, usando el estimador de la varestándar son tan buenas como las propuestas alternativas, y podrían ser substancialmente menores que el nivconfianza nominal. En un estudio teórico subsecuente, Deng y Wu (1987) comparan estimadores de varianzaalternativos y proponen que diferentes estimadores son usados dependiendo si el propuesto está estimanerror cuadrado medio o construyendo un intervalo de confianza.

basa argo, s por ianza el de

do el

Ejempe los ro el , hay Para cador

o) que

edia poblacional es igual a 5.0gm. Debes tomar en cuenta que el muestreo se basa en una roducc tra se

lo. Análisis de calidad Tú eres el gerente de calidad de una planta productora de jeringas y deseas obtener fácilment

indicadores de confiabilidad sobre un tubo de vidrio que es cortado por una máquina automáticamente, peproceso de medir la longitud de cada tubo de que sale de la máquina cortadora sería muy caro. Sin embargouna forma rápida de hacerlo, al mismo tiempo de ser una forma menos cara y ligeramente menos precisa.esto se sabe que existe una relación clara entre dos indicadores, es decir que podemos predecir el indideseado (indicador 2= longitud del tubo) con un indicador del cuál ya sabemos sus datos (indicador 1= pespues se calcula por medio de una báscula que tiene la máquina a la salida de la banda de producción, por losabemos que su mp ión de 100 tubos de vidrios que son los correspondientes a un lote estándar. Los datos de la muesdan a continuación,

110

Page 134: TESIS MUESTREO Arana2003

Cuaddicador 1

(gm) Indicado

ro 2. Indicadores de calidad In r 2

(cm) ( )( )∑

=

−−n

iii xxyy

1

( )∑=

−n

ii xx

1

2

4.10 2.10 0.47 2.852.20 1.50 3.15 12.882.70 1.70 2.09 9.546.00 2.50 0.03 0.048.50 3.00 1.69 7.354.10 2.10 0.47 2.859.00 3.20 2.64 10.318.00 2.80 0.93 4.897.50 2.50 0.21 2.93=x 5.79 =y 2.38 Σ=11.68 Σ=53.65

Utilizando la fórmula (16), podemos obtener el estimador de regresión, como sigue,

Donde se obtuvo con la ecuación (17) y es como sigue,

( )206.2

79.50.5218.038.2=

−+=∧

YLµ

β

218.065.5368.11

==∧

β

Para obtener el intervalo de confianza primero debemos saber la varianza que es fácilmente calculable con la ecuación (18), como sigue,

( ) ( )[ ]0016.0

649.532176.0656.271

91009100 2

=

−⎟⎠⎞

⎜⎝⎛

⎟⎟⎠

⎞⎜⎜⎝

⎛ −=⎟

⎠⎞

⎜⎝⎛ ∧∧

YLV µ

Por lo tanto el intervalo de confianza con una confiabilidad del 95% es,

( )2.3212.090, Extender la idea a estimar el total es muy sencillo. Esto se presenta a continuación,

Estimador de Regresión Lineal para un Total Poblacional

( )xNyN

N

x

yLL

−+=

=∧∧

τβ

µτ …(20)

Donde su varianza se obtiene multiplicando la∧

varianza de µ por N2. YL

111

Page 135: TESIS MUESTREO Arana2003

Ejemplo. Análisis de calidad El mismo gerente del ejercicio anterior desea saber la cantidad total de metros de tubo de vidrio que ha gastado en el último lote estándar.

)

Lo que significa que producción ha cortado un tubo de vidrio de 220.606cm. Estimador de Diferencia

Por último estudiaremos el método de diferencia, el cual al igual que los dos anteriores utiliza una variable auxiliar llamada que llamaremos X para estimar a la de interés Y, así pues los objetivos son los mismos, es decir estimar una media o un total poblacional por medio de muestreo, ajustando el valor de

( )(220.606

2.206100==

y hacia “arriba” o hacia “abajo” en una cantidad que depende de la diferencia ⎟⎠⎞

⎜⎝⎛ −

xXµ , tomando el

coeficiente β igual a uno, por lo que este método resulta aun más fácil que el de regresión y algunas veces el estimador resulta ser tan preciso como el de regresión. Así, las fórmulas siguientes resultan válidas siempre y cuando se utilice muestreo simple aleatorio.

Estimador de Diferencia de una Media Poblacional YDµ

( )d

xy

X

XYD

+=

−+=∧

µµµ …(21)

donde, xyd −=

A continuación presentamos el estimador de la varianza que como podrás observar, se trata de una

adecuación del de regresión.

Varianza Estimada del Estimador de

YD

µ

( )1

1

2

⎟⎟⎠

⎞⎜⎜⎝

⎛ −=⎟

⎠⎞

⎜⎝⎛

∑=

∧∧

n

dd

nNnNV

n

ii

YDµ …(22)

donde

iii xyd −=

Por último presentamos el intervalo de confianza el cual nos indica los límites en los que se encontrará nuestra estimación.

Intervalo de Confianza de

YD

µ

112

Page 136: TESIS MUESTREO Arana2003

( ) ⎟⎠⎞

⎜⎝⎛±

∧∧

YDnYD Vt µµ α 2,1 ...(23)

Ejemplo. Análisis de calidad

Con base a nuestra aseveración acerca de que el estimador de diferencia estima igual de bien que el de regresión, aplicaremos el mismo ejemplo que en la estimación por regresión. A continuación aplicamos la fórmula (21).

Y la varianza la obtenemos aplicando la ecuación (22),

( )59.1

79.5538.2=

−+=∧

YDµ

( )( ) ( )

4164.0

11.491009100

=

⎟⎟⎠

⎞⎜⎜⎝

⎛ −=⎟

⎠⎞

⎜⎝⎛ ∧∧

yDV µ

Por último, el intervalo de confianza con una confiabilidad del 95% es como aparece a continuación,

( )114.3062.04164.036.259.1 ±

Es evidente que en este caso, resulta más apropiado usar el estimador de regresión que el de diferencia. Esto se debe a que β es muy diferente a 1, cuando sucede esto, el estimador de regresión es mejor que el de diferencia.

A continuación presentamos un ejemplo en el que resulta más apropiado el estimador de diferencia. Ejemplo. Productos de mayoreo e productos a mayoreo desea saber el incremento que hacen sus lien presa distribuye 1,000 productos y hace un muestreo de algunos de llos para compara el precio de venta mayorista - intermediario (X) e intermediario - consumidor (Y), a

dro 3. Ventas mayorista vs intermediario

Cierta empresa negociadora dtes al consumidor final, esta emc

econtinuación se muestran los datos,

Cua

( )∑=

−n

ii dd

1

2 X($) Y($)

2 2.5 0.0060 2.5 2.7 0.1427 3 3.6 0.0005

4.5 5 0.0060 5 5.6 0.0005

6.5 6.9 0.0316 7 7.4 0316 8 9 0.1783

0.

9 10 0.1783 =x 5.28

µ = 5 =y 5.86 Σ=0.0719

Aplicando nuevamente la ecuación (21) obtendremos el estimado de diferencia.

( )58.5

28.5586.5=

−+=∧

YDµ

Y la varianza,

113

Page 137: TESIS MUESTREO Arana2003

( )( ) ( )0719.091009100

⎟⎟⎠

⎞⎜⎜⎝

⎛ −=⎟

⎠⎞

⎜⎛ ∧∧

yDV µ ⎝

00727.0=Por último, el intervalo de confianza con una confiabilidad del 90% es como

aparece a continuación,

( )77.537.500727.036.258.5 ±

De esta manera podemos afirmar que la media de la población se encuentra entre $5.37 y $5.77. Lo que significa que el incremento general que hacen los intermediarios a los clientes es

( ) %5.11100577.5 =×=I .

APÉNDICE. Revisión Teórica Estimador de Razón Se supone que el total (por lo tanto la media) de la variable auxiliar es conocida. Como definición de R aceptamos la expresión siguiente,

X

YRµµ

=

Donde,

∑=

y =i

iY yN

µ N1

1 ∑

=

=N

iiX x

N 1

También se dio como el estimador de razón de Yµ a,

R XY µµ = Para justificar esta parte, procedamos como sig Deseam

ue,

os estimar Yτ el cual está dado por,

∑ ∑∈ ∉

+=Si si

iiY yyτ

y conocemos . Sτ

Sea xy

yR Si

i

==∑∈

donde x

Sii∑

∑=n

yy 1 y ∑=

=n

iix

nx

=in i 1 1

1

Dado que creemos en la definición de R, podemos asumir que esta se mantiene con las partes no incluidas en la muestra. Es decir,

114

Page 138: TESIS MUESTREO Arana2003

∑∉Si

ix

Por lo tanto,

∑∉

= Siiy

R

∑∑∈

∉ =

Sii

Si

Sii

Si

xx...(1b)

∑∑ ii yy

Nót cemos a

ada la

ese que ∑∑∉∈

+=si

isi

iY yyτ , de la que no cono ∑∉si

iy

D relación en (1b),

∑∑ ⎟⎟⎞

⎜⎜⎛

∑∑i

∈∉

⎠⎝⎟⎟⎠⎝=

Sii

SiSii

si

xy

Y además sabemos que τ

estim

⎞⎜⎜⎛

iyx

∑∑∈∉

−=Si

ixSi

i xx

El ador de Yτ es entonces,

∧∈

==

Rx

y

x

X

i

SiiX

Sii

ττ

∈∈∈∈∈

∈∈

∈∉

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛−+⎟⎟

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛−

⎟⎟⎠

⎜⎜⎝

⎟⎟⎠

⎜⎜

∑∑∑∑∑

∑∑

∑∑

yxyyx

yx

x

yx

Si

Sii

Sii

SiiX

Sii

Sii

Sii

Sii

SiiX

Sii

Sii

Sii

Si

τ

τ

Si dividi

⎞⎛⎞⎛∧ ⎝+= ∑ yiYτ

+=

∑∑

xy

Sii

=

mos entre N, entonces, ∧∧

= RXY µµ

115

Page 139: TESIS MUESTREO Arana2003

Estimador de Regresión Supongamos que queremos estimar el total Yτ usando una variable auxiliar X. Se asume que la relación entre X y está d Y ada por,

iixiy εβα ++= También,

ii xy βα +=

Si deseamos estimar el total Yτ como mencionamos, sabemos que,

Por lo que aprovechando la relación existente entre y podemos estimar a

Supongamos que α y β se estiman con mínimos cuadrados usando la muestra. Es decir,

calculamo y y se sabe que,

∑ ∑∈ ∉

+=Si Si

iiY yyτ

iy ix , ∑∉Si

iy .

s ∧

α∧

β

xy∧∧

−= βα Donde,

∑=

=n

iiy

ny

1

1 y ∑

=

=n

iix

nx

1

1

Ahora,

Entonces,

( )

( ) ⎥⎦

⎤⎢⎣

⎡−+−=

+−=

⎟⎠⎞

⎜⎝⎛ +=

∑∑

∧∧

∧∧

∧∧

SiiX

Sii

n

Sii

n

Sii

xnN

xnN

xy

τβα

βα

βα

( )

( )

( ) ( )

( )( )xNyN

óxNyN

xnxnNxNyN

xnnNxynNyN

xnxynNyN

xnNy

XY

X

X

X

X

SiiX

SiiY

−+=

−−=

−++−=

−+−−−+=

−+⎥⎦⎤

⎢⎣⎡ −−+=

⎥⎦

⎤⎢⎣

⎡−+−+=

∧∧

∧∧∧∧

∧∧∧

∧∧∧

∧∧

∑∑

µβτ

µβ

ββµββ

βµββ

βτββ

τβατ

Dividiendo entre N,

( )xy XY −+=∧∧

µβµ

El cual es el estimador de regresión de la media poblacional.

116

Page 140: TESIS MUESTREO Arana2003

Propiedades En esta parte discutiremos las propiedades de los estimadores de razón y regresión, incluyendo fundamentalmente los valores esperados de las varianzas- Estimador de Razón

El estimador de razón de está dado por,

Donde,

Y

µ

XY R µµ∧∧

=

X

YRµµ∧

= y ∑=

=N

iiX x

N 1

1µ ,

Entonces,

Lo que debemos obtener es el valor esperado de

⎟⎠⎞

⎜⎝⎛=⎟

⎠⎞

⎜⎝⎛ ∧∧

REE XY µµ

R , para lograr encontrar el valor esperado de

. Esto se logra mediante una expansión en serie Taylor deY

µ ∧

R alrededor de los parámetros. Es decir,

xyR =

Entonces la expresión en serie de Taylor incluye las primeras y segundas derivadas de ∧

R . ( )

2

1.xyx

−=∂∂

Por lo tanto,

( ) ( ) ( ) ( )( )

( ) ( )

( ) ( ) ( )( ) ( ) ( )[ ]

sesgoRyCovxCovRxCovRR

yCovxCovRxRCovR

yxCovxVarR

yxxyx

xERE

XY

XY

XX

Y

XXX

XX

YYX

X

Y

X

Y

+≠⋅−+=

⋅−+=

−++−=

⎭⎬⎫

⎩⎨⎧

−−−−+−+−−=⎟⎠⎞

⎜⎝⎛ ∧

ρ

ρ

µµµ

µµµ

µµµ

µµµµ

µµ

2

2

22

22

32

,100

1221

[ ] sesgosesgoRsesgoR YXXX +=+=+=⇒∧

µµµµµ ∧

∴ Yµ es un estimador sesgado

117

Page 141: TESIS MUESTREO Arana2003

Con respecto a la varianza, usaremos el mismo principio, sólo que usaremos una aproximación

de primer orden. Entonces, tomemos las primeras derivadas parciales de ∧

R con respecto a x y y ,

( )2

.xy

x−=

∂∂

y ( )

xy1.

=∂∂

Entonces,

( ) ( )YX

YX

XX

Y yxR µµµ

µµµ

µ−−−+=

2

1

Lo que implica,

( ) ( )

( ) ( )( ) ( )24

2

32

2

2

2

21

1

YX

YYX

X

YX

XX

Y

YX

YX

XX

Y

yyxxR

yxR

µµµ

µµµµ

µµµ

µ

µµµ

µµµ

µ

−+−−−−=⎟⎟⎠

⎞⎜⎜⎝

⎛−

−−−=−

Lo que implica,

( ) ( ) ( )yVaryxCovxVarRVarREX

Y

X

Y

XX

Y4

2

32

2

,21µµ

µµ

µµµ

+−=⎟⎠⎞

⎜⎝⎛=

⎟⎟

⎜⎜

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛−

∧∧

( ) ( ) ( )

( ) ( ) ( )

( ) ( ) ( )[ ]

( )( )∑

=

∧∧

−−

⎟⎠⎞

⎜⎝⎛ −=

++⎟⎠⎞

⎜⎝⎛ −=

+−=

+−=

⎥⎦

⎤⎢⎣

⎡+−=

⎟⎠⎞

⎜⎝⎛=⎟

⎠⎞

⎜⎝⎛∴

N

i

ii

yyxx

X

Y

X

Y

X

Y

X

Y

XX

XY

NNRxy

Nn

SRRSSNn

yVarRyxRCovxVar

yVaryxCovxVar

yVaryxCovxVar

RVarVar

1

2

22

2

2

2

4

2

322

2

111

11,2

,2

,21

µµ

µµ

µµ

µµ

µµ

µµ

Un estimador dond , está dado por, de ⎟⎠⎞

⎜⎝⎛ ∧

YVar µ e ∧∧

= RXY µµ

( )( )∑

=

−−

⎟⎠⎞

⎜⎝⎛ −=⎟

⎠⎞

⎜⎝⎛ N

i

iiY NN

RxyNn

Var1

2

111µ

Donde,

xyR =

Estimador de Regresión

Para derivar la varianza del estimador de regresión podemos hacer una de las

funciones δ . Por definición una función δ está dada por un estimador como sigue, ∧

θ

θθθδ

θ

−=

118

Page 142: TESIS MUESTREO Arana2003

Las propiedades fundamentales de estas funciones son las siguientes,

01=⎟

⎠⎞

⎜⎝⎛ −=⎟

⎠⎞⎜

⎝⎛ ∧

∧ θθθ

δθ

EE ; y ∧

=⎟⎠⎞⎜

⎝⎛ + ∧ θδθ

θ1

22

θθθ

θδδ

θθ

⎟⎠⎞

⎜⎝⎛

=⎟⎠⎞

⎜⎝⎛ −=⎟

⎠⎞⎜

⎝⎛=⎟

⎠⎞⎜

⎝⎛

∧∧

VarEEVar

δ . Para aplicarlas al estimador de regresión definamos las siguientes funciones

Y

YYY τ

ττδ −=

X

XXX τ

ττδ −=

XY

XYXYXY

σδ

−= 2

22

2

X

XXS

SX σ

σδ

−=

2X

XY

σσ

β = Además, usamos la expresión alternativa de

Dado el estimador de regresión para el total Yτ , tenemos que,

⎟⎠⎞

⎜⎝⎛ −+=

∧∧∧

XXYYR ττβττ

2

1

1

=

=

⎟⎠⎞

⎜⎝⎛ −

⎟⎠⎞

⎜⎝⎛ −⎟

⎠⎞

⎜⎝⎛ −

=n

iXi

Xi

n

iYi

x

xy

µ

µµβ

Ahora usando las funciones δ , el estimador de regresión puede rescribirse como, YR

τ

( ) ( )( ) ( )[ ]XXX

S

XYYYYR

X

δττδδ

βδττ +−++

++=∧

1111

2

Notemos que las componentes aleatorias de la última ecuación son las s'δ ya que Yτ , β y

Xτ son parámetros. Desarrollando la expresión, obtenemos,

( ) ( )( )( )21

111

X

XYXY

S

XXSXSYYYYR

δτδδβτδβ

τδττ+

++−+++=

Lo que implica,

( ) ( )( )( )21

111

X

XYXY

S

XXSXSYYYYR

δτδδβτδβ

τδττ+

++−++=−

Elevando al cuadrado ambos términos y haciendo el álgebra correspondiente obtenemos,

( ) ( LL 222 112 222222

XXXYXXY SXXSSSSYXYXYYYYR δδτβδδδδδβδτττδττ +++−−+−+=⎟⎠⎞

⎜⎝⎛ −

)Tomando la esperanza de esta última expresión, encontramos,

119

Page 143: TESIS MUESTREO Arana2003

( ) ( ) ( )

( ) [ ]( ) ( )22

222

22

222

22

222222

11

21

2

2

2

XYY

XXYY

XXYY

Y

Y

XYX

XYYX

Y

Y

Y

XXYXYXYYYYR

nfN

nfN

Var

VarVar

EEEE

ρσ

σββσσ

σββστ

τ

ττβ

ττσ

βτττ

ττ

δτβδδβττδτττ

−−

=

+−−

=

+−⎟⎠⎞

⎜⎝⎛=

⎟⎠⎞

⎜⎝⎛

+−⎟⎠⎞

⎜⎝⎛

=

+−=⎟⎠⎞

⎜⎝⎛ −

∧∧

Donde es el coeficiente de correlación entre X y Y.

Un estimador natural de está dado por,

XYρ

⎟⎠⎞

⎜⎝⎛ ∧

YRVar τ

( ) ( )222

11 rsn

fNVar YYR −−

=⎟⎠⎞

⎜⎝⎛ ∧

τ

Donde r= coeficiente de correlación muestra, y,

2

1

2

11 ∑

=

⎟⎠⎞

⎜⎝⎛ −

−=

n

iYiY y

ns µ

APÉNDICE II. Hoja de Cálculo

El texto cuenta con un disquete que tiene un archivo en Excel con 7 hojas de cálculo, cada una con el nombre del diseño de muestreo que contiene las fórmulas para calcular sus correspondientes estimadores.

120

Page 144: TESIS MUESTREO Arana2003

En cada hoja se indican las instrucciones de uso para obtener los principales estimadores. Para ejemplificar este punto a continuación presentamos algunos ejemplos vistos en el capítulo, los cuales pueden variar por redondeo.

Es importante mencionar que estas hojas pueden usarse con diferente tipo de información, según sea conveniente.

Es recomendable copiar la hoja de cálculo y guardarla con otro nombre para evitar la pérdida de alguna fórmula.

121

Page 145: TESIS MUESTREO Arana2003

Ejemplo Razón. Compañía de autobuses

En este ejemplo necesitábamos estimar la media y el total poblacional de nuestra población, las dos estimaciones pueden ser estimadas por la hoja de cálculo al mismo tiempo y son las que aparecen en el cuadro anterior con sus correspondientes intervalos de confianza, en este caso calculados con un 90% de confiabilidad.

También encontraras los tamaños de muestra necesarios para estimar con un error determinado.

122

Page 146: TESIS MUESTREO Arana2003

123

Ejemplo Regresión. Análisis de calidad

En este ejemplo calculamos el estimador de la media con su correspondiente intervalo de

confianza ayudándonos de la información de otra variable, tal y como lo explicamos a lo largo del capítulo. También aparece una gráfica que construimos con algunos de los estimadores para poder visualizar la existencia de una relación lineal.

Page 147: TESIS MUESTREO Arana2003

APÍTULO 6

MUESTREO SISTEMATICO

INTRODUCCIÓN

El fundamento teórico que da sustento a los métodos revisados anteriormente es la forma aleatoria de seleccionar la muestra, la cual como te habrás dado cuenta, implica un proceso un tanto complicado y costoso. Es aquí donde entra el diseño de muestreo o de encuestas por muestreo sistemático, el cual es ampliamente utilizado pues representa una significativa reducción del proceso de selección de la muestra. Como veremos, este diseño elimina la necesidad de desarrollar métodos de aleatorización elaborados ya que sólo requiere fijar un intervalo y de ahí recorrer la población seleccionando las unidades que se encuentren en el punto seleccionado del intervalo. Esto, evidentemente facilita el trabajo de campo en el muestreo y reduce sustancialmente los errores que se podrían cometer en caso de hacer uso de un procedimiento más elaborado.

También debemos observar el hecho de que en este método se tiene la certeza de cubrir la totalidad de la población a analizar desde un inicio.

En el caso de un muestreo en superficie las unidades muestrales son tomadas premeditadamente de un plano cartesiano imaginario, de donde seleccionamos las unidades que pertenecerán a nuestra muestra. De esta manera el tiempo que consumirás y el costo de selección por unidad muestral será menor. En secciones posteriores, damos el fundamento necesario del muestreo sistemático. Definición

Muestra sistemática

C

153

Page 148: TESIS MUESTREO Arana2003

127

Es una muestra que se obtiene seleccionando una unidad muestral por cada k unidades en una población de tamaño N. De esta manera, tomando el valor apropiado de k, se dice que se tiene una muestra de 1 en k. A este tipo de muestra la denotaremos como:

sYy Regularmente N es múltiplo de k y a cada conjunto de k unidades se le llama grupo. Cabe señalar que existe el muestreo sistemático cuando N no es múltiplo de k. La siguiente figura muestra el esquema de un muestreo sistemático, donde N es múltiplo de k. Figura 1. Muestreo sistemático

( ) ( ) ( )

( ) ( ) ( ) Nnk

jk

kk

k

=L

M

L

M

L

L

L

32

knknknn

kjkjkjj

kkkkkk

kGrupo

+−+−+−

+−+−+−

++++++

MMMM

MMMM

L

312111

312111

32221233212

3211321

Son las unidades que seleccionamos de la población para la muestra, suponiendo que se elige la unidad k aleatoriamente para comenzar. ¿Cómo seleccionar una muestra sistemática?

Primero deberás decidir el tamaño del intervalo “1-en k” unidades, luego seleccionarás aleatoriamente una unidad que se encuentre dentro del intervalo de la primera hasta la k-ésima unidad y así seguirás tomando los múltiplos de k, hasta llegar a N. Pero surge una pregunta, ¿cómo seleccionar una k adecuada?; en general para una muestra sistemática de n elementos en una población de N, k debe ser menor o igual que N/n; si no conocieras a N, entonces determinarás un tamaño de muestra n’ aproximado para la encuesta y así estar en la posibilidad de obtener una k estimada.

Cuando no conocemos el tamaño de la población, puede darse un valor tentativo de k; sin embargo, este podría ser muy grande, lo que nos proporcionaría un tamaño de muestra menor que el requerido en el estudio. Esto no representaría un problema si se tuviera la posibilidad de tomar nuevamente la muestra y así seleccionar la k, que nos dé él tamaño requerido. Sin embargo existen muchos casos en los que esto no es posible y es necesario tener una precisión dada desde el principio de estudio. Esto hace difícil la tarea de estimar un valor adecuado de k, y estará en tus manos la investigación de la mejor técnica. A continuación damos conceptos relacionados con el muestreo sistemático y su comparación con muestreo simple aleatorio.

Page 149: TESIS MUESTREO Arana2003

128

Definición Población Aleatoria La llamaremos así cuando encontremos a las unidades muestrales ordenadas al azar dentro de la

población. La muestra extraída de una población aleatoria debe conservar un coeficiente de correlación aproximadamente igual a cero ( )0~XYρ , es decir, que si tenemos una N grande, la varianza de es sYyaproximadamente igual a la varianza de y, de esta forma el muestreo sistemático es equivalente al simple aleatorio. A continuación se muestra la figura que lo representa.

Definición

Población Ordenada

En este caso podemos encontrar a las unidades muestrales de la población ordenadas de alguna manera (crecien d o a cualquier otro esbozo. te o decreciente), lo cual puede ser de acuerdo a su magnituEste tipo de mu eficiente de correlación menor o estras suelen ser heterogéneas y generalmente con un coigual a cero ( )0≤XYρ . Si este fuese el caso y tuvieses una N lo suficientemente grande encontrarías que:

( ) ( )yVyV sy ≤ , de lo que podrías deducir que una muestra sistemática ordenada proporciona más información que una muestra simple aleatoria por unidad de costo. A continuación se muestra la figura que lo presenta

Fig 2. Dispersión del M d M t d

Y ρXY ~0

X

Page 150: TESIS MUESTREO Arana2003

129

ρXY <=0

Definició

n Población Cíclica ó Periódica

El ordenamiento qu nta en las situaciones en las e observarás en este caso es de tipo periódico y se preseque se tiene un orde a tendencia, como los días de namiento implícito, es decir, que se repite con la mismla semana, los meses d ltivo, etc. el año, las crisis económicas, los surcos o melgas en un cu El principal pr radica en extraer una muy oblema de las muestras extraídas de este tipo de población sesgada, ya que si elegim era en el mismo lugar del os un tamaño k demasiado pequeña que siempre cayintervalo obtendrías la caracterización de esa parte del ciclo y no de la población total. Por esto la relación entre varianzas es la siguiente: ( ) ( )yVyV sy ≥ , lo que quiere decir que en este caso la varianza del muestreo simple aleatorio es menor que la de la muestra sistemática, por lo que es mejor utilizar el primero por ser más preciso, sin embargo si tomaras un valor de k más grande que lograra romper el ciclo, los resultados serán más alentadores. A continuación se muestra la figura que la representa.

Estimación de la Media

y el Total

Y

Fig 3. Dispersión del M d M t d

X

Y

Fig 4. Dispersión del M d M t

X

Page 151: TESIS MUESTREO Arana2003

Poblacional Ya teniendo nuestra muestra de estudio, el objetivo será caracterizar a la población, por medio de una

muestra estimando los parámetros de mayor interés que son la media y el total poblacional. Así que después de haber seleccionado la muestra de acuerdo a lo anteriormente establecido, procederemos a estimar los parámetros con sus correspondientes varianzas estimadas y por último sus intervalos de confianza.

Estimación de la Media µ de la Muestra Sistemática

n

yy

n

ii

sY

∑=

== 1µ … (1)

A continuación presentamos el estimador de su varianza que es de gran

importancia, ya que nos permitirá medir la dispersión de nuestra muestra y como ya vimos en la sección anterior es el punto de comparación con el muestreo simple aleatorio.

Varianza Estimada de

µ

⎟⎠⎞

⎜⎝⎛ −

=∧

NnN

nsyV sY

2

)( …(2)

Un estimador que resulta de mucha importancia es el del intervalo de confianza, ya que nos permite situar nuestra estimación dentro de límites que se encuentra en la misma escala de los datos originales.

Intervalo de Confianza de

µ

( ) ⎟⎠⎞

⎜⎝⎛ −

± − NnN

nsty nsY

2

2,1 α …(3)

Donde sYy es la media de la muestra sistemática

Podrás notar que la estimación de la varianza es la misma que la presentada en el muestreo simple aleatorio, sin embargo las varianzas poblacionales no son las mismas. Así la varianza verdadera del estimador de la media de una muestra sistemática es,

( )[ ]XYsY nn

yV ρσ 11)(2

−+= …(4)

Observarás que en este caso aparece la medida de correlación XYρ , la cual nos indica la relación que existe entre los elementos de la muestra. Así pues, el muestreo sistemático estará muy ligado a este indicador ya que si XYρ es cercano a

130

Page 152: TESIS MUESTREO Arana2003

uno, quiere decir que los elementos están estrechamente relacionados y esto nos producirá una mayor varianza de la media que en el muestreo simple aleatorio, por lo que este último será el mas indicado. En el caso contrario, si XYρ es cercano a cero, nuestra estimación por muestreo sistemático es la más recomendada ya que en este caso la varianza es aproximadamente igual al muestreo simple aleatorio. Ejemplo. Compañía de transportes

El dueño de una compañía de transportes vendiendo su proveedor es de la calidad especificada a los 3 meses de haberlo suministrado a los vehículos; uno de los prningún momento están todos los automotores en la central, por lo que hacer un muestreo simple aleatorio podría representarndecidido tomar un muestreo sistemático, seleccionando cada k vehículos según su llegada a la central, sabemos que la compañía cuenta con 1,200 vehículos y nos interesa muestrear 60 de ellos y a cada uno de ello ceite para medir sus grados Poise (que es la viscosidad) en el laboratorio, cabe mencionar que el método de medición es complicado pues se toman diferentes variables en cuenta, por otro lado, según especificaciones el aceite debe estar entre 0.5 y 0.7 grados Poise dependiendo del vehículo,

A continuación elegimos nuestra k.

desea saber si el aceite que le está

incipales inconvenientes es que en

os algunos problemas, por esto se ha

s sacarle una muestra de a

2060200,1

===nNk

Lo que quiere decir que debemos muestrear cada 20 elementos, eligiendo aleatoriamente el primer elemento entre los primeros 20. Los datos los damos a continuación,

Cuadro 1. Grados Poise No. de Muestra Grados Poise

Auto No.2 0.5342 Auto No.22 0.6340 Auto No. k-ésimo

.

.

.

0.6780

Auto No. 1,142 0.7128 Σ=33.9538 σ2=0.0935

En el cuadro anterior el número elegido aleatoriamente dentro de los primeros 20 números fue el 2, de ahí en adelante se eligió 1 en 20.

Aplicando los datos de la tabla en la ecuación (1), obtenemos la estimación de la media,

5659.060953.33

=

=sYy

Lo que significa que el promedio de grados Poise que el aceite de los vehículos de la compañía tienen después de 3 meses es de 0.5659.

131

Page 153: TESIS MUESTREO Arana2003

La estimación de la varianza la obtendremos con la ecuación (2) como sigue,

0015.0200,1

60200,1600935.0)(

=

⎟⎠

⎞⎜⎝

⎛ −=

sYyV

Así que el intervalo de confianza para la estimación de la media, se obtiene fácilmente con la ecuación (3),

( )( )6429.0,4889.0

0015.00010.25659.0 ±

Con lo que podemos decir con un 90% de confiabilidad que la media se encuentra entre 0.4889 y 0.6429 grados Poise. Por lo que se puede tomar la decisión de dejar de consumir el aceite del proveedor ya que no cumple las especificaciones de calidad requeridas. Hasta aquí hemos revisado el estimador de la media poblacional y sus correspondientes estimadores, a continuación se presenta el estimador del total, que como podrás notar, es una adecuación del estimador de la media.

Estimador del Total Poblacional τ

sYsY yN=∧

τ …(5) Su correspondiente estimador de la varianza lo obtenemos multiplicando el estimador de la varianza de la media por N2, como se muestra a continuación,

Varianza Estimada de

sY

τ

⎟⎠⎞

⎜⎝⎛ −

⎟⎟⎠

⎞⎜⎜⎝

⎛=

NnN

nsNV sY

22)(τ …(6)

La correspondiente construcción del intervalo de confianza se hace de la manera habitual, sumando y restando el error de estimación.

Intervalo de Confianza

sY

τ

( ) ⎟⎠⎞

⎜⎝⎛ −

⎟⎟⎠

⎞⎜⎜⎝

⎛± −

NnN

nsNtnsY

22

2,1 ατ …(7)

En el siguiente ejemplo mostraremos la estimación del total con muestreo sistemático.

132

Page 154: TESIS MUESTREO Arana2003

Ejemplo. Evento masivo El gobierno federal desea saber la cantidad total de personas que llegarán a cierto evento masivo gratuito en automóvil donde no se expiden boletos de entrada , para tomar las medidas de seguridad necesarias. La forma para tomar la medición es mediante un muestreo sistemático, haciendo un conteo sobre los pasajeros por auto que van entrando al concierto, el gobierno desea hacer un muestreo sobre 100 autos y sabemos que el cupo máximo de autos de tamaño promedio es de 2,500.

25100500,2

==k

Lo que quiere decir que debemos muestrear cada 25 elementos, los datos los encontramos a continuación,

Cuadro 2. Personas por auto No. de Muestra No. de Personas

Auto No.1 4 Auto No.15 7 Auto No. k-ésimo . . .

. . .

Auto No. 1,985 5 Σ= 562

Aplicando los datos de la tabla en la ecuación (1), obtenemos la estimación de la media,

62.5100562

==sYy

El total es fácil de obtener si multiplicamos la estimación anterior por el número de autos esperados en total,

Con lo que podemos decir que esperando un lleno total, habrá 14,050 personas que lleguen en automóvil al evento. La varianza la obtenemos a continuación,

( )050,14

62.5500,2==

sYτ

600,159500,2

1002500100

66.2500,2)( 2

=

⎟⎠

⎞⎜⎝

⎛ −⎟⎠⎞

⎜⎝⎛=

sYV τ

( )( )( )7.842,14,3.257,13

600,15998.1050,14 ±

Lo que significa que con un 90% de confiabilidad podemos decir, que el total de personas en el evento variará entre 158,807 y 160,393.

133

Page 155: TESIS MUESTREO Arana2003

Estimación de una Proporción Poblacional

Al igual que en métodos anteriores, podrás encontrarte ante la situación de querer estimar una proporción. Es decir, que tu objetivo sea sólo estimar la frecuencia de cierta característica C en particular. De esta forma daremos el valor de 1 a la observación que posea la característica de interés y 0 si no es así. No es difícil justificar que la variable medida tiene una distribución binomial con parámetros (n,p), donde n representa el tamaño de la muestra y p la proporción o frecuencia relativa de éxitos en las n observaciones. Las ecuaciones que presentaremos a continuación son idénticas a las expuestas en la sección dedicada a proporciones en el capítulo de muestreo simple aleatorio y heredan las propiedades estadísticas. Sin embargo, las varianzas de las poblaciones no necesariamente son las mismas en ambos casos, pero si nos referimos a una muestra sistemática proveniente de una población aleatoria con un tamaño poblacional grande, las varianzas pueden llegar a ser las mismas.

Estimador de la Proporción Poblacional p

n

yyp

n

ii

sYsY

∑=

== 1 …(8)

La varianza de este estimador es la que se presenta a continuación.

Varianza Estimada de p

⎟⎠⎞

⎜⎝⎛ −

⎟⎟⎟

⎜⎜⎜

−=⎟

⎠⎞

⎜⎝⎛

∧∧∧∧

NnN

nqppV sYsY

sY 1 …(9)

Donde

sYsY pq −= 1

Por último para este estimador presentamos el del intervalo de confianza, que nos indica los límites en los que se encontrará nuestra proporción.

Intervalo de Confianza

( ) ⎟⎠⎞

⎜⎝⎛ −

⎟⎟⎟

⎜⎜⎜

−±

∧∧

NnN

nqptp sYsY

nsY 12,1 α …(10)

134

Page 156: TESIS MUESTREO Arana2003

Ejemplo. Estudio de mercado

Una empresa que se dedica a hacer estudios de mercado, necesita estimar la aceptación de cierto producto para adultos en un municipio. Por otro lado en el mismo municipio se realizan elecciones, así que la empresa considera que la concentración de personas que se darán cita es las indicadas para realizar la encuesta sobre el producto. La encuesta busca saber si el producto le gusta o no le gusta al consumidor por lo que sólo hará esta pregunta, dando el valor de 1 si la respuesta es sí, y 0 si la respuesta es no. El estadístico de esta empresa decidió hacer un muestreo sistemático, seleccionando a una de cada k personas que salen de las urnas para preguntarles su opinión. Se sabe gracias a la lista nominal cuantas personas tiene la posibilidad de votar, (en este caso son 1,000 personas) y la empresa decide muestrear al 5% de los votantes de las 10 casillas pues es una encuesta sencilla que no representa demasiados costos. Así que al final de la jornada electoral la empresa cuenta con los siguientes datos, Cuadro 3. Estudio de mercado

No. Votante Opinión 1 1 2 0 . . .

.

.

. 50 1

Σ=33

Así que la estimación de la opinión de la población se obtiene con la ecuación (1), de la siguiente manera,

66.05033

==∧

sYp

Lo que quiere decir que al 66% de la población les gusta el producto. La varianza de esta estimación la calculamos con la ecuación (2) y es la

siguiente, ( )( )

( )( )0043.0

9500.00045.0000,1

50000,150

34.066.0)(

==

⎟⎠

⎞⎜⎝

⎛ −=

∧∧

sYpV

Por último, es importante estimar en qué rango se puede mover esta estimación. Es decir, el intervalo de confianza, el cual se obtiene con la ecuación (3) y se presenta a continuación,

( )( )( )7912.0,5288.0

0653.00096.26600.0 ±

135

Page 157: TESIS MUESTREO Arana2003

Con lo que podemos decir con un 90% de confiabilidad que la proporción de personas a los que les gusta el producto se encuentra entre el 59% y el 72% de aceptación. Selección del Tamaño de Muestra

Para la determinación del número de observaciones que necesitas integrar a tu muestra para estimar a µ, debes proceder como en capítulos anteriores, primero eligiendo un valor B que es el error máximo que estamos dispuestos a aceptar en nuestras y lo igualarás al producto de un valor de t con sus correspondientes grados de libertad por la desviación estándar de dicho estimador, como se representa a continuación,

( ) ( )sYn yVtB 2,1 α−= …(11) Despejando n de esta ecuación, obtendrás lo siguiente,

136

Page 158: TESIS MUESTREO Arana2003

Tamaño de Muestra Requerido para Estimar µ

( )( ) ( ) 22

2,1

2

2

1 σ

σ

α

+−=

Nt

BNn

n

…(12)

Donde la varianza poblacional la podemos sustituir por la muestral, para fines 2σprácticos.

Tomemos el ejemplo de la compañía de transportes ( )( )

( )( )

6.82

200,10010.2065.0

.0200,1

2

2

0935.01

0935

=

+−

=n

Lo que significa que el tamaño necesario de muestra para un error de 0.065 grados Poise es de 83 elementos. Cuando nuestro objetivo es estimar p, el tamaño de muestra se puede estimar con la siguiente ecuación.

Tamaño de Muestra Requerido para Estimar p

( )( ) ( ) pqNt

BNpqn

n

+−=

122,1

2

α

…(13)

Ejemplo. Estudio de mercado

Tomando el ejemplo del estudio de mercado sobre la opinión de cierto producto, podemos utilizar la ecuación (13) para estimar el tamaño de la muestra para tener un error de 0.04 en la estimación de la proporción con una confiabilidad del 90%,

( )( )( )( )

( )( ) ( )( )

61.3596240.0

400.224

34,066.01000,10096.204.0

34.066.0000,1

2

2

=

=

+−=n

Lo que significa que si muestreamos a 360 personas, estamos asegurando tener tan sólo un error de 0.04 con un 90% de confiabilidad.

En el caso anterior ya contábamos con una estimación y con una primera aproximación de n, pero generalmente no contarás con esta información por lo que como primera aproximación podrías tomar el valor de p= 0.5 y el de t= 2.0096, tu resultado sería el siguiente,

Ejemplo. Compañía de transportes.

p

137

Page 159: TESIS MUESTREO Arana2003

( )( )( )( )

( )( ) ( )( )

8522.3846496.0

000.250

5.05.'01000,10096.204.0

5.05.0000,1

2

2

=

=

+−=n

Los tamaños muestrales no son muy diferentes, por lo que se puede usar la segunda opción cuando p es desconocida. Muestreo Sistemático con Repeticiones

A lo largo del capítulo hemos hecho notar las implicaciones que trae no utilizar una muestra aleatoria y mostramos el caso de que nuestra población sea aleatoria, sin embargo, te darás cuenta que esto no siempre ocurre, por lo que a continuación te presentamos el muestreo sistemático con repeticiones o replicado para estimar la varianza de la media, el cual utiliza el mismo principio que el sistemático simple y como su nombre lo índica utiliza réplicas, es decir, recorrerás la población tomando varias muestras sistemáticas al mismo tiempo, las cuales tendrán un punto de inicio k diferente. Se explica a detalle a continuación.

1. Nos encontramos con una población que contiene N elementos que podemos numerar consecutivamente, de donde seleccionaremos una muestra de tamaño n.

2. Obtenemos nNk = y seleccionamos aleatoriamente un número entre 1 y k como nuestro

anterior icio. De este construirás la siguiente punto de in knk s ⋅=′ que será nuestro nuevo

tamaño de intervalo, es decir, ahora muestrearemos elementos de 1 en k′ ,

bserva

donde ns representa el número de réplicas que utilizaras en el diseño. Frecuentemente se usan 10 ya que estas son suficientes para obtener estimaciones satisfactorias para la varianza. O rás que el valor de

se construye de tal manera que al final tendremos el mismo número de mediciones que obtendrías con una sola muestra sistemática de 1 en k, por lo que muestrear con réplicas no representa un costo mayor.

3. Finalmente seleccionaremos ns números aleatorios entre uno y

k′

k′ los cuales serán los puntos de inicio para cada una de las muestras, de ahí recorreremos la población de en para cada una de estas, hasta llegar al último elemento de N, en este momento tendremos n* e entos para cada réplica, donde se cumplirá que y n representa el número de unidades muestrales que se incluyen en una muestra sistemática sin repeticiones.

A continuación se muestran los estimadores de la media y el total para este tipo de muestras.

k′ k′lem

*nnn s ⋅=

Estimación de la Media µ para Muestras Sistemáticas Replicadas

∑=

==sn

i s

isY n

yy

1µ …(14)

Podrás notar que la varianza de este estimador es ligeramente diferente al que habíamos presentado anteriormente, la expresión es la siguiente.

Varianza Estimada de

µ

138

Page 160: TESIS MUESTREO Arana2003

( )1)( 1

2

⎟⎠⎞

⎜⎝⎛ −

⎟⎠⎞

⎜⎝⎛ −

=∑

=

ss

n

ii

sY nn

y

NnNyV

s

µ …(15)

El intervalo de confianza se construye de la manera habitual.

Intervalo de Confianza

( ) ( )sYnsY yVty∧

−± 2,1 α …(16)

Donde n es el tamaño total de muestra. Ejemplo. Calidad del servicio.

Una empresa desea conocer la opinión de sus clientes acerca de sus servicios; para esto realiza una encuesta de opinión sobre los 1,000 clientes y cree suficiente muestrear a 70 de estos. Las respuestas de los clientes van de uno en uno hasta cinco donde 1=muy mal servicio y 5=muy buen servicio. Es importante mencionar que cada cliente tiene un número consecutivo que lo identifica y la empresa cuenta con un listado, sobre el cual se seleccionará sistemáticamente. El tamaño de k lo obtenemos a continuación,

2,1470000,1

=

=k

Co =10 n sn( )

1401410

==′k

Seleccionaremos aleatoriamente 10 números entre 1 y 140 2, 25, 67, 123, 122, 5, 80, 98, 62, 135

Los resultados del muestreo se exponen a continuación donde los números entre paréntesis representa al número de cliente seleccionado, y la cantidad que aparece a continuación es la calificación que otorgaron a la empresa,

Cuadro 4. Encuesta de calidad del servicio. 1ra.

Muestra 2da.

Muestra 3ra.

Muestra 4ta.

Muestra5ta.

Muestra6ta.

Muestra 7ma.

Muestra sYy

(2) 1 (142)2 (282)4 (422)3 (562)5 (702)4 (842)1 2.8571 (5)3 (145)3 (285)4 (425)3 (565)3 (707)4 (845)2 3.1429 (25)2 (165)5 (305)5 (445)4 (585)4 (725)2 (865)5 3.8571 (62)5 (202)5 (342)2 (482)5 (622)5 (762)3 (902)3 4.0000

139

Page 161: TESIS MUESTREO Arana2003

(67)5 (207)4 (347)2 (487)1 (627)5 (767)2 (907)3 3.1429 (80)3 (220)2 (365)3 (500)2 (640)1 (780)1 (920)4 2.2857 (98)2 (238)1 (378)1 (518)2 (658)2 (798)5 (938)2 2.1429 (122)4 (262)1 (402)5 (542)5 (682)3 (822)4 (962)4 3.7143 (123)5 (263)3 (403)4 (543)3 (683)4 (823)5 (963)5 4.1429 (135)4 (275)3 (415)2 (555)4 (695)5 (835)5 (975)5 4.0000 Σ=33.2857

() Es el número que corresponde al elemento de la población que será seleccionado en esa muestra, bajo la premisa de que todos los elementos de la población tienen una etiqueta. Así la calificación promedio la obtenemos a continuación,

3285.3102857.33

=

=sYy

La varianza de la estimación de la media se calcula como sigue, aplicando la ecuación (15),

0005.0900531.0

000,170000,1)(

=

⎟⎠

⎞⎜⎝

⎛ −=

sYyV

Por lo tanto el intervalo de confianza con 90% de confiabilidad es, ( )

( )3752.3,2818.30005.09949.13285.3 ±

Lo que significa que la calificación del servicio se encuentra entre 3.28 y 3.38 puntos. A continuación presentamos los estimadores del total de una muestra sistemática replicada.

Estimación del Total sYτ para Muestras Sistemáticas Replicadas

∑=

==sn

i s

isYsY n

yNyN1

τ …(17)

La varianza de este estimador se presenta a continuación.

Varianza Estimada de sYτ

( )1)( 1

2

2

⎟⎠⎞

⎜⎝⎛ −

⎟⎠⎞

⎜⎝⎛ −

=∑

=

∧∧

ss

n

ii

sY nn

y

NnNNV

s

µτ …(18)

Por último a continuación se encuentra la expresión que calcula el intervalo de confianza del estimador del total.

Intervalo de Confianza

140

Page 162: TESIS MUESTREO Arana2003

( ) ⎟⎠⎞

⎜⎝⎛±

∧∧

sYnsY Vt ττ α 2,1 …(19)

Ejemplo. Calidad del servicio. La misma empresa que hizo la encuesta de calidad del servicio incluyó en el cuestionario la pregunta de cuánto invertiría su cliente el año próximo, hoy se preguntan cuánto percibirán de ingresos el próximo año, por lo que tomarán la misma muestra vista en el ejemplo anterior y buscarán la respuesta del dinero que invertirán, las respuestas se encuentran a continuación, Cuadro 5. Encuesta de calidad del servicio (inversión).

1ra. Muestra

2da. Muestra

3ra. Muestra

4ta. Muestra

5ta. Muestra

6ta. Muestra

7ma. Muestra sYy

(2) 2,000 (142)2,800 (282)4,800 (422)3,200 (562)5,600 (702)4,900 (842)2,500 3,685.7 (5)4,000 (145)4,500 (285)4,600 (425)3,600 (565)3,500 (707)4,500 (845)2,900 3,942.8 (25)3,000 (165)5,000 (305)4,000 (445)3,000 (585)4,700 (725)2,800 (865)5,o00 3,928.5 (62)5,000 (202)3,000 (342)2,500 (482)5,300 (622)5,900 (762)3,700 (902)3,800 4,171.4 (67)6,000 (207)2,500 (347)2,800 (487)3,500 (627)5,800 (767)2,900 (907)3,500 3,857.1 (80)4,500 (220)3,400 (365)3,200 (500)2,700 (640)3,000 (780)3,000 (920)4,900 3,528.5 (98)2,850 (238)5,500 (378)3,800 (518)2,900 (658)2,800 (798)5,700 (938)2,800 3,764.2 (122)3,500 (262)3,000 (402)3,500 (542)4,000 (682)3,700 (822)4,900 (962)4,500 3,871.4 (123)3,000 (263)4,100 (403)2,000 (543)3,500 (683)4,700 (823)3,000 (963)4,000 3,471.4 (135)3,900 (275)4,500 (415)2,700 (555)4,900 (695)2,800 (835)3,300 (975)4,500 3,757.1 Σ=37,978.5

() Es el número que corresponde al elemento de la población que será seleccionado en esa muestra, bajo la premisa de que todos los elementos de la población tienen una etiqueta. La estimación del total de ingresos que percibirá la compañía el año próximo la obtenemos con la ecuación (17) como se muestra a continuación,

857,797,310978,37*1000

=

=∧

sYτ

La varianza de esta estimación es la siguiente,

373,747,4390

04.47000,1

70000,1000,1)( 2

=

⎟⎠

⎞⎜⎝

⎛ −=

∧∧

sYV τ

Y el intervalo en donde se sitúa la estimación es el siguiente, ( )

( )052,811,3662,784,3373,747,4399.1857,797,3 ±

Lo que significa que la empresa percibirá ingresos de entre $3,784,662 y $3,811,052.

141

Page 163: TESIS MUESTREO Arana2003

COMENTARIOS

El muestreo sistemático puede ser una excelente alternativa para sustituir al simple aleatorio, y algunas veces es más preciso, pero esto depende de las características de la población a analizar, por lo que es necesario conocer algo sobre la estructura de la población.

El muestreo sistemático generalmente resulta más simple y barato al

momento de seleccionar la muestra.

El muestreo sistemático es preferible cuando la población está ordenada, ya

que tienes la seguridad de recorrer todos los elementos de la población y tener una muestra representativa de esta, pero si la muestra es aleatoria los resultados son equivalentes al muestreo simple aleatorio.

Debes tener cuidado al momento de tener una población periódica ya que

puede ocurrir que al elegir el tamaño de nuestra k, nuestras unidades muestrales siempre caigan en un lugar del ciclo y dejen la otra parte de este, por lo que nuestra población no sería representada por nuestra muestra.

Es importante hacer notar que tú puedes hacer un muestreo sistemático en

un diseño estratificado, de razón o por conglomerados.

142

Page 164: TESIS MUESTREO Arana2003

APÉNDICE II. Hoja de Cálculo

El texto cuenta con un disquete que tiene un archivo en Excel con 7 hojas de cálculo, cada una con el nombre del diseño de muestreo que contiene las fórmulas para calcular sus correspondientes estimadores.

Ej

143

En cada hoja se indican las instrucciones de uso para obtener los principales estimadores. Para ejemplificar este punto a continuación presentamos algunos ejemplos vistos en el capítulo, los cuales pueden variar por redondeo.

Es importante mencionar que estas hojas pueden usarse con diferente tipo de información, según sea conveniente.

Es recomendable copiar la hoja de cálculo y guardarla con otro nombre para evitar la pérdida de alguna fórmula.

emplo. Compañía de transportes

Page 165: TESIS MUESTREO Arana2003

En este ejemplo lo que nos interesa es estimar la media poblacional y los limites de confianza de esta, podrás observar que la hoja es prácticamente la misma que en muestreo simple aleatorio, la diferencia radica en la selección de la muestra.

144

Page 166: TESIS MUESTREO Arana2003

175 Conceptos Básicos de Estadística

APÍTULO 7

MUESTREO POR

CONGLOMERADOS EN UNA ETAPA

INTRODUCCIÓN

En tu estudio por el diseño de encuestas habrás notado que existen diferentes formas de estimar un parámetro y que el utilizar una u otra representa menor o mayor costo, precisión, facilidad de manejo y algunas veces resulta hasta absurdo intentar aplicar alguna de ellas en una población con ciertas características. Es por esto, que a continuación presentamos otro diseño de muestreo, el cual te proporcionará otras herramientas que seguramente te serán de utilidad.

También te habrás percatado que lo que en principio hace la diferencia entre los diseños de encuestas es la forma de definir nuestra unidad muestral. El muestreo por conglomerados a diferencia de los anteriores, presenta unidades muestrales en las que es sí, no haremos propiamente la medición y las cuales están constituidas por varios elementos, es en estos en los que haremos la medición. Este es el principio del diseño. Definición

Muestra por Conglomerados Se le denomina así a la muestra obtenida aleatoriamente (de la misma forma

que en el muestreo simple aleatorio) y a las unidades obtenidas les llamaremos conglomerados, los cuales son grupos o colecciones de elementos sobre los que se hará la medición o revisión de la característica de interés. Como sabemos, si deseamos hacer una selección aleatoria de elementos, debemos contar con el marco de muestreo, para después hacer el sorteo. Tal como hemos observado esto puede tornarse complicado o imposible y hacerlo representa un costo que se incrementa al tomar mediciones que se encuentran separadas entre sí por una gran distancia física. En el muestreo por conglomerados, este costo se reduce, ya que al levantar la información de elementos contiguos o muy cercanos entre sí se evita el gasto de traslado.

C

Page 167: TESIS MUESTREO Arana2003

¿Qué puede ser un conglomerado? Hasta aquí ya tendrás una idea general del diseño pero podrías estarte preguntando la forma de decidir qué características debe reunir nuestra unidad muestral o conglomerado. Así, por ejemplo, podemos tener el caso de una población que comprende un municipio y deseamos conocer cierto parámetro. Bajo esta situación podemos decidir que nuestros conglomerados sean manzanas, colonias o barrios. La decisión se toma de acuerdo a la precisión que deseas, por la información disponible, por los objetivos que necesitas cumplir o por cualquier criterio que sea de interés para el investigador. Si se tratara de un bosque podríamos elegir sitios de cierta superficie como conglomerados o en el caso de la evaluación nacional de salud, elegiríamos hospitales, etc. Una encuesta por conglomerados puede ser de cajas que contienen productos terminados. En este caso todos los conglomerados contienen el mismo número M de productos terminados o elementos, debido a la uniformidad del proceso de producción y empaque. Así pues diremos que los conglomerados son de tamaño homogéneo. Pero es evidente que casos con estas características no son los mas frecuentes y que en general encontraremos conglomerados de tamaños desiguales; es decir, las colonias no tienen el mismo número de habitantes, los sitios tampoco contendrán el mismo número de árboles, etc. Pero gracias a las técnicas de muestreo probabilístico no hay de que preocuparse pues cubren estas posibilidades. En el diseño de muestreo los conglomerados, estos se eligen aleatoriamente y lo que interesa son los elementos dentro de ellos; además todos estos elementos quedarán automáticamente seleccionados al elegir el conglomerado en la muestra, es decir, cada conglomerado elegido en la muestra será censado. Comparación con Muestreo Estratificado Quizá tengas la sensación de que el muestreo por conglomerados te recuerda al muestreo estratificado, pues también se trata de agrupaciones de elementos de la población, y aunque a primera vista podríamos asumirlo así, se trata en esencia de algo muy diferente. Esto radica en la forma de seleccionar la muestra, lo que se muestra claramente en el siguiente cuadro. Cuadro 1.Comparación Muestreo por Conglomerados vs Estratificado

Muestreo Estratificado Muestreo por Conglomerados 1. Generalmente nos da más precisión

en relación con muestreo simple aleatorio.

1. Generalmente nos da menos precisión en relación con muestreo simple aleatorio.

2. Para una mayor precisión los estratos deben contener elementos que sean lo más homogéneo posible entre ellos.

2. Para una mayor precisión los conglomerados deben contener elementos que sean lo más heterogéneo posible entre ellos.

3. Para una mayor precisión la diferencia entre estratos debe ser considerable.

3. Para una mayor precisión los conglomerados deben ser muy similares.

4. La varianza de la estimación de la media depende de la variabilidad de los valores dentro del estrato.

4. La varianza de la estimación de la media depende de la variabilidad que existe entre las medias de los conglomerados.

146

Page 168: TESIS MUESTREO Arana2003

147

Gráficamente la extracción de la muestra la veríamos como se muestra enseguida, Figura 1. Comparación gráfica de muestreo estratificado vs conglomerados.

Acerca del Tamaño del Conglomerado

Es importante hacer notar que mientras el conglomerado sea de un tamaño “moderado” o de tal naturaleza que las observaciones (observación j en el conglomerado i) puedan obtenerse con relativa facilidad. El esquema puede aplicarse sin mayores problemas; sin embargo, no es difícil imaginar situaciones tales en las que el conglomerado elegido es de tamaño o de naturaleza tal que el tratar de introducir un censo en él resulta ser una tarea irrealizable en términos prácticos. Por ejemplo, si los conglomerados elegidos son conjuntos de viviendas de 120 manzanas y dentro de ellas deben ser elegidos todos los niños menores de 6 años, el conjunto a censar sería demasiado grande, o si el conjunto fuera un archivero, existiendo dentro de él miles de hojas y fuera necesario calcular estimaciones a nivel de hoja; es razonable pensar que no es apropiado el esquema de muestreo por conglomerados en una etapa. Notación

Como te habrás dado cuenta, en este diseño de muestreo existen diferentes tipos de unidades, por esto, es importante contar con una notación para diferenciarlas, la cual será la siguiente. Unidades Primarias N Número de conglomerados en la población n Número de conglomerados seleccionados de una muestra simple

aleatoria

Extraemos una muestra aleatoria de cada

Extraemos una muestra aleatoria simple de

ijy

Page 169: TESIS MUESTREO Arana2003

Notación continuación… Unidades Secundarias Mi Número de elementos en el conglomerado, i = 1, 2, ..., N M Número de elementos en la población

∑=

=N

iiMM

1

M Tamaño promedio del conglomerado en la muestra

Total del conglomerado i,

j-ésima observación en el i-ésimo conglomerado.

Estimación de una Media y un Total Poblacional

Ya hemos hecho notar que el muestreo por conglomerados es ampliamente usado cuando el costo de muestrear unidades primarias es despreciable en relación con el censo de unidades secundarias. Pero te darás cuenta que la selección primaria de elementos que estarán en la muestra sigue el mismo procedimiento que en el muestreo simple aleatorio, por lo que los estimadores de la media µ y el total τ se obtienen de manera similar. Sin embargo, es importante que observes que los datos que nos proporciona el muestreo por conglomerados nos permiten obtener estimaciones a diferentes niveles de la población. Es decir, si se realiza una encuesta sobre sitios para estimar la cantidad de madera de los árboles en el sitio, las observaciones individuales son los volúmenes por árbol dentro del sitio,

iy

ijy

ijy iτ es el volumen total del sitio (para un conglomerado incluido en la muestra, pues se realiza la medición a todos los árboles del sitio), τ es el volumen total de la población y µ es el volumen promedio, por mencionar algunas estimaciones.

Es por esto que, antes de mostrarte los principales estimadores, te presentaremos algunos que seguramente te serán de utilidad y permitirán facilitarte el manejo de datos. Nivel Primario o Conglomerado (cantidades de población)

Total en la unidad primaria o conglomerado i,

Total de la Población

∑=

=iM

jiji yy

1

∑∑∑= ==

==N

i

M

jij

N

ii

i

yy1 11

τ

148

Page 170: TESIS MUESTREO Arana2003

149 Conceptos Básicos de Estadística

Nivel Secundario (cantidades de población) Media de la Población en la unidad primaria i

i

iM

j i

ijiD M

yMy

yi

== ∑=1

Page 171: TESIS MUESTREO Arana2003

Donde D simbolizará de aquí en adelante las unidades secundarias y recordamos que Mi se refiere a todas las unidades que contiene el conglomerado i. Pudiera darse el caso de que se seleccione solo una parte del conglomerado digamos Mi unidades lo cual nos lleva al diseño de muestreo que se presenta en el capítulo siguiente. Es evidente que si sustituyes N por n obtendrás la estimación de la media muestral para la unidad primaria i. A continuación se presentan los estimadores suponiendo que contamos con una muestra aleatoria de n conglomerados y que cada uno contiene Mi elementos.

Estimador de la Media Poblacional

=

== n

ii

n

ii

c

M

yy

1

1 …(1)

La varianza de este estimador es de gran utilidad al momento de querer conocer la dispersión de los datos y para saber la precisión de nuestra estimación. Esta se muestra en la siguiente expresión.

Varianza Estimada de cy

( )( )

11

2

2 −

−⎟⎠

⎞⎜⎝

⎛ −=

∑=

n

Myy

MNnnNyV

n

iici

c …(2)

Al conocer el estimador de la varianza de cy , estamos en posibilidad de

calcular su correspondiente intervalo de confianza, el que nos dará los límites en los que se encuentra nuestra estimación. La expresión que lo estima es la siguiente.

Intervalo de Confianza de cy

( ) ( )cnc yVty∧

−± 2,1 α …(3)

La varianza obtenida en la ecuación anterior es sesgada y puede ser mejor en cuanto n sea “grande” y el sesgo desaparecería si los tamaños de los conglomerados fuesen iguales. Ejemplo. Calidad de jeringas.

El departamento de calidad de una fábrica de jeringas desea hacer un estudio de calidad sobre la longitud de las jeringas que está produciendo una máquina con nueva tecnología; la longitud debe ser de 76mm pudiendo variar desde 74.5mm hasta 77.5mm. Podrás imaginarte que es muy importante que esta especificación se cumpla, ya que se trata de un producto que se usa directamente en seres humanos.

150

Page 172: TESIS MUESTREO Arana2003

Las jeringas están acomodadas en charolas de 1,000 piezas y un lote cuenta con 30 charolas. La unidad primaria en este caso es la charola y las unidades secundarias sobre las que haremos las mediciones son las jeringas, a continuación se muestran las mediciones que se hicieron sobre 3 de las charolas

Cuadro2. Longitud de jeringas. Conglomerado Μι Σ= mm) ijy (

Charola 1 1,000 75,996.29 Charola 2 1,000 75,991.28 Charola 3 1,000 75,994.98 Total 3,000 227,982.55

Para obtener la longitud promedio del lote de jeringas utilizamos la

ecuación (1) de la siguiente manera,

75.99000,3

55.982,227

=

=cy

Lo que significa que la longitud de las jeringas de ese lote es en promedio de 75.99mm. En cuanto a la varianza de esta estimación, la obtenemos con la ecuación (2).

( )( )( )( )

( ) ( )

000002.02

99.994,7598.994,7599.994,7528.996,75000,1330330 22

2

=

−++−⎟⎟⎠

⎞⎜⎜⎝

⎛ −=

∧ LcyV

Donde,

( )735.6

247.13

2

60

1 ==−∑

=iii Myy

El intervalo de 95% de confianza donde de encuentra nuestra estimación lo obtenemos con la ecuación (3) y es el siguiente,

( )( )76.0075.99,

000002.02054.699.75 ±

Lo que nos dice que nuestro lote está dentro de las especificaciones de longitud

requeridas. Como en los diseños de encuestas anteriores, el total de la población puede ser

conocido tan solo multiplicando la media que obtuvimos en la ecuación (1) por M que denota el número total de elementos en la población y el estimador es el siguiente,

Estimador del Total Poblacional

⎟⎟⎟⎟

⎜⎜⎜⎜

==

=

=∧

n

ii

n

ii

cc

M

yMyM

1

1τ …(4)

151

Page 173: TESIS MUESTREO Arana2003

La estimación de la varianza del total, te podrá dar idea acerca de la precisión que puedes obtener de tus estimaciones, a continuación aparece la expresión para su estimación.

Varianza Estimada de ∧

( )

11

2

2

−⎟⎠⎞

⎜⎝⎛ −

=⎟⎠⎞

⎜⎝⎛

∑=

∧∧

n

Myy

NnnNNV i

ici

n

…(5)

La expresión para calcular los límites de la estimación del total poblacional, se presenta a continuación.

Intervalo de Confianza para ∧

( ) ⎟⎠⎞

⎜⎝⎛± − cnc Vt ττ α 2,1

∧∧∧

…(6)

Ejemplo. Plantación forestal El dueño de una plantación forestal necesita estimar el volumen de madera en m3 que tiene su plantación, lo que ha pensado es hacer un muestreo por conglomerados, para esto divide la plantación en 600 sitios de los cuales muestrea todos los elementos de 60 de ellos, en este caso nuestras unidades primarias (los conglomerados) son los sitios y las unidades secundarias son los árboles. Cuadro 3. Metros cúbicos de madera por sitio. C Mi yi ( )ii Myy − C Mi yi ( )ii Myy − C Mi yI ( )ii Myy −

1 508 1,709 21 558 2,440 41 657 1,722 40,354 116,806 559,4782 302 1,075 3,605 22 598 2,005 59,136 42 653 2,653 39,116 3 693 3,087 232,122 23 532 2,057 3,202 43 667 3,092 340,980 4 598 1,729 270,326 24 599 2,562 95,866 44 608 2,153 17,801 5 459 1,497 52,182 25 607 1,853 184,711 45 548 1,883 31,427 6 695 2,725 12,461 26 609 2,698 166,849 46 657 1,650 672,735 7 476 2,143 124,747 27 640 3,066 435,639 47 506 2,266 132,251 8 675 2,945 165,864 28 659 1,948 280,884 48 499 2,478 362,374 9 432 1,355 72,390 29 589 1,942 74,202 49 449 2,151 214,077

10 567 2,267 18,143 30 674 2,413 14,654 50 543 1,851 36,359 11 657 2,724 64,548 31 508 1,870 1,625 51 558 1,309 623,307 12 650 2,537 8,633 32 302 987 21,922 52 598 1,881 134,888 13 667 3,284 602,485 33 693 3,258 425,698 53 532 2,324 104,934 14 598 2,370 14,876 34 598 2,700 203,836 54 599 2,766 264,419 15 548 2,026 1,220 35 459 1,750 570 55 607 2,142 19,751

152

Page 174: TESIS MUESTREO Arana2003

16 657 1,987 233,559 36 583 2,007 34,425 56 609 1,968 103,744 17 508 1,479 185,644 37 476 1,231 312,704 57 640 1,842 318,169 18 499 1,668 43,390 38 675 2,701 26,483 58 659 2,862 147,431 19 549 2,163 9,734 39 432 1,669 1,987 59 589 1,951 69,507 20 543 2,463 177,559 40 567 1,904 52,150 60 674 2,447 7,611

Σ= 34,491 129,685 9,047,553 C. Número del conglomerado

De aquí podemos estimar la media fácilmente con la ecuación (1) de la

siguiente manera,

76.3491,34

=⎠⎝

c

s indica que

685,129⎟⎞

⎜⎛

=y

El resultado anterior no el volumen de madera por unidad de muestreo secundaria es de 3.76 m3.

Para obtener el total de m3 de madera que hay en la plantación utilizamos la

ecuación (4) de la siguiente manera,

( )983,315,1

76.3000,350==

Lo que significa que en total la plantación cuenta con 1,315,983

=∧

cc yMτ

m3, Esto sabiendo que M=350,000, más adelante veremos el caso en el que

desconocemos a M. La varianza de la estimación del total poblacional la obtenemos con la

ecuación (5) y se muestra a continuación,

Donde,

( )348,153

59553,047,9

591 ===i

El intervalo de confianza con un 90% de confianziente manera,

60

−∑ ii Myy

a se construye con la ecuación (6) de la sigu

( )565,373,1402,258,1Lo que significa que nuestra estimación del vo

m3.

083,081,828001.2983,315,1 ±

lumen total de madera en la plantación, oscila entre 1,258,402 y 1,373,565

¿Qué pasa cuando desconozco el tamaño de la población M?

Con la información anterior, eres capaz de encontrar una media, un total, o una estimación del intervalo de confianza para el total poblacional, sin embargo, es importante que notes que para utilizar las expresiones dadas anteriormente debes conocer M, lo cual a veces no será un trabajo posible o resultará demasiado difícil,

153

Page 175: TESIS MUESTREO Arana2003

por lo que a continuación te proporcionaremos un estimador donde no es necesario el conocimiento de M.

Para esto, definiremos la siguiente expresión como el promedio de los totales de los conglomerados muestreados,

∑∑==

==i

ii

i ny

n 11ττ

El cual hereda la propiedad de insesgamiento, por lo que

nn 11

Nτ también es un estimador insesgado del total de la población. Es así como podemos obtener el siguiente estimador.

Estimador del Total Poblacional

∑=

==i

ic yn

N1

ττ ∧ nN …(7)

La varianza de este estimador nos indica la precisión del estimador, en este

caso es prácticamente igual a la de la ecuación (5) la diferencia radica en la utilización de τ en lugar de icMy .

Varianza Estimada de

( )( )

112

−⎟⎠⎞

⎜⎝⎛ −

=∑

=∧

n

y

NnnNNNV i

ii ττ

2n

…(8)

El intervalo de confianza para este estimador, es el que presentamos a

continuación el cual se construye de la manera habitual.

Intervalo de Confianza para∧

( ) ⎟⎠⎞

⎜⎝⎛± − cnc Vt ττ α 2,1

∧∧∧

…(9)

Ejemplo. Plantación forestal

Tomando el ejemplo anterior, sabemos que N= 600, aplicamos la ecuación (7),

( )

1,296,845

129,68560

=

=cτ

e en total existen 1,296,

600∧

Lo que quiere decir, qu 845m3 de madera en la plantación.

Donde,

154

Page 176: TESIS MUESTREO Arana2003

4.161,260

129,685==τ

La varianza y el intervalo de confianza los obtenemos con la ecuación (8) y (9) respectivamente, como se muestra a continuación,

( ) ( )( ) ( )

4.049,262,567,1

234,29060600606006002

=

⎟⎟⎠

⎞⎜⎜⎝

⎛ −=

τNV

Donde,

( )234,290

59789,123,17

59

60

1 ==−∑

=iiy τ

( )

( )062,376,1628,217,1049,26,567,1001.2845,296,1 ±

Lo que significa que nuestra estimación del volumen total de madera en la plantación, oscila entre 1,217,628 y 1,376,062m3.

Es importante notar que la estimación obtenida anteriormente y la que obtuvimos con el estimador cuando conocemos M, son muy congruentes.

Determinación del Tamaño de Muestra

Sabemos que la precisión de nuestro diseño de muestreo depende del tamaño de la muestra y del modo en que esté conformada. Así pues, en el diseño por conglomerados se busca exactamente la situación inversa al diseño estratificado ya que formaremos conglomerados que sean homogéneos entre ellos, pero que en su interior mantengan una marcada heterogeneidad. Es decir, que haya muchos valores por arriba de la media general y otros muchos por debajo de ella, de tal forma, el diseño resultará más preciso que una selección aleatoria de elementos o tan preciso como ella. Sin embargo algunas veces te encontrarás en el caso de que los conglomerados ya están definidos por algún esquema y no te sea posible construirlos de alguna forma que hiciera el diseño más eficiente, lo cual representa una desventaja en cuanto a precisión. Por otro lado, esta condición también puede representar una ventaja ya que al utilizar un muestreo por conglomerados, no requerimos de un marco de muestreo de elementos.

Notarás que a diferencia de los anteriores diseños, una muestra por conglomerados también será definida por el tamaño relativo de los conglomerados. Además recordarás que el tamaño del límite para el error de estimación depende fuertemente de la variación entre los totales de conglomerados, es así que confirmamos que para obtener límites pequeños de error de estimación debemos seleccionar conglomerados con la menor variación posible entre estos totales.

Supondremos el tamaño del conglomerado es fijo y nos interesa saber el número n de conglomerados a seleccionar. De la misma manera que en diseños anteriores, al no conocer o el tamaño promedio 2

cσM del conglomerado, la decisión del número de conglomerados necesarios para conseguir una cantidad específica de información concerniente a un parámetro poblacional se complica. Si este fuera el caso,

os los correspondientes estimadores de y usarem 2cσ M que podrían estar disponibles en encuestas

previas o en todo caso obtenerse al cabo de una encuesta piloto seleccionando una muestra preliminar

155

Page 177: TESIS MUESTREO Arana2003

digamos n’ y con esta información posteriormente hacer una estimación del tamaño de muestra n.

Entonces, procediendo de manera análoga a los diseños anteriores, igualamos ⎥⎦

⎤⎢⎣

⎡ ∧

− )(2,1 θα Vtn que

es el error asociado a nuestro estimador, a un límite de error de estimación que llamaremos B,

BVtn =⎥⎦

⎤⎢⎣

⎡ ∧

− )(2,1 θα

Donde representa el estimador del parámetro de nuestro interés.

De la expresión anterior despejamos n de la varianza hasta llegar a la siguiente ecuación,

θ

Tamaño Aproximado Requerido para Estimar µ

( ) ( )2

2,1

22

2

2

cn

c

tBMN

Nn

σ

σ

α

+=

…(10)

Dond es estimada por e 2cσ

( )1

12

−=

∑=

n

Myys

n

iii

c

Ejemplo. Calidad de Jeringas

Supongamos que el gerente de calidad de la fábrica de jeringas necesita obtener el tamaño de muestra necesario para tener un error de estimación de 0.005mm con un 95% de confiabilidad. Aplicando la fórmula (10) con los datos del cuadro (2) obtenemos lo siguiente,

( )( )

( )( )

71.7

7353.6620005.0100030

7353.630

2

22

=

+=n

Lo que significa que tenemos que muestrear 8 conglomerados, en este caso charolas, para tener un error de estimación de 0.005mm con un 95% de confiabilidad.

Para determinar el tamaño de muestra con base a cτ , se procede de forma similar a la anterior dado que )()( 2 yVMyMV = . Así que utilizando este resultado, es fácil llegar a la siguiente ecuación,

Tamaño Aproximado Requerido para Estimar τ usando cyM

156

Page 178: TESIS MUESTREO Arana2003

( )2

2,1

2

2

2

cn

c

tNB

Nn

σ

σ

α

+=

…(11)

Dond es estimada por e 2cσ

( )1

12

−=

∑=

n

Myys

n

iii

c

Ejemplo. Plantación forestal

Tomando el ejemplo del volumen de madera de la plantación forestal, para calcular el número de muestras necesarias para tener un error de estimación de 10,000m3, en este caso sabemos que N =600 y conocemos el tamaño de M.

( )( )

( )( )8.388

348,153001.2600

000,10348,153600

2

2

=

+=n

Es decir, necesitamos muestrear 389 sitios para tener un error de estimación de 10,000m3 con un 90% de confiabilidad.

Para el caso donde el tamaño poblacional M es desconocido, y usaste la

estimación ττ Nc =∧

, puedes utilizar la fórmula anterior simplemente cambiando

de 2cσ )( cyMV

por de2tσ )( τNV

, como se muestra a continuación,

Tamaño Aproximado Requerido para Estimar τ usando τN

( )2

2,1

2

2

2

tn

t

tNB

Nn

σ

σ

α

+=

…(12)

Dond es estimada por e 2tσ )( τNV

( )

112

−=

∑=

n

ys

n

iii

t

τ

Ejemplo. Plantación forestal (cuando desconocemos M)

Nuevamente tomemos el caso de la plantación forestal, pero suponiendo que no conocemos el tamaño de los conglomerados, para calcular el número de muestras necesarias para tener un error de estimación de 10,000m3 de madera, en este caso sabemos que N =600 pero desconocemos el tamaño de M.

157

Page 179: TESIS MUESTREO Arana2003

( )( )

( )( )2.466

234,290001.2600

000,10234,290600

2

2

=

+=n

Es decir, necesitamos muestrear 466 conglomerados para tener un error de estimación de 10,000m3 de madera con un 90% de confiabilidad. ¿Cómo estimar una proporción poblacional? La estimación de una característica G específica de la población muchas veces resulta el objeto de nuestra investigación, es decir, nos encontramos ante situaciones donde queremos conocer: cuál es la proporción de árboles que tienen cierta enfermedad, o la preferencia a cierto partido político, la aceptación a cierta norma ecológica?, etc. Por esto en esta sección introducimos los estimadores de proporción para un muestreo por conglomerados, en donde podrás notar que usamos la ecuación (1) que nos proporciona la media estimada, con la variante de que ahora reemplazamos por , con esta última definida como sigue,

Donde G es la característica de interés y,

iy ia

⎪⎩

⎪⎨

∈== ∑

=

Gysi

Gysiyya

ij

ij

n

iiji

i

01

⎩⎨⎧

=no0si1

yij

∑=

=n

iiji ya

1

Estimador de la Proporción Poblacional

=

=∧

= n

ii

n

ii

c

M

ap

1

1 …(13)

La estimación de la varianza de la proporción poblacional, te podrá dar idea acerca de la precisión que puedes obtener de tus estimaciones, a continuación aparece la expresión para su estimación.

Varianza estimada de

cp

1

1

2

2 −

⎟⎠⎞

⎜⎝⎛ −

⎟⎠

⎞⎜⎝

⎛ −=⎟

⎠⎞

⎜⎝⎛ ∑

=

∧∧

n

Mpa

MNnnNpV

n

iici

c …(14)

158

Page 180: TESIS MUESTREO Arana2003

159

La expresión para calcular los límites de la estimación de la proporción poblacional, se presenta a continuación.

Intervalo de Confianza para ∧

cp

( ) ⎟⎠⎞

⎜⎝⎛±

∧∧∧

cinc pVtp 2,1. α …(15)

La varianza obtenida en la ecuación anterior es sesgada y puede ser mejor en cuanto n sea “grande” y el sesgo desaparecería si los tamaños de los conglomerados fuesen iguales. Ejemplo. Prueba de producto

Cierta empresa desea realizar una prueba de sabor de un nuevo dulce para niños que quiere sacar al mercado. Para esto realiza una encuesta en una escuela primaria, la cual tiene 20 salones de clases y la empresa decide hacer un muestreo por conglomerados en una etapa seleccionando al azar 4 salones. Para hacer sobre ellos su prueba de sabor a cada alumno. El producto se da a probar y posteriormente pregunta al alumno si le gusto, calificando la respuesta sí con uno y la respuesta no con cero.

En este caso 6316.03

3

1

2

=⎟⎠⎞

⎜⎝⎛ −∑

=

iii Mpa

.

Cuadro 4. Prueba de producto. Conglomerado iM ∑

=

n

iia

1

Salón 1 17 9 Salón 2 25 13 Salón 3 20 11 Salón 4 18 11 Total 80 44

Con la ecuación (13) podemos calcular la proporción de personas a quienes les gustó el producto, como se muestra a continuación,

55.08044

=

=∧

cp

La varianza de esta estimación se calcula con la ecuación (14) como sigue,

( )( )( )( )

000315.0

6316.020420420

2

=

⎟⎟⎠

⎞⎜⎜⎝

⎛ −=⎟

⎠⎞

⎜⎝⎛ ∧∧

cpV

Por último un intervalo de confianza con un 90% de confiabilidad , lo obtenemos con la ecuación (15), se muestra a continuación,

( )( )6065.04934.0

000315.01824.35500.0 ±

Page 181: TESIS MUESTREO Arana2003

160

Lo que significa que con un 90% de confiabilidad nuestra estimación se encuentra entre 0.5 y 0.6.

La determinación del tamaño de muestra para una proporción poblacional de hace de manera análoga a la de ocasiones anteriores, con un límite de B unidades

para el error de estimación, reemplazando a iy por ia y a cy por ∧

cp .

Tamaño Aproximado Requerido para Estimar ∧

cp

( ) 2

,1

22

2

2

cn

c

tBMN

Nnσ

σ

α

+=

…(16)

Donde 2cσ es estimada por,

1)( 1

2

⎟⎠⎞

⎜⎝⎛ −

=∑

=

∧∧

n

mpasV

n

iii

c …(17)

Ejemplo. Prueba de producto

Tomando el ejemplo anterior, podemos calcular el número de muestras necesarias para obtener un error máximo de estimación de 0.05 con un 90% de confiabilidad, lo cual se muestra a continuación,

( )( )

( )( )

84.4

6316.01824.3

05.02020

6316.020

2

22

=

+=n

Es decir, necesitamos muestrear 5 salones para tener un error de estimación de 0.05. COMENTARIOS

Es importante recordar que en este diseño de muestreo las unidades muestrales son grupos de elementos.

El muestreo por conglomerados es recomendable cuando se desea minimizar el costo por unidad muestreada cuando.

Como en otros diseños de muestreo, el diseño por conglomerados puede ser una combinación con otros diseños por ejemplo en el estratificado.

Page 182: TESIS MUESTREO Arana2003

APÉNDICE II. Hoja de Cálculo

El texto cuenta con un disquete que tiene un archivo en Excel con 7 hojas de cálculo, cada una con el nombre del diseño de muestreo que contiene las fórmulas para calcular sus correspondientes estimadores.

Ej

161

En cada hoja se indican las instrucciones de uso para obtener los principales estimadores. Para ejemplificar este punto a continuación presentamos algunos ejemplos vistos en el capítulo, los cuales pueden variar por redondeo.

Es importante mencionar que estas hojas pueden usarse con diferente tipo de información, según sea conveniente.

Es recomendable copiar la hoja de cálculo y guardarla con otro nombre para evitar la pérdida de alguna fórmula.

emplo. Calidad de jeringas

Page 183: TESIS MUESTREO Arana2003

162

En este ejemplo se estimo la media poblacional y su correspondiente intervalo de confianza, el total estimado también se despliega en el cuadro anterior pero no en necesario para efectos prácticos.

APITULO 8

MUESTREO POR CONGLOMERADOS EN DOS ETAPAS

C

Page 184: TESIS MUESTREO Arana2003

163 Conceptos Básicos de Estadística

INTRODUCCIÓN

Como te imaginarás, el muestreo por conglomerados en dos etapas es en esencia muy parecido al de una etapa y también busca facilitar el manejo de los datos para reducir el costo de operación. Además te proporciona mas ideas que te podrán ayudar a decidir el diseño mas adecuado para medir el fenómeno en cuestión. La diferencia entre el muestreo por conglomerados de una y dos etapas, radica en la forma de seleccionar las unidades secundarias; la definición formal se muestra a continuación, Definición

Muestra por conglomerados en dos etapas La muestra por conglomerados en dos etapas, la obtenemos, 1. Eligiendo una muestra aleatoria simple de n unidades primarias de entre una

población de N (como en muestreo por conglomerados en una etapa). 2. Eligiendo una muestra aleatoria simple de unidades secundarias dentro de

cada unidad primaria muestreada.

En este muestreo encontramos dos principales ventajas, la primera es que no tenemos que hacer el proceso de aleatorización a cada elemento de la población, lo cual puede ahorrarnos una tarea muy complicada, en segundo lugar, si se trata de unidades que se encuentran geográficamente separadas, puede ahorrarnos costos en transportación para la toma de la muestra. Te estarás preguntando qué características debe tener nuestra unidad muestral o conglomerado. En general, este muestreo es muy útil cuando se trata de poblaciones con muchos elementos, como municipios, unidades habitacionales; en la industria puede resultar muy útil cuando necesitamos muestrear cientos de unidades que vienen empacadas en cajas para validar su calidad o cuando se trata de productos que tienen varios componentes. Por ejemplo, podrías enfrentarte a la situación de tener que saber la validez de las facturas que genera en toda la semana una empresa muy grande que realiza operaciones en todo el país. Como te imaginarás esto se tiene que hacer en el menor tiempo para reaccionar rápidamente a cualquier fraude, también al menor costo pues es un trabajo que se realiza semanalmente y que generalmente no presenta muchos riesgos. Con estas necesidades podríamos ejecutar un muestreo por conglomerados en dos etapas, tomando los paquetes de facturas como conglomerados, marcándolos por su hora de llegada a la agencia corporativa. Así seleccionaremos primero aleatoriamente los paquetes de facturas y posteriormente seleccionaremos aleatoriamente entre todas las facturas del paquete. Es importante tomar en cuenta que en este ejemplo no se necesita demasiado control sobre el proceso, pues según experiencias anteriores es poco probable cometer un fraude de este tipo, sin embargo es indispensable realizar esta inspección.

Page 185: TESIS MUESTREO Arana2003

164

Como ya mencionamos este diseño puede aplicarse en poblaciones muy grandes por ejemplo en el estudio de las hojas de un archivero, o los niños de cierta edad en un municipio, ya que la medición se hace sólo en los elementos que sean seleccionados al azar dentro de un conglomerado los cuales fueron casos destacados por razones obvias para aplicar el diseño de muestreo del capítulo anterior. Comparación con otros muestreos Podrás encontrar similitudes entre este muestreo, el estratificado y el conglomerado en una etapa, pues todos agrupan los datos de acuerdo a una

Page 186: TESIS MUESTREO Arana2003

165

característica semejante entre ellos, por ejemplo, el muestreo estratificado forma estratos que difieren notablemente entre ellos y dentro de cada estrato se obtiene una muestra aleatoria, en el caso del muestro por conglomerados en una etapa, se trata de obtener grupos de elementos muy similares entre ellos, los cuales son elegidos aleatoriamente para después muestrear todos los elementos del grupo o conglomerado, por último, el conglomerado en dos etapa usa el mismo principio que el de una, pero en lugar de elegir todos los elementos del conglomerado, se relaciona tan solo una muestra aleatoria. Diagrama 1. Comparación de muestreos por conglomerados.

Muestreo por Conglomerados en una Etapa

Muestreo por Conglomerados en dos Etapas

Población de N unidades primarias

Extraemos una muestra aleatoria simple de n

Población de N unidades primarias

Extraemos una muestra aleatoria simple de n

Analizamos todas las unidades secundarias en las

id d i i

Extraemos una muestra aleatoria simple de m id d d i l

Page 187: TESIS MUESTREO Arana2003

166

Notación Como te habrás dado cuenta, en este tipo de muestreo existen diferentes

tipos de unidades, por esto, es importante contar con una notación para diferente, la cual será la siguiente, Unidades Primarias N Número de conglomerados o unidades primarias en la población n Número de conglomerados seleccionados de una muestra simple

aleatoria

Unidades Secundarias:

iM Número de unidades secundarias en el conglomerado i

im Número de unidades secundarias seleccionadas en una muestra aleatoria del conglomerado i

∑=

=N

iiMM

1 Número de unidades secundarias en la población

NMM = Tamaño de conglomerado promedio en la población

∑=

=im

jij

ii y

my

1

1 Media muestral para el i-ésimo conglomerado

ijy j-ésima unidad secundaria en el i-ésimo conglomerado.

Estimación de una Media y un Total Poblacional

Recordemos que el muestreo por conglomerados en una etapa es usado cuando resulta menos costoso hacer un censo de unidades secundarias contiguas que hacer un muestro aleatorio sobre toda la población. La misma situación ocurre con el muestreo por conglomerados en dos etapas. Con la ventaja de hacer más económico el costo de muestrear, ya que en lugar de hacer un censo en cada unidad primaria o conglomerado, se toma una muestra aleatoria. Pero la selección de unidades primarias se hace como en el muestreo aleatorio simple por lo que la media µ y el total τ se obtienen de la misma manera que en el muestreo en una etapa. Esto sugiere en principio podemos usar el estimador de τ visto en el capítulo anterior que es un estimador insesgado.

∑=

=n

iiy

nN

Page 188: TESIS MUESTREO Arana2003

167

Procediendo como en casos anteriores, podemos estimar a µ, dividiendo la ecuación anterior entre M, la cual hereda la propiedad de estimador insesgado; sin embargo aún no podemos obtener el estimador en el muestreo en dos etapas, pues no conocemos los totales de los conglomerados iy . Sin embargo, esto no nos debe preocupar ya que estos pueden ser fácilmente estimados, sustituyéndolos por ii yM , el cual también es un estimador insesgado del total. A continuación se presentan los estimadores suponiendo que contamos con una muestra aleatoria de n conglomerados que contienen M Bi B elementos cada uno de ellos.

Estimador de la Media Poblacional

n

yM

MNy

n

iii

c

∑=⎟

⎠⎞

⎜⎝⎛= 1

2 …(1)

La varianza de este estimador es de gran utilidad al momento de querer conocer la dispersión de los datos y para saber la precisión de nuestra estimación. Esta se muestra en la siguiente expresión.

Estimador de la Varianza de cy 2

( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛ −+⎟

⎞⎜⎝

⎛⎟⎠⎞

⎜⎝⎛ −

= ∑=

i

i

i

iin

iibc m

sM

mMMMnN

sMnN

nNyV2

1

22

222

11 …(2)

Donde,

11

2

2

⎟⎠⎞

⎜⎝⎛ −

=∑

=

n

MyMs

n

iii

b

µ

( )ni

m

yys

i

m

jiij

i

i

K,2,11

1

2

2 =−

−=

∑=

Al conocer el estimador de la varianza de cy2 , estamos en posibilidad de

calcular su correspondiente intervalo de confianza, el que nos dará los límites en los que se encuentra nuestra estimación. La expresión que lo estima es la siguiente.

Intervalo de Confianza para cy 2

( ) ( )cnc yVty 22,12

−± α …(3) Como hicimos en muestreo simple aleatorio, podemos obtener un estimador

insesgado, multiplicando el estimador insesgado de la media poblacional obtenido en la ecuación (1) por el número de elementos en la población.

Page 189: TESIS MUESTREO Arana2003

168

Ejemplo. Investigación de productividad de maíz.

Un centro de investigación desea saber la cantidad de maíz que produce una planta de una nueva variedad con la que están experimentando. Para esto cuentan con 40 campos donde plantaron la nueva variedad en una melga de experimentación que mide 1m X 100m, donde las semillas se plantaron a una distancia de 1m una de otra. Han decido que aplicarán un muestreo por conglomerados en dos etapas. En este caso se seleccionaron al azar 15 unidades primarias (que son las melgas donde cultivan la nueva variedad de maíz) y también al azar las unidades secundarias sobre las que se hará la observación (las plantas que están dentro de las melgas). Hay que tomar en cuenta que aunque se sembraron 8,000 semillas, no todas llegaron a desarrollarse y que en general se toma un 8% de mortandad por lo que M=7,200 plantas.

Diagrama 2. Diseño de plantación en una melga Después de hacer las mediciones, contamos con los siguientes datos,

1m

100m

1m

.

.

.

100m

Page 190: TESIS MUESTREO Arana2003

169

Cuadro 1. Investigación de productividad de maíz Conglomerado MBiB mBiB

iy (kg) ii yM 2is 2

bs (*)

1 194 16 9.45 0.590 114.55 0.00266 134.185 5.740 2 200 16 9.75 0.610 121.90 0.00329 358.579 7.565 3 175 14 7.47 0.533 93.33 0.00279 92.838 5.610 4 163 13 6.44 0.495 80.72 0.00299 494.829 5.620 5 181 14 7.73 0.552 99.98 0.00249 8.926 5.378 6 171 14 7.33 0.524 89.57 0.00269 179.483 5.154 7 197 16 9.68 0.605 119.13 0.00239 261.454 5.321 8 186 15 8.50 0.567 105.40 0.00259 5.912 5.487 9 175 14 7.47 0.533 93.33 0.00399 92.838 8.024

10 192 15 8.79 0.586 112.45 0.00318 90.033 7.196 11 174 14 7.47 0.533 92.80 0.00284 103.400 5.646 12 173 14 7.40 0.529 91.44 0.00332 132.842 6.527 13 185 15 8.50 0.567 104.83 0.00289 3.477 6.054 14 187 15 8.57 0.571 106.85 0.00239 15.121 5.119 15 197 16 9.60 0.600 118.20 0.00254 231.996 5.658

Suma 2,750 221 1,544.53 2,205.913 90.099 Promedio 183.33

En base a los datos de la tabla anterior y aplicando la ecuación (1) obtenemos el estimador del promedio,

572.015

53.544,1200,740

2

=

⎟⎠

⎞⎜⎝

⎛=cy

Lo que significa que el promedio de granos de maíz por planta es de 0.56192kg.

La obtención de la varianza la calculamos con la ecuación (2), de la siguiente manera,

( )( )( ) ( )( )( )

( )

000207265.01063423.4000207265.0

099.901804015

114

9.205,2180401

401540

6

222

=×+=

+⎟⎠⎞

⎜⎝⎛

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎠⎞

⎜⎝⎛ −

=

cyV

Donde (*) es ⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛ −∑= i

i

i

iin

ii m

sM

mMM2

1

2

Finalmente el intervalo de confianza con un 90% de confiabilidad es el

siguiente, ( )

( )6029.05412.0000207265.014478.2572047.0 ±

Como en los diseños de encuestas anteriores, el total de la población puede ser conocido tan solo multiplicando la media que obtuvimos en la ecuación (1)

Page 191: TESIS MUESTREO Arana2003

170

por M que denota el número total de elementos en la población y el estimador es el siguiente,

Estimador del Total Poblacional

⎟⎟⎟⎟

⎜⎜⎜⎜

==∑

=∧

n

yMNyM

n

iii

cc1

22τ …(4)

La estimación de la varianza del total, te podrá dar idea acerca de la precisión que puedes obtener de tus estimaciones, a continuación aparece la expresión para su estimación.

Varianza Estimada de ∧

c2τ

( )

∑=

∧∧∧

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛ −+⎟⎟

⎞⎜⎜⎝

⎛⎟⎠⎞

⎜⎝⎛ −

=

=⎟⎠⎞

⎜⎝⎛

n

i i

i

i

iiib

c

ms

MmMM

nNs

nN

NnN

yVMV

1

222

2

22τ

…(5)

La expresión para calcular los límites de la estimación del total poblacional, se presenta a continuación.

Intervalo de Confianza para ∧

c2τ

( ) ⎟⎠⎞

⎜⎝⎛±

∧∧

cnc Vt 22,12 ττ α …(6)

Ejemplo. Productividad de maíz.

Ahora el mismo centro de investigación del ejemplo anterior quisiera saber cuál es la cantidad total de maíz cosechado en todos sus centros de investigación.

( )

( )( )74.118,4

97.1024015

53.544,1402

==

⎟⎠⎞

⎜⎝⎛=

La cantidad total de maíz cosechada en las 40 melgas de los centros de investigación es de 4.12 toneladas. Lo que nos indica que en 1Ha la producción sería aproximadamente de 10.29 Ton lo que es una muy buena productividad, por lo que esta variedad sería ampliamente recomendada.

Page 192: TESIS MUESTREO Arana2003

171

La varianza de esta estimación la calculamos multiplicando la varianza de la estimación de la media por el número de unidades secundarias al cuadrado.

( ) [ ]

6.744,10

000207265.0200,7 2

=

=⎟⎠⎞

⎜⎝⎛ ∧∧

τV

El intervalo de confianza con un 90% de confiabilidad es el siguiente,

( )( )06.341,442.896,3

6.744,101447.274.118,4 ±

Lo que significa que la estimación de la producción de maíz en las melgas de investigación puede variar entre 3.9 Ton y 4.3 Ton.

¿Qué pasa cuando desconozco el tamaño de la población?

Con las ecuaciones anteriores debes conocer el total poblacional para poder aplicar las ecuaciones. Sin embargo, esto puede resultar complicado si desconocemos el total de elementos en la población M. Afortunadamente el valor de M puede ser fácilmente estimado con la siguiente expresión,

NMM =

Ahora bien, si reemplazamos M por ∧

M en la ecuación (1), obtenemos un estimador que tiene características de un estimador de razón. De aquí que exista la estrategia de estimación con un estimador de razón para los parámetros deseados. A continuación se muestran los estimadores,

Estimador de Razón de la Media Poblacional

=

== n

ii

n

iii

r

M

yMy

1

12 …(7)

La estimación de la varianza de la razón poblacional, te podrá dar idea acerca de la precisión que puedes obtener de tus estimaciones, a continuación aparece la expresión para su estimación.

Page 193: TESIS MUESTREO Arana2003

172

Varianza Estimada de ry 2

( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛ −+⎟

⎞⎜⎝

⎛⎟⎠⎞

⎜⎝⎛ −

= ∑=

i

i

i

iin

iirr m

sM

mMMMnN

sMnN

nNyV2

1

22

222

11 …(8)

Donde,

( )1

1

22

2

2

−=

∑=

n

yyMs

n

icii

r ( )

nim

yys

i

m

jiij

i

i

K,2,11

1

2

2 =−

−=

∑=

La expresión para calcular los límites de la estimación de la razón

poblacional, se presenta a continuación.

Intervalo de Confianza para ry 2

( ) ( )rnr yVty 22,12

−± α …(9) Ejemplo. Contenido de humedad

El gerente de recepción de materias primas de una empresa de alimentos, necesita saber la cantidad de humedad del maíz que está comprando ya que de esto depende la calidad del producto final. El gerente recibe varios embarques al día de diferentes proveedores y la mecánica consiste en determinar rápidamente si el embarque es recomendable después de analizar algunos de sus componentes en el laboratorio para decidir aceptar o rechazar el embarque de maíz, tomando en cuenta que la especificación indica que la humedad del maíz no debe ser menor de 55% y no debe ser mayor de 65%. De ser aceptado se meterá a producción inmediatamente, de otra manera se regresará todo el embarque al proveedor. Hay que tomar en cuenta que se les ha pedido a todos los proveedores que los embarques lleguen en sacos de 50Kg cada uno, y la política de la empresa es analizar el 7% del embarque pues se cree que esta medida es suficiente para asegurar la calidad de todo el embarque.

El embarque que debe ser sometido a prueba ya está en la entrada del almacén de materias primas. Según la remisión del chofer, él transportó 150 sacos de maíz; ahora es necesario determinar si el embarque es aceptado o rechazado.

Parece evidente que la forma más sencilla de seleccionar la muestra que será sometida a pruebas en el laboratorio debe ser sistemática pues agiliza la selección y cubre toda la población. Si este fuese el caso, el valor de k se determinaría como sigue,

1510150

==k

Donde 10 representa aproximadamente el 7% de 150.

Page 194: TESIS MUESTREO Arana2003

173

Sin embargo para este ejemplo supondremos una selección aleatoria, al final del capítulo hablaremos de las variantes de este diseño.

Después de seleccionar aleatoriamente los sacos y analizarlos en el laboratorio tenemos lo siguientes datos,

Cuadro 2 . Contenido de humedad. Conglomerado

Saco iM im iy 2is ii yM 2

rs (*)

1 250 22 61.238 59.248 15,310 15,797 153,507 2 245 26 60.095 36.462 14,723 162,546 75,244 3 234 22 62.381 46.452 14,597 22,437 104,744 4 200 22 61.048 46.038 12,210 19,222 74,498 5 234 22 63.900 18.648 14,953 255,273 42,049 6 270 24 59.333 26.029 16,020 422,532 72,035 7 245 24 62.982 65.847 15,431 92,490 148,553 8 230 24 66.607 157.705 15,320 1,252,724 311,336 9 255 28 56.639 48.919 14,443 1,692,589 101,132

10 260 30 63.818 89.627 16,593 291,720 178,656 Suma 2,423 244 149,598 4,227,328 1,261,754

Donde, iM Número de mazorcas en el saco

im Número de mazorcas seleccionadas para hacer la medición de humedad

iy Promedio de la humedad que tienen las mazorcas del i-ésimo conglomerado. 2is Varianza de la humedad que tienen las mazorcas del i-ésimo conglomerado.

(*) Es ⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛ −∑= i

i

i

iin

ii m

sM

mMM2

1

2

El porcentaje de contenido de humedad en el embarque de maíz lo podemos calcular con la ecuación (7) de la siguiente manera,

7408.61423,2

149,5982

=

=ry

La varianza es la siguiente,

( )( )( ) ( )( )( )

( )

7610.00143.07467.0

191,261,754. 3.24215010

19

328,227,43.24210

1150

10150222

=+=

+⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎠⎞

⎜⎝⎛ −

=∧

ryV

Donde M la estimamos como sigue,

3.24210423,2

=

=M

Y el intervalo de confianza con un 95% de confiabilidad es el siguiente, ( )

( )0832.643985.597610.06850.27408.61 ±

Page 195: TESIS MUESTREO Arana2003

174

Lo que significa que el contenido de humedad del maíz de ese embarque se encuentra entre 59% y 64%, lo que significa que el embarque puede ser aceptado ya que cumple con las especificaciones de calidad.

Page 196: TESIS MUESTREO Arana2003

175

Determinación del Tamaño de la Muestra Debes tomar en cuenta que las organizaciones privadas o gubernamentales que desean hacer una

encuesta a gran escala están muy interesadas en que los resultados sean confiables, ya que son decisiones muy importantes las que se tomarán con estos resultados y una inversión económica muy considerable la que destinarán.

Así que al diseñar una encuesta por conglomerados, debes resolver algunos puntos como, • La precisión global necesaria • El número de unidades primarias que debemos seleccionar • El número de unidades secundarias que debes seleccionar por cada unidad primaria

La precisión necesaria y el tamaño que deben tener las unidades primarias, son cuestiones que hemos resuelto en los diseños anteriores, por lo que es el número de unidades primarias y secundarias es lo que nos ocupará a continuación y estas dependerán una de otra.

Los valores que buscaremos son n y el de todas las mBi, By la mejor selección de estos valores depende de dos fuentes de variación, la que existe dentro de los conglomerados y la que hay entre ellos. Como lo mencionamos anteriormente la determinación del número de conglomerados y del número de elementos dentro de ellos son variables dependientes, y la decisión se tomará con base a la fuente de mayor variación, por ejemplo, si las medias entre conglomerados varían mucho unas de otras y sus mediciones son homogéneas, entonces seleccionaremos muchos conglomerados de pocos elementos, pero si las mediciones varían de manera considerable entre ellas y las medias entre conglomerados son homogéneas, entonces muestreamos pocos conglomerados con muchas mediciones en cada uno de ellos.

Considera que,

=2bσ varianza entre las medias de conglomerados

=2wσ varianza entre los elementos dentro de los conglomerados

Y que el costo total por muestrear está dado por,

21 nmccC += Donde, cB1B: Costo de muestrear cada unidad primaria cB2B: Costo de muestrear cada unidad secundaria Bajo estos supuestos, el valor de m que minimiza la varianza con un costo fijo, está dada por la siguiente ecuación,

Tamaño de m aproximado requerido para estimar µ

22

12

ccm

b

w

σσ

= …(10)

Donde 2wσ es estimada por,

∑=

=n

iiw s

ns

1

22 1

Donde 2bσ es estimada por,

msy

ns w

n

iib

2

1

2

11

−⎥⎦

⎤⎢⎣

⎡⎟⎠⎞

⎜⎝⎛ −

−= ∑

=

µ

Donde ∧

µ es estimada por, cy2

Page 197: TESIS MUESTREO Arana2003

Para conocer el número de unidades primarias que minimizarán la varianza, utilizarás la siguiente expresión.

Tamaño de n aproximado requerido para estimar µ

⎟⎟⎠

⎞⎜⎜⎝

⎛+=

mn w

bc

22

2

1 σσσ

…(11)

Donde 22cσ es estimada por )( 2cyV

Ejemplo. Humedad del maíz

Utilizando el ejemplo del contenido de humedad podemos calcular el tamaño de muestra que minimiza la varianza como sigue,

( )

89.8

1052.7

10/595

=

=m

Lo que significa que debemos muestrear 9 unidades primarias de cada conglomerado seleccionado.

Donde,

( ) ( )[ ]52.7

2245.5974.6182.6374.6123.61

91 222

=

−−++−= Lbs

Y el número total de conglomerados es el siguiente,

20.10224

5.5952.77610.01

=

⎟⎠⎞

⎜⎝⎛ +=n

Por lo tanto, debemos muestrear 11 conglomerados o sacos de maíz para asegurar la calidad requerida.

APÉNDICE II. Hoja de Cálculo

El texto cuenta con un disquete que tiene un archivo en Excel con 7 hojas de cálculo, cada una con el nombre del diseño de muestreo que contiene las fórmulas para calcular sus correspondientes estimadores.

176

En cada hoja se indican las instrucciones de uso para obtener los principales estimadores. Para ejemplificar este punto a continuación presentamos algunos ejemplos vistos en el capítulo, los cuales pueden variar por redondeo.

Page 198: TESIS MUESTREO Arana2003

177

Es importante mencionar que estas hojas pueden usarse con diferente tipo de información, según sea conveniente.

Es recomendable copiar la hoja de cálculo y guardarla con otro nombre para evitar la pérdida de alguna fórmula.

Ejemplo. Contenido de humedad

Page 199: TESIS MUESTREO Arana2003

178

Este ejemplo busca estimar la media poblacional con sus correspondientes intervalos de confianza. También puedes estimar el tamaño de unidades a muestrear para tener determinado error de estimación tomando en cuenta el costo por muestrear.

BIBLIOGRAFÍA AZORIN, F.1967. Curso de Muestreo y Aplicaciones. Ed. Aguilar. Madrid.

COCHRAN, W.1980. Técnicas de Muestreo. Ed. Compañía Editorial Continental. Harvard University

GONICK, L. and SMITH, W. 1993. The Cartoon Guide os Statistics.De. Harper Perennial.USA.

HANSEN, M.,HURWITS, W. and MADOW, W. 1953. Sample Survey

Methods and Theory. Ed. John Wiley & Sons. Canada. Vol 1. HANSEN, M.,HURWITS, W. y MADOW, W. 1953. Sample Survey Methods

and Theory. Ed. John Wiley & Sons. Canada. Vol 2. INFANTE, S. y ZÁRATE G. 1988. Métodos Estadísticos. Ed. Trillas. México.

D.F. KISH, Leslie. 1975. Muestreo de Encuestas. Ed. Trillas. México D.F. LOHR, S.2000.Muestreo. Diseño y Análisis, Ed. International Thomson.

Arizona. SCHREUDER, H., GREGOIRE, T. y WOOD, G. 1993. Sampling Methods for

Multiresource Forest Inventory. Ed. John Wiley &Sons. Canada. SHIVER, B. and BORDERS, B. 1996. Sampling Technics for Forest Resource

Inventory. Ed. John Wiley & Sons. Georgia. SUKHAME, P. and SUKHAME, B. 1954. Sampling Theory of Surveys with

Applications. Iowa Sate University. USA. THOMPSON, S.1992. Sampling. Ed. John Wiley & Sons. Pennsylvania.

Page 200: TESIS MUESTREO Arana2003

179

WOODROOFE, M. 2000. Probabilidad con aplicaciones.Universidad de

Michigan. México.

YAMANE, Taro. 1967. Elementary Sampling Theory. Ed. Pretice-Hall.New York University.