MÓDULO AUTOINSTRUCTIVO DE
APRENDIZAJE
MÉTODOS ESTADÍSTICOS
PROGRAMA DE FORMACIÓN GENERAL
EQUIPO DE MÉTODOS ESTADÍSTICOS
2012I
Métodos estadísticos
UCV – Lima este Página 2
ÍNDICE
INTRODUCCIÓN
INSTRUCCIONES PARA EL USO DEL MANUAL
ESQUEMA GENERAL DE CONTENIDO
PRIMERA UNIDAD: Estadística descriptiva
1. ESTADÍSTICA, VARIABLE Y ESCALA DE MEDICIÓN……………………………06
2. INVESTIGACIÓN ESTADÍSTICA, RECOLECCIÓN DE DATOS Y ORGANIZACIÓN
Y PRESENTACIÓN DE DATOS………................................................................19
3. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS CUANTITATIVOS…………...24
4. MEDIDAS DE TENDENCIA CENTRAL…………………………............................48
5. MEDIDAS DE DISPERSIÓN………………………………………………………...…61
SEGUNDA UNIDAD: Probabilidades e inferencia
6. PROBABILIDAD BÁSICA………………………………………………….…………..69
7. DISTRIBUCIONES IMPORTANTES……………………………………………..……81
8. TEORÍA DE MUESTREO……………………………………………………………...95
9. ESTIMACIÓN DE PARÁMETROS…………………………………………………..109
TERCERA UNIDAD: Estadística inferencial
10. PRUEBA DE HIPÓTESIS……………………………………………………………. 116
11. ANÁLISIS DE VARIANZA ………………………………………………………….. 147
12. REGRESIÓN LINEAL ………………………………………………………………. 153
Métodos estadísticos
UCV – Lima este Página 3
INTRODUCCIÓN
El presente módulo ha sido concebido como un material de consulta para el
estudiante de la asignatura de Métodos estadísticos.
El propósito de este producto es la exposición de información acerca de teoría
estadística que le permita calcular indicadores que conlleven a tomar una decisión.
El desarrollo de los temas se realizó en torno a las sesiones comprendidas en el
sílabo del curso, considerando de manera pertinente, un nivel de complejidad
creciente, sobr4e todo en los aspectos prácticos de cada tema.
Además, cada capítulo tiene presenta una introducción, donde se explica, de
manera general, los objetivos del temas; luego abarca el desarrollo del contenido y
finalmente se plantean los ejemplos y problemas de aplicación práctica resueltas.
En cuanto a la organización y presentación del contenido, el módulo se
conforma de la siguiente manera: en la sesión uno se estudian los concepto de
estadística, variable y escala de medición; en la sesión dos, investigación estadística,
recolección de datos y la representación de una variable cualitativa con su respectiva
gráfica; en la sesión tres, la organización y presentación de datos para variable
cuantitativa; en la sesión cuatro, la medida de tendencia central; en la sesión cinco,
la medida de dispersión; en la sesión seis, la probabilidad básica; en la sesión siete,
distribuciones importantes; en la sesión ocho, teoría de muestreo; en la sesión nueve,
estimación de parámetro; en la sesión 10, prueba de hipótesis; en la sesión 11, prueba
chi cuadrado; en la sesión 12, análisis de varianza y en la sesión 13, análisis de
regresión.
Finalmente, los docentes de la experiencia curricular Métodos estadísticos
esperamos que este módulo autoinstructivo de aprendizaje cumpla con su propósito y
sea de gran importancia y beneficio para el estudiante.
Métodos estadísticos
UCV – Lima este Página 4
INSTRUCCIONES PARA EL USO
DEL TEXTO AUTOINSTRUCTIVO
Estimado estudiante:
El material que le presentamos ha sido elaborado exclusivamente para usted
considerando que es un método alternativo de enseñanza-aprendizaje orientado a
lograr las capacidades de esta experiencia curricular. Por ello, le solicitamos que
tenga en cuenta las siguientes sugerencias para su tratamiento:
1. Evite su reproducción parcial o total del texto como muestra de su respeto a
la propiedad intelectual.
2. Lea con atención y aplique las técnicas de procesamiento de información a
fin de lograr la comprensión del tema.
3. Realice las actividades como se indican.
4. Utilice, de preferencia, lápiz para evitar borrones y trabajar con limpieza.
5. Realice todos los ejercicios propuestos, porque son importantes para su
aprendizaje.
Métodos estadísticos
UCV – Lima este Página 5
ESQUEMA GENERAL DEL CONTENIDO
ESTADÍSTICA,
VARIABLE Y
ESCALA DE
MEDICIÓN
INVESTIGACIÓN
ESTADÍSTICA,
RECOLECCIÓN
Y
ORGANIZACIÓN
Y
PRESENTACIÓN
DE DATOS
PRESENTACIÓN
DE DATOS
ORGANIZACIÓN
Y
PRESENTACIÓN
DE DATOS
CUANTITATIVOS
MEDIDAS DE
TENDENCIA
CENTRAL
MEDIDAS DE
DISPERSIÓN
MÉTODO ESTADÍSTICO
ESTADÍSTICA
DESCRIPTIVA
PROBABILIDADES
E INFERENCIA
DISTRIBUCIONES
IMPORTANTES
ESTIMACIÓN DE
PARÁMETROS
TEORÍA DE
MUESTREO
PROBABILIDAD
BÁSICA
PRUEBA DE
HIPÓTESIS
ANÁLISIS DE
VARIANZA
ESTADÍSTICA
INFERENCIAL
APLICADA
REGRESIÓN
LINEAL
Métodos estadísticos
UCV – Lima este Página 6
UNIDAD DIDÁCTICA 1: ESTADÍSTICA DESCRIPTIVA
Capacidad: Aplica los conceptos básicos de la estadística orientados a la
Investigación.
ESTADÍSTICA, VARIABLE Y ESCALA DE MEDICIÓN
CONSIDERACIONES GENERALES
1. INTRODUCCIÓN
Cuando se habla de estadística, se suele pensar
en una relación de datos numéricos presentada de
forma ordenada y sistemática. Esta idea es la
consecuencia del concepto popular que existe sobre
el término y que cada vez está más extendido debido
a la influencia de nuestro entorno, ya que en estos
días es casi imposible que cualquier medio de
difusión, periódico, radio, televisión, etc. Nos aborde diariamente con cualquier tipo
de información estadística sobre accidentes de tránsito, índices de crecimiento de
población, turismo, tendencias políticas, etc.
Solo cuando entramos en un mundo más específico como es el campo de la
investigación de las Ciencias Sociales (Medicina, Biología, Psicología) empezamos a
percibir que la Estadística se convierte en la única herramienta que permite obtener
resultados, y por tanto, beneficios en cualquier tipo de estudio, cuyos movimientos y
relaciones, por su variabilidad, no puedan ser abordadas desde la perspectiva de las
leyes deterministas.
Podríamos, desde un punto de vista más amplio, definir la estadística como la
ciencia que estudia cómo debe emplearse la información y cómo dar una guía de
acción en situaciones prácticas.
2. ORIGEN ETIMOLÓGICO
Palabra griega STATERA Balanza
Palabra latín STATUS Situación
Palabra alemán STAAT Estado
Métodos estadísticos
UCV – Lima este Página 7
3. HISTORIA
Los orígenes de la estadística aunque son aún desconocidos y no se sabe con
exactitud cuándo se comenzó a utilizar, la historia refleja que su usó es muy antiguo
para el conteo de combatientes, para los impuestos, defunciones, estudio de recursos
naturales, pero fueron los romanos, maestros de la organización política, quienes
mejor supieron ocupar la estadística, cada cinco años realizaban un censo de la
población, cuyos datos de nacimientos, defunciones y matrimonios eran esenciales
para estudiar los avances del imperio y los recuentos de ganancias y las riquezas que
dejaban las tierras. Su uso soportó las funciones tradicionales del gobierno central y
del Estado, como llevar registros sobre la situación de la población: número de
habitantes, número de nacimientos, número de defunciones, producción, impuestos y
otros hechos contables y de control.
Seguidamente los hechos más saltantes:
Egipcios Datos de Administración Estatal
Roma Registros tributarios Empadronamiento (Año 0)
Árabes Censo Estadísticas sistematizadas (Edad Media)
El Clero Recopilación, ordenamiento y estudio de datos demográficos
Reyes Católicos Censo (siglo XVI) Censo del Marqués de la Ensenada 1748
Indias de Sevilla Estadísticas Económicas
Imperio Incaico Registros demográficos y socio económicos mediante los Quipus
Alemania Primera cátedra de Estadística
4. ETAPAS DE LA ESTADÍSTICA
Escuela Alemana. Permitió la primera cátedra de estadística descriptiva con un
enfoque de estado o administración.
Escuela Inglesa. Cuantificó las leyes de los fenómenos sociales o políticos y
aritméticos a la Estadística.
Escuela Francesa. Introduce la teoría de las probabilidades.
5. PERSONAJES NOTABLES EN LA HISTORIA DE LA ESTADÍSTICA:
Quetelet, estadístico Belga, aplicó estadística a la investigación de problemas
sociales y educativos.
Walker atribuye a Quetelet el desarrollo de la teoría estadística como método de
investigación general en todas las ciencias de la observación.
Francis Flton, ejerció mayor influencia en la introducción y empleo de la
estadística en las ciencias sociales.
Pearson, matemático, colaboró con Galton en el desarrollo de fórmulas de
correlación y regresión.
James Mc Keen Cattel, profundizó la Estadística con Galton y otros estadísticos.
Thorndike, aplicó métodos estadísticos en la psicología y en la educación.
R.A. Fisher, inglés que introdujo nuevas técnicas y métodos en el estudio de
muestras.
Métodos estadísticos
UCV – Lima este Página 8
Godofredo Achenwall, fue el primer gran teórico de la Estadística en lengua
alemana y dio el nombre de Estadística (status).
Blas Pascal, Escuela Probabilística.
Francisco Galton y Karl Pearson, con la regresión y correlación
6. CULTURA ESTADÍSTICA
Refiere a dos componentes interrelacionados:
a) Capacidad para interpretar y evaluar críticamente la información estadística, los
argumentos apoyados en datos que las personas pueden encontrar en diversos
contextos, incluyendo los medios de comunicación, pero no limitándose a ellos.
b) Capacidad para discutir o comunicar sus opiniones respecto a tales
informaciones estadísticas cuando sea relevante”
7. DEFINICIÓN
La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar,
resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e
incertidumbre sea una causa de los mismos; así como de realizar inferencias a partir
de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular
predicciones.
La estadística se clasifica en estadística descriptiva y en estadística inferencial.
Se denomina Estadística Descriptiva al conjunto de métodos estadísticos
que se relacionan con el resumen y descripción de los datos, como tablas,
gráficas y el análisis mediante algunos cálculos.
Se denomina Inferencia Estadística al conjunto de métodos con los que
hacen la generalizaciones o la inferencia sobre una población utilizando una
muestra. La inferencia puede contener conclusiones que pueden no ser ciertas
en forma absoluta, por lo que es necesario que estas sean dadas con una
medida de confiabilidad conocida como probabilidad.
8. ¿POR QUÉ ESTUDIAR ESTADÍSTICA?
La estadística, como la matemática, constituye uno de los idiomas
esenciales para comunicarse en el mundo universal de la ciencia y la
tecnología. La estadística permite comprender con mayor facilidad la
bibliografía especializada. La mayoría de los libros, estudios e investigaciones
especializada en economía, educación, sociología, medicina, psicología, etc.,
contienen resultados basados en el análisis estadístico.
Sin lugar a dudas, aquellos profesionales que no conozcan estadística tendrán
serias dificultades para ser expertos en sus respectivos campo científico.
Métodos estadísticos
UCV – Lima este Página 9
En las diversas áreas y especialidades de la formación profesional y
científica, la estadística constituye una ciencia auxiliar y complementaria, que
ofrece técnica, métodos, modelos y procedimientos para el análisis cuantitativo
y cualitativo de los fenómenos y hechos que interesa estudiar a los
profesionales.
La estadística es una herramienta auxiliar de utilidad inmediata y practica
en el trabajo profesional. Permite registrar hechos, calcular repeticiones, analizar
datos, observaciones y calcular indicadores, así como también ayuda a
cuantificar o dimensionar el comportamiento de los hechos y variables en una
población determinada, realizar estimaciones y proyecciones.
La estadística ayuda a desarrollar una investigación rigurosa, no es
simplemente un conjunto de fórmulas, procedimientos y modelos. La estadística
por la forma como está estructurada, operacionaliza los datos, ofrece
fundamentos lógicos en lo que se sustenta la investigación básica y aplicada,
de allí que la estadística constituye “la tecnología del método científico”.
En toda investigación una vez formulado el problema, la tarea inmediata
es el diseño del plan de análisis estadístico, antes de obtener los datos en las
unidades de análisis. La estadística participa en la solución del problema,
puesto que permite revelar la información vital para la solución de un
problema práctico. Ayuda a conocer la característica de una población, cuyo
resultado orienta la toma de decisiones. La estadística permite hacer inferencia
acerca de una población a partir de datos obtenido de una muestra
representativa.
9. OBJETIVO DE LA ESTADÍSTICA
En términos generales los objetivos de la estadística pueden ser
clasificados o agrupados en tres grandes grupos: descripción, análisis y
predicción.
Descripción de grandes colecciones de datos empíricos; reduciéndolos a
un pequeño número de características que concentra la parte más
importante y significativa de la información proporcionada por los datos.
Este proceso se conoce con la denominación “Reducción de datos”. La
descripción supone que los datos que viene expresados en su forma natural
deben ser clasificados y presentados sistemáticamente en cuadros o tablas
como una primera reducción de datos; sin embargo, la reducción de datos
propiamente dicha se obtiene cuando el comportamiento y características
de los datos se expresan por un conjunto de indicadores, medidas resumen
o estadígrafos.
El trabajo estadístico se inicia con el estudio del problema, la identificación
de variables y la recolección de datos. Tanto la reducción como la
Métodos estadísticos
UCV – Lima este Página 10
descripción de la información se estudia en el gran capítulo denominado
“Estadística Descriptiva”. Es importante anotar que la descripción
estadística de los fenómenos o hechos es el primer aspecto al cual se
redujo la ciencia estadística durante mucho tiempo, aplicándose
especialmente a los datos demográficos, sociales, económicos, etc.
Análisis estadístico de datos experimentales y de los fenómenos
observados. Toda investigación estadística incluye un problema de análisis
de datos experimentales, con el objeto de formarse un concepto de una
población o universo y adoptar decisiones. En este caso no es necesario
observar toda la población si no que será suficiente elegir una muestra
representativa. La preocupación del análisis estadístico es inferir propiedades
para una población sobre la base de resultados muéstrales conocidos. Aquí
se presentan varios problema que trata la estadística de hoy, como aquellos
relacionados con el muestreo estadístico, la estimación estadística y el
cálculo de probabilidades, las pruebas estadística, etc. Estos aspectos
corresponden a la inferencia estadística.
Predicciones o comportamiento de los fenómenos en el futuro, lo cual
constituye la máxima aspiración practica de toda ciencia. Este objetivo de
predicción y previsión está implícito tanto en la descripción como en el
análisis estadístico, puesto que en general interesa orientar la toma de
decisiones con vigencia y efecto en el futuro. “El pasado puede ser
evaluado, el presente descrito con cierta exactitud y el futuro puede ser
previsto”, la predicción puede entenderse como la estimación de resultados
en el futuro.
10. NOMENCLATURA ESTADÍSTICA
Población, es el conjunto de elementos que contienen una o más característica
observable de naturaleza cualitativa o cuantitativa que se pueden medir en
ellos.
Unidad estadística, viene hacer cada elemento de la población.
Dato, es el resultado de medir una característica observable de una unidad
estadística.
Información, es el resultado que se obtiene al procesar un conjunto de datos.
Muestra, se denomina muestra a una parte de la población seleccionada de
acuerdo con un plan o regla, con el fin de obtener información acerca de la
población de la cual proviene.
Parámetro, se denomina parámetro a una medida descriptiva que resume una
característica de la población, calculada a partir de los datos observados en
toda la población.
Métodos estadísticos
UCV – Lima este Página 11
Estadígrafo, se denomina estadígrafo a una medida descriptiva que resume una
característica de la muestra, calculada a partir de los datos observado en una
muestra aleatoria.
11. ELEMENTOS BÁSICOS DE LA ESTADÍSTICA
Después de la conceptualización de estadística y la precisión de sus
objetivos, es fácil advertir que en el trabajo estadístico existen tres elementos
básicos como son: unidad de análisis, las variables y los datos.
Unidades de análisis, que pueden ser personas, instituciones, objetos, familia,
animales y otras unidades más complejas. Estas unidades tienen una
característica en común, en cuanto constituyen el objeto de estudio de una
investigación.
Las variables, dimensiones o características que se desea conocer en
relación a las unidades de análisis, tales como la edad, ingresos, consumo
de carne, lugar de nacimientos, ahorros, etc. las variables se definen e
identifican en función de los objetivos del estudio.
Los datos o valores que alcanzan las unidades en las variables estudiadas,
son las respuestas o resultados que se obtienen cuando las unidades de
análisis son preguntados. Habrá tantos datos como elementos tiene la
población en estudio.
VARIABLE ESTADÍSTICA
1. DEFINICIÓN
Se denomina variable estadística a una característica definida en la
población por la tarea o investigación estadística, que puede tomar dos o más
valores o modalidades.
2. ELEMENTOS DE UNA VARIABLE
La identificación y definición de variables es la tarea más delicada de
toda investigación y del trabajo estadístico. Téngase presente que las variables
se deduce a partir de los objetivos de un estudio o investigación. En
consecuencia, para tener éxito en la selección de variables, es recomendable
distinguir los siguientes cinco elementos:
Nombre o denominación de la variable
Definición o conceptualización de la variable
Un conjunto de categoría o niveles, que es definida por el investigador.
Las categoría no son única, lo mínimo es dos categorías y dependen de
los objetivos de la investigación.
Procedimientos para categorizar o agrupar las unidades de análisis
Métodos estadísticos
UCV – Lima este Página 12
Algunas medidas de resumen o indicadores
3. CLASIFICACIÓN DE LA VARIABLE
3.1 VARIABLE CUALITATIVA
Cuando expresa una cualidad, característica o atributo, tiene carácter
cualitativo, sus datos se expresan mediante una palabra, es no numérico, y se
clasifican en variables cualitativa nominal y variables cualitativa ordinal.
a. Variable cualitativa nominal: Es aquella variable que permite clasificar a una
unidad elemental en una sola categoría.
Ejemplo 4
Lugar de nacimiento
Color de ojos
Partidos políticos
b. Variable cualitativa ordinal: Es aquella variable que permite clasificar a una
unidad elemental en una sola categoría, y a la vez expresa orden de jerarquía.
Ejemplo 5
Clase social
Grado de estudio
Grado dentro del mando militar
3.2 VARIABLE CUANTITATIVA
Cuando el valor de la variable se expresa por una cantidad, es de
carácter numérico. El dato o valor puede resultar de la operación de contar o
medir. Las variables cuantitativas pueden ser discretas o continuas.
a. Variable cuantitativa discreta: Cuando el valor de la variable resulta de la
operación de contar, su valor está representado solo por números naturales.
Ejemplo 6
Números de hijo por familia
Número de accidentes por días
Número de trabajadores por empresa
Variable cuantitativa continua: Es toda variable cuyo valor se obtiene por
medición o comparación con una unidad o patrón de medida. Las variables
continuas pueden tener cualquier valor dentro de su rango o recorrido, por
tanto se expresa por cualquier número real.
Métodos estadísticos
UCV – Lima este Página 13
Ejemplo 7
Áreas de parcelas
Ingreso monetario
Producción de maíz
ESCALA DE MEDICIÓN
1. INTRODUCCIÓN
En estadística medir es observar el valor que toma una variable
estadística en un elemento de la población, los valores de las variables, además de
ser cualidad o cantidad, define niveles de medición de las unidades estadísticas, estos
niveles de medición son denominado escalas.
2. DEFINICIÓN
Se denomina escala de medición a los distinto niveles de valores que la
variable estadística asigna a las unidades estadísticas en estudio.
3. ESCALA NOMINAL
Se dice que los valores de una variable estadística están en el nivel de escala
nominal si estos solo clasifican a las unidades estadística en iguales o diferentes.
Los valores cualitativos son como etiquetas que la variables asigna a las unidades
estadística haciéndolas iguales entre sí o diferentes. Si se asigna número a estos
valores cualitativos no es posible realizar operaciones aritméticas.
El método estadístico con datos obtenidos en escala nominal consiste
básicamente en obtener el número de casos en cada modalidad y obtener la
moda.
4. ESCALA ORDINAL
Se dice que los valores de una variable estadística están en el nivel de escala
ordinal si están en escala nominal y si además ordenan a las unidades estadística
por la característica que se observa.
Los valores cualitativos de una variable en escala ordinal son los resultados
de un criterio para ordenar a las unidades estadística. Si se asignara números a tales
valores, no es posible realizar operaciones aritmética, solo son válidas las relaciones
de igualdad, de no igualdad y de orden.
Métodos estadísticos
UCV – Lima este Página 14
El método estadístico con datos obtenidos en escala ordinal consiste
básicamente en obtener el número de caso en cada categoría, así como, obtener la
moda, la mediana y el coeficiente de correlación de rangos.
5. ESCALA DE INTERVALOS
Una escala de intervalo es una escala ordinal que asigna a las unidades
estadística valores numérico, que son mediciones realizadas con respecto a un cero
arbitrario, este cero no es real o absoluto, pues no mide la ausencia total de la
característica que se observa en la unidad estadística.
Con los valores de una variable en escala de intervalo se puede comparar la
diferencia de las mediciones de dos unidades estadística con otra diferencia.
Con los valores de esta escala son validas pues, las relaciones de igualdad,
de no igualdad y de orden. Además, son validas las operaciones de adición y
sustracción entre valores de escala y la multiplicación y división entre la diferencia
de dos valores de la escala. Pero, no es válida la multiplicación y división entre
los valores mismos de la escala.
Si una variable estadística tiene sus valores en escala de intervalo, entonces
permanece invariante ante la transformación.
6. ESCALA DE RAZÓN
La escala de razón o cociente es una escala de intervalo que asigna a las
unidades estadística valores numéricos, que son mediciones realizadas con respecto
a un cero real. Este cero significa ausencia total de la característica que se observa.
Los valores de esta escala se obtienen en general, por mediciones que son conteos o
mediciones continuas.
Además, con los valores de una variable en escala de razón se puede
comparar cuantas veces la medida de una unidad estadística es igual a la medida
de otra unidad estadística.
Con los valores de la variable en escala de razón son validas las relaciones
de igualdad, de no igualdad, de orden y todas las operaciones matemáticas.
Si una variable estadística tiene sus valores en escala de razón, entonces permanece
invariante ante la transformación.
Métodos estadísticos
UCV – Lima este Página 15
ACTIVIDADES
1 ¿Qué es la estadística?
_______________________________________________________
_______________________________________________________
________________________________________________________________________
________________________________________________________________________
2 ¿Qué es la inferencia estadística?
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
3 ¿Por qué estudiar estadística?
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
1 ¿Cuál es la diferencia entre un dato e información?
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
5 ¿Cómo se clasifican las variables?
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
Métodos estadísticos
UCV – Lima este Página 16
GLOSARIO
Defina brevemente, con sus propias palabras, cada término de
la lista.
Estadística………………………………………………………………………………….
Estadística descriptiva……………………………………………………………………
Estadística inferencial…………………………………………………………………….
Dato………………………………………………………………………………..……..
Variable……………………………………………………………………………………
Variable cualitativa…………………………………………………………………….…
Variable cuantitativa………………………………………………………………….…..
Información…………………………………………………………………………….….
Población………………………………………………………………………………….
Unidad de análisis…………………………………………………………………….….
Parámetro…………………………………………………………………………….……
Muestra……………………………………………………………………………….……
Estadígrafo…………………………………………………………………………….…..
Escala de razón…………………………………………………………………………...
Escala por intervalo…………………………………………………………….………..
Métodos estadísticos
UCV – Lima este Página 17
AUTOEVALUACIÓN
1. ¿Qué escuela cuantifico las leyes del fenómeno social o
político y aritmético a la estadística?
a) Alemana
b) Inglesa
c) Francesa
d) Todas
2. ¿Qué matemático colaboro con GALTON al desarrollo de la correlación de
Pesaron?
a) Walker c) Fisher
b) Pesaron d) Todos
3. ¿Cuál es la parte de la estadística que se encarga de representar a un conjunto
de dato mediante gráficos?
a) Inferencia c) La muestra
b) El parámetro d) La descriptiva
4. ¿Cuál es la máxima aspiración de toda ciencia?
a) Sumar c) Restar
b) Multiplicar d) Predecir
5. ¿Qué es una muestra?
a) Es una parte de la población
b) Es toda la población
c) Es un número
d) Es una información
6. ¿Qué es la unidad de análisis?
a) Es dato
b) Es un valor
c) Es una información
d) Es la mínima unida de la población
7. ¿Qué es información?
a) Es un valor que resulta después de un proceso matemático
b) Es una muestra
c) Es una población
d) Es una variable
Solución
1.- c 2.- b 3.- d 4.- d 5. – a 6.- d 7.- a
Métodos estadísticos
UCV – Lima este Página 18
BIBLIOGRAFÍA
1. ÁVILA, Roberto. Estatística Elemental. 3era. Edición. Lima. Estudios y Ediciones
R.A. 2002. 224 p
2. CÓRDOVA Manuel. Estadística Descriptiva e Inferencial Aplicaciones. Editorial,
Librería Moshera S.R.L. 2008.
3. JHONSON, Robert. Estatística Elemental. 2da. Edición. México DF. Editorial
Trillas. 2002. 180 p.
4. MITACC Meza Máximo. Tópicos de Estadística Descriptiva y Probabilidad.
Editorial San Marcos. 2000
5. MONTGOMERY, M E. y RUNGER, G. Probabilidad y Estadística Aplicada a la
Ingeniería. 1era. Edición. México. DF. Mc Graw Hill. 1999. 200 p.
6. WALPOLE, R. [et al. ]. Probabilidad y Estadística para Ingenieros. 6ta. Edición.
México DF. Pearson Educativo. 2002. 200 p.
Métodos estadísticos
UCV – Lima este Página 19
INVESTIGACIÓN ESTADÍSTICA. RECOLECCIÓN Y ORGANIZACIÓN Y
PRESENTACIÓN DE DATOS
INVESTIGACIÓN ESTADÍSTICA
1. INTRODUCCIÓN
En esta sesión se estudiara las definiciones
de investigación estadística, así como los
procedimientos para elaborar una tabla de
frecuencia y los gráficos respectivo para una
variable cualitativa sea nominal u ordinal.
2. DEFINICIÓN
La investigación es un proceso de producción de conocimiento científicos;
es un proceso sistemático a través del cual se recogen datos e información de
la realidad objetiva para dar respuesta a las interrogantes que se plantean. No
hay investigación grande o pequeña, simplemente investigar es buscar respuesta
para plantear soluciones.
Cuando se aplica el método científico al estudio de los problemas
económicos se habla de investigación económica, asimismo se tiene investigación
educativa, investigación agropecuaria, etc. Toda investigación requiere de datos,
sin datos no hay investigación, entonces surge la necesidad de definir métodos,
análisis o tratamientos de datos, con el propósito de obtener algunas medidas
o indicadores que expresen la dimensión o niveles de la variable estudiada, es
decir, realizar la operacionalización de las variables. En este contexto la
estadística surge como ciencia auxiliar de la investigación, que por su naturaleza,
estructura y métodos en este proceso, el análisis estadístico también cumple con
los diversos paso de la investigación.
3. OBJETIVO
El objetivo de la investigación estadística es descubrir respuestas a
determinada interrogantes a través de la aplicación de procedimientos científicos.
El punto de partida de la investigación es la existencia de un problema que
habrá que definir, examinar, valorar, y analizar críticamente, para luego formular
y entender su solución.
Métodos estadísticos
UCV – Lima este Página 20
4. ETAPAS
La investigación estadística por su naturaleza, es fundamental de tipo
descriptiva; se preocupa de la confiabilidad, validez y significación de los datos,
de la muestras así como los métodos y técnica de recolección y análisis
estadístico.
La investigación estadística es un proceso donde se distinguen cinco etapas:
a. Planteamiento o preparación
Fundamento y compresión del estudio e identificación de las variables
Determinación de objetivos
Organización de las variables
Precisión de los datos e información requerida
identificación y evaluación de la fuente de información
Identificación y análisis de estudios similares
Determinación del ámbito de la investigación
Preparación del plan para ejecutar la investigación
Formación y capacitación del equipo de trabajo
Elaboración del calendario de actividades
Formulación del presupuesto y fuente de financiamientos
b. Recopilación de los datos
La recopilación o recolección de datos es el momento en el cual el
investigador se pone en contacto con los objetos o elementos sometidos a
estudio, con el propósito de obtener los datos o respuesta a las variables
analizadas.
El método de recolección está asociado también con el tipo y naturaleza
de la fuente de datos.
c. Organización y presentación de datos
Después de la recopilación de los datos, se procede a su organización,
clasificación y tabulación, de modo que se facilite la presentación en tablas
cuadros o gráficos.
Como tarea previa a la investigación es indispensable realizar una
evaluación, critica, corrección y ajuste de los datos, el propósito es superar las
omisiones, inconsistencia y desechar las respuestas no significativas o erróneas.
Téngase presente que la validez de sus resultados y conclusiones depende
de gran medida de la fidelidad de los datos utilizados. No existen
computadora que por sí, corrija los errores de recopilación.
Métodos estadísticos
UCV – Lima este Página 21
Realizadas las correcciones o ajustes, se procede a la clasificación o
establecimiento de categorías o intervalos, para la agrupación de los datos.
Finalmente, se procede a la tabulación o procesamiento de los datos, de
acuerdo a un plan de tabulaciones previamente definido.
Los cuadros y tablas estadística como primera fase de la reducción de
datos, facilita el cálculo de los indicadores con los cuales se inicia la
descripción, análisis e interpretación de los datos, variables e información
estadística.
d. Análisis e interpretación de los datos
En esta etapa se aplica los argumentos matemático y teóricos de la
estadística. A través de métodos estadístico se calcula indicadores y medidas de
resumen, se establecen relaciones entre variables, se estiman valores, se ejecuta
pruebas estadísticas, etc., como elementos de referencia para la descripción,
análisis e interpretación del comportamiento de los datos, hacer inferencia
valida y obtener información de los elementos o unidades estudiadas.
e. Formulación de conclusiones y preparación de informe
En toda investigación debe analizarse el cumplimiento de los objetivos,
en función de los resultados fundamentales, esta contrastación permite elaborar
un resumen de los aspecto sustantivos, que luego se expresaran en forma de
conclusiones y sugerencia orientadora en la toma de decisiones.
5. ELECCIÓN DE LAS UNIDADES ESTADÍSTICAS
La elaboración de una buena estadística implica una definición correcta de
las unidades que se van a considerar y una delimitación de la materia a
investigar. Antes de iniciar la observación y las operaciones de recuentos, el
estadístico debe tener una idea clara, tanto del conjunto que quiere estudiar
como de los individuos o unidades que constituye dicho conjunto.
La unidades estadística deben definirse cuidadosamente teniendo en cuenta
los siguientes criterios:
Debe ser sencilla, de modo que se puede caracterizar con facilidad, que los
encargados de la recopilación no tengan duda en su identificación.
Debe ser precisa, de modo que facilite su identificación y saber que
observar.
Fácilmente compresible y adaptada a los objetivos que se persiguen.
Debe ser semejantes, de manera que sean aditivo
Respetar las posibles definiciones oficiales o estatales.
Métodos estadísticos
UCV – Lima este Página 22
RECOLECCIÓN DE DATOS
1. DEFINICIÓN
La recopilación o colección de datos es el
momento en el cual el investigador se pone en
contacto con los objetos o elementos sometidos a
estudio, con el propósito de obtener los datos o
respuesta de las variables consideradas; a partir de
estos datos se prepara la información estadística, se
calcula medidas de resumen e indicadores para el
análisis estadístico.
Antes de recopilar o recoger datos, es importante analizar los objetivos
del estudios, precisar las variables e identificar las fuentes de datos, a fin de
definir qué datos hay que recopilar y cómo hacer esta tarea.
La formulación del problema y del marco teórico, la definición de las
hipótesis y de los objetivos de la investigación permite especificar los tipos de
información y las variables que son requeridas. Realizada esta tarea, el
investigador debe a continuación seleccionar y elaborar las técnicas e
instrumentos para recolectar los datos.
El trabajo de recolección de datos, en general se puede realizar mediante
dos modalidades:
La técnica de investigación documental o bibliográfica
La técnica de trabajo de campo
La fase de recolección de datos es uno de los puntos principales de la
investigación, en consecuencia, debe dotarse de ciertas garantías para que los
datos científicos puedan ser confiables y comparables, evitar las desviaciones y
la falta de representatividad.
2. INFORMACIÓN ESTADÍSTICA
La información estadística, como datos procesados de acuerdos a ciertos
objetivos, es un medio que permite cuantificar aspecto de una realidad, de un
fenómeno o problema determinado, en un momento o periodo dado y un
ámbito concreto. A partir de la información estadística se puede describir y
explicar esa realidad, así como inferir conclusiones para definir un plan de
acción o desarrollo especifico. La información, en general, sirve para tomar
decisiones.
Métodos estadísticos
UCV – Lima este Página 23
3. FUENTES DE DATOS
Las fuentes de datos es el lugar, la institución, las personas o elementos
donde están o que poseen los datos que se necesitan para cada una de las
variables o aspecto de la investigación o estudio.
En general se puede disponer de cinco tipos de fuentes de datos:
Las oficinas estadísticas
Registros administrativos
Documentos
Encuesta o censos
Los elementos o sujetos
Las tres primeras fuentes son de tipo administrativos y constituyen fuentes
secundarias; por su parte, las dos últimas corresponde a la investigación
estadística, ya que permiten obtener datos originales, intencionales y de primera
mano, es decir constituye fuentes primarias.
4. TÉCNICA DE RECOLECCIÓN
La técnica de recolección son diversas y depende de: la naturaleza del
objeto de estudio, de las posibilidades de acceso o contacto con los elementos
investigados, del tamaño de la población o muestra, de los recursos y de las
oportunidades de obtener datos. Las técnicas también están asociadas al tipo y
naturaleza de la fuente de datos.
Entre las técnicas más frecuentes se tienen:
a. La observación: La observación en el proceso de investigación es la acción
de mirar con rigor, en forma sistemática y profunda, con los intereses de
descubrir la importancia de aquellos que se observa. La observación es el
método básico que se utiliza para adquirir información acerca del mundo que
nos rodea, y por lo tanto, constituye la técnica primordial de la investigación
científica. La observación puede tener lugar en situaciones autenticas de la vida
ordinarias o también en el laboratorio.
b. Los documentos: La técnica documental es un tipo de observación que
recopila o busca sus datos en documentos, fuentes o graficas de todo tipo.
c. La entrevista: La entrevista es una situación de interrelación o dialogo entre
personas, es una técnica donde una persona llamada entrevistador, solicita al
entrevistado, le proporcione algunos datos o información. El éxito de la
entrevista como técnica de recolección, depende de la eficiencia del trabajo del
entrevistador.
d. La encuesta: La encuesta es una técnica de recolección de datos, donde se
obtiene la información tal como se necesita, preparada con objetivos estadístico.
Permite observar y registrar características en las unidades de análisis de una
Métodos estadísticos
UCV – Lima este Página 24
determinada población o muestra, delimitada en el tiempo y en el espacio. En
toda encuesta se hace uso de un cuestionario, cuya respuesta se registra en el
formulario o cédula.
Cuando una encuesta está dirigida a la totalidad de elementos de una
población, se llama censo; en tanto; cuando está dirigido a una parte
representativa de la población, se llama encuesta por muestreo.
5. INSTRUMENTO DE MEDICIÓN
a. El cuestionario: Este es un instrumento constituido por un conjunto de
preguntas sistemáticamente elaboradas, que se formula al encuestado o
entrevistado, con el propósito de obtener los datos de las variables
consideradas en el estudio. Cuando las preguntas se organizan y se imprimen, se
obtiene el formulario o cédula, que es el instrumento que se utiliza para
registrar las respuestas.
ORGANIZACIÓN Y PRESENTACIÓN DE DATOS
(VARIABLE CUALITATIVA)
Cuando se realiza la recopilación de antecedentes
con fines estadísticos, se obtiene una gran cantidad de
datos, algunas veces estos están en su forma natural o
empírica (fuente primarias) y otras ya están organizadas
en tablas, cuadros y gráficos (fuentes secundarias).
Los datos pueden estar incompletos, incorrectos,
desordenados, pero en todos los casos constituye datos
básicos para iniciar un estudio, conocer y analizar el comportamiento y las
características de los elementos de una población.
En el trabajo estadístico, siempre se dispone de muchos datos que,
definitivamente tienen que ser clasificados, ordenados y presentados
adecuadamente, de tal manera que facilite la compresión, descripción y análisis
del fenómeno estudiado y obtener conclusiones válidas para la toma de
decisiones.
La organización y presentación de los datos estadísticos, supone realizar
los siguientes pasos:
Métodos estadísticos
UCV – Lima este Página 25
a. Evaluación y crítica: Consiste en inspeccionar la validez y confiabilidad de
los datos, para corregir los errores y omisiones de acuerdo a ciertas reglas
fijas. A partir de datos incorrectos no se pueden obtener buenos resultados.
b. Codificación: Es una técnica mediante la cual los datos o respuestas se
convierten en un número, símbolo o lenguaje que permita su procesamiento o
tabulación electrónica. La codificación implica la definición de criterios de
clasificación y de categorización de las variables con miras a formular el plan
de tabulación.
c. Clasificación: Consiste en establecer las categoría de las variables.
d. Procesamiento o tabulación de datos: Es la contabilización o registro del
número de casos en cada una de las categoría de la variables, de acuerdo al
plan de tabulación previamente establecido.
e. Presentación de los datos: Donde los resultados de la tabulación, una vez
evaluados, se presenta en cuadros, tablas y gráficos. La presentación de datos
implica tener la información estadística organizada para proceder al análisis e
interpretación de los resultados y de los aspecto considerados de la población en
estudio.
En el trabajo estadístico, lo que se tiene disponible en un primer
momento es un material numérico, producto de la observación o recopilación
de datos, que son categorizados, ordenados, procesados y presentados en
cuadros o gráficos; hay un proceso de resumen estadístico que se concreta con
el cálculo de indicadores.
Existen dos formas de presentar ordenadamente los datos estadísticos:
En forma tabular, como son los cuadros y tablas estadísticas
Mediante gráficos y diagramas
1. TABLA DE FRECUENCIA
Son tablas de trabajos estadísticos, que presenta la distribución de un
conjunto de elementos de acuerdo a las categorías de las variables, en ellas se
observa la frecuencia o repeticiones de cada uno de los valores de la variables,
que se obtienen después de realizar la operación de tabulación, la tabla
presenta los diversos tipo de frecuencia a la vez se utiliza para organizar los
datos y calcular algunos indicadores, medidas de resumen o estadígrafo.
2. PARTES PRINCIPALES DE UNA TABLA DE FRECUENCIA
a. Número de cuadro, es el código o elemento de identificación que permite
ubicar el cuadro en el interior de un documento. El número se anota junto
Métodos estadísticos
UCV – Lima este Página 26
con la palabra “cuadro”, por ejemplo “cuadro N 3.3”. Indica que es el tercer
cuadro del capítulo tres.
b. Título, es la descripción resumida del contenido del cuadro, la redacción del
título debe ser breve, claro y completo de modo que se pueden deducir sin
ambigüedad que tipo de información contiene el cuadro.
c. Concepto o encabezamiento, es la descripción de las filas y columnas de
un cuadro estadístico, el encabezamiento se ubica en la parte superior del
cuerpo del cuadro. Índica las variables y sus categorías o intervalos, también
puede indicar un periodo de tiempo.
d. Cuerpo del cuadro, es el contenido numérico de los cuadros. Es la parte
donde se colocan los datos correspondientes a la características o variables
indicados en el encabezamiento o en los conceptos, es decir presenta la
distribución de los elementos según la clasificación en categoría de las
variables.
e. Notas de pie o llamadas, se usa para algunos términos o siglas, y también
para indicar que elementos están o no incluidos en algunos de los conceptos
del cuadro.
f. Fuentes, es la indicación al pie del cuadro, que sirve para nombrar la
publicación, entidad, estudio o fuentes de donde se obtuvieron los datos
utilizados para construir el cuadro. La identificación de la fuente permite, si
fuera el caso, comprobar la información o para obtener información
complementaria.
Hay dos tipos de fuentes: primaria, cuando se obtiene directamente de la
unidad de análisis o cuando se recurre a los propios formularios de una
encuesta; secundaria, cuando se recurre a documentos, boletines o cuadros
estadísticos publicados.
g. Nota de unidad de medida, se escribe debajo del título original, se usa
cuando se abrevia la escritura de las cifras y para expresar en que unidades
están expresada la variables.
h. Elaboración, es una indicación que se coloca debajo de la fuente y sirve para
mencionar el responsable, que utilizando datos originales o de la fuente,
elaboró el cuadro estadístico final; indicando la responsabilidad de la publicación
del cuadro.
3. ELEMENTOS DE UNA TABLA DE FRECUENCIAS
a. Valor de la variable o intervalo de clases: Resulta de la clasificación o
categorización de variable.
Métodos estadísticos
UCV – Lima este Página 27
b: Frecuencia absoluta: Es el número de veces que se repite un determinado
valor de la variable; en el caso de los intervalos es el numero de observaciones
comprendido en dicho intervalo; está representado por “fi”
c. Frecuencia relativa: Es el cociente de la frecuencia absoluta entre el total de
datos, está representado por “hi “
n
fh i
i
d. Frecuencia porcentual: Es la multiplicación de la frecuencia relativa por 100
%100*ii hp
e. Frecuencia absoluta acumulada: Es el que resulta de acumular
sucesivamente las frecuencias absoluta, se representa por “ FL”
k
k
i
ik ffffF
......21
1
f. Frecuencia relativa acumulada
Es el que resulta de acumular o sumar sucesivamente las frecuencias relativas, se
representa por “ Hi”
k
k
i
ik hhhhH
......21
1
g. Frecuencia porcentual acumulada
Es el que resulta de acumular o sumar sucesivamente las frecuencias porcentuales,
se representa por “ Pi”
k
k
i
ik ppppP
......21
1
4. PROPIEDADES DE LAS FRECUENCIAS
Las frecuencias absoluta y las frecuencias absoluta acumuladas son
números enteros no negativos y no mayores que “n”.
Las frecuencias relativa y las frecuencias relativa acumulada son valores que
varían entre 0 a 1.
Las frecuencias porcentuales y porcentuales acumuladas son número que varían
de 0 a 100%.
La suma de todas las frecuencias absoluta es igual al tamaño de la
muestra.
La suma de todas las frecuencias relativa es igual a la unidad.
La suma de todas las frecuencias porcentuales es 100%.
La última frecuencia absoluta acumulada es igual al tamaño de la muestra.
La última frecuencia relativa acumulada es la unidad
La última frecuencia porcentual acumulada es 100%
Métodos estadísticos
UCV – Lima este Página 28
5. TABLA DE FRECUENCIA Y GRÁFICOS PARA VARIABLE
CUALITATIVAS
La tabla de frecuencia tiene la siguiente forma:
C f h p
C1 f 1 h 1 p1
C2 f 2 h 2 p2
C3 f 3 h 3 p3
C4 f 4 h 4 p4
La representación grafica de la distribución de frecuencia de variables
cualitativa, se hace comúnmente por gráfica de barras y de sectores.
EJEMPLO 1
En una entrevista a una muestra de 30 personas sobre su preferencia de
bebidas gaseosa por los tres colores: negro(N), rojo(R) , blanco(B) se ha
obtenido los siguiente resultados:
B B R B R B
R B R B R N
R B B B R R
N R N N N R
N N B N B B
* Realizar el cuadro de frecuencia y los gráficos.
Métodos estadísticos
UCV – Lima este Página 29
SOLUCIÓN
TABLA DE DISTRIBUCIÓN DE FRECUENCIA DEL COLOR DE BEBIDA GASEOSA
El 40% de encuestados tiene preferencia el color blanco como bebida gaseosa.
f h p
BLANCO 12 0,40 40%
ROJO 10 0,33 33%
NEGRO 8 0,27 27%
40%
33%
27%
COLOR DE BEBIDA
BLANCO
ROJO
NEGRO
Métodos estadísticos
UCV – Lima este Página 30
ACTIVIDADES
1. Al investigar el nivel socioeconómico en las modalidades: bajo (B), medio
(M), alto (A) de 50 familia, se obtuvo los siguientes datos:
M A M A B B M B B A
M A M A B B M B B M
M B B M B A M M B A
B M B M M A B M M B
M M A M M A B A M B
Construir la distribución de frecuencia y trazar su graficas.
2. El siguiente cuadro se tiene la clasificación de un grupo de pacientes que
se le hizo un Depistaje de cáncer, “sí” indica que el paciente tiene
cáncer, “no” indica que el paciente no tiene cáncer. Realizar el análisis
descriptivo del conjunto de datos.
si no si
no no si
si no si
si si no
no si no
no si no
no si no
si si no
no si no
no no no
Métodos estadísticos
UCV – Lima este Página 31
3. Un estudio de 50 embarazo proporcionó los siguientes datos sobre la
Complicación del embarazo “sí” indica que sí hubo complicaciones, “no”
indica que no hubo complicaciones, realizar la tabla de frecuencia y gráfico.
sí no sí sí no
no no sí sí no
sí no sí sí no
sí sí no no no
no sí no no no
no sí no no sí
no sí no no sí
sí sí no sí sí
no sí no sí sí
no no no sí sí
Métodos estadísticos
UCV – Lima este Página 32
GLOSARIO
Defina brevemente, con sus propias palabras, cada término de la lista.
Operacionalización: ………………………………………………………………….
Fuente de datos: ………………………………………………………………………
Observación: …………………………………………………………………………..
Documento: ……………………………………………………………………………
Entrevista: ……………………………………………………………………………..
Encuesta: ………………………………………………………………………………
Cuestionario: ………………………………………………………………………….
Codificación: ………………………………………………………………………….
Tabla de frecuencia: …………………………………………………………………..
Frecuencia absoluta: …………………………………………………………………..
Frecuencia relativa: ……………………………………………………………………
Frecuencia porcentual: ………………………………………………………………..
Frecuencia absoluta acumulada: ……………………………………………………
Frecuencia relativa acumulada: ………………………………………………………
Frecuencia porcentual acumulada: ………………………………………………….
Métodos estadísticos
UCV – Lima este Página 33
AUTOEVALUACIÓN
1. ¿Quién produce el conocimiento científico?
a) El estadístico c) El investigador
b) El matemático d) El encuestador
2. ¿Cuándo el investigador se pone en contacto con los objetos sometido a
estudio se llama?
a) Recopilación de información c) Estadística
b) Población d) Muestra
3. ¿Cómo se llama la etapa donde se aplica los argumentos matemático y
teórico de la estadística?
a) Ciencias
b) Análisis estadístico
c) Frecuencia absoluta
d) Frecuencia relativa
4. La acción de mirar con rigor se llama…
a) Observación
b) Información
c) Diagnóstico
d) Ninguna
5. La técnica que recopila o busca en fuente graficas se llama…
a) Libro
b) Cuestionario
c) Documento
d) Ninguna
6. La técnica que pone en interrelación a dos personas se llama…
a) Entrevista
b) Diálogo
c) Visita
d) Ninguna
7. La técnica mediante el cual la respuesta se convierte en número se llama…
a) Frecuencia
b) Porcentaje
c) Relativa
d) Codificación
Solución
1 .- c 2 .- a 3 .- b 4 .- a 5 .- c 6 .- a 7.- d
Métodos estadísticos
UCV – Lima este Página 34
BIBLIOGRAFÍA
1. ÁVILA, Roberto. Estatística Elemental. 3era. Edición. Lima. Estudios y Ediciones
R.A. 2002. 224 p
2. CÓRDOVA Manuel. Estadística Descriptiva e Inferencial Aplicaciones. Editorial,
Librería Moshera S.R.L. 2008.
3. JHONSON, Robert. Estatística Elemental. 2da. Edición. México DF. Editorial
Trillas. 2002. 180 p.
4. MITACC Meza Máximo. Tópicos de Estadística Descriptiva y Probabilidad.
Editorial San Marcos. 2000
5. MONTGOMERY, M E. y RUNGER, G. Probabilidad y Estadística Aplicada a la
Ingeniería. 1era. Edición. México. DF. Mc Graw Hill. 1999. 200 p.
6. WALPOLE, R. [et al. ]. Probabilidad y Estadística para Ingenieros. 6ta. Edición.
México DF. Pearson Educativo. 2002. 200 p.
Métodos estadísticos
UCV – Lima este Página 35
ORGANIZACIÓN Y PRESENTACIÓN DE DATOS CUANTITATIVOS
1. INTRODUCCIÓN
En esta sesión los alumno conocerán los
procedimiento matemático que se debe seguir para
elaborar una tabla de frecuencia y grafico para una
variable cuantitativa.
2. TABLA DE FRECUENCIA Y GRÁFICOS PARA VARIABLE
CUANTITATIVA DISCRETAS
La tabla de frecuencia tiene la siguiente forma:
X f h p F H P
x1 f 1 h 1 p 1 F1 H1 P1
x2 f 2 h 2 p 2 F2 H2 P2
x3 f 3 h 3 p 3 F3 H3 P3
x4 f 4 h 4 p 4 F4 H4 P4
La representación grafica más común de una distribución de frecuencias de
variable cuantitativa discreta es del tipo bastón y el de escalera.
Métodos estadísticos
UCV – Lima este Página 36
EJEMPLO 1
Construir la distribución de frecuencia y gráfico del número de hijos por
familia en una muestra de 30 hogares, si se han observado los siguientes datos:
SOLUCIÓN
X = número de hijo por familia
X = 0, 1, 2, 3, 4
Frecuencia absoluta
31 f 82 f 63 f 44 f 95 f
Frecuencia relativa
10.030
31 ih 27.0
30
82 ih 20.0
30
63 h
13.030
44 ih 30.0
30
95 ih
Frecuencia porcentual
%10%100*10.01 p %27%100*27.02 p
%20%100*20.03 p %13%100*13.04 p
%30%100*30.05 p
4 4 4 1 0 4
0 2 4 1 1 4
1 1 3 2 1 2
1 2 2 3 2 4
3 4 1 4 3 0
Métodos estadísticos
UCV – Lima este Página 37
Frecuencia absoluta acumulada
311
k
i
ifF
11831
2
k
i
ifF
176831
3
k
i
ifF
2146831
4
k
i
ifF
30946831
5
k
i
ifF
Frecuencia relativa acumulada
10.011
k
i
ihH
37.027.010.01
2
k
i
ihH
57.020.027.010.01
3
k
i
ihh
70.013.020.027.010.01
4
k
i
ihH
Métodos estadísticos
UCV – Lima este Página 38
130.013.020.027.010.01
5
k
i
ihH
Frecuencia relativa acumulada
%1011
k
i
ipP
%37%27%101
2
k
i
ipP
%57%20%27%101
3
k
i
ipP
%70%13%20%27%101
4
k
i
ipP
%100%30%13%20%27%101
5
k
i
ipP
TABLA DE DISTRIBUCIÓN DE FRECUENCIA SEGÚN EL NÚMERO DE
HIJO POR FAMILIA
x f h p F H P
0 3 0,10 10% 3 0,10 10%
1 8 0,27 27% 11 0,37 37%
2 6 0,20 20% 17 0,57 57%
3 4 0,13 13% 21 0,70 70%
4 9 0,30 30% 30 1,00 100%
Métodos estadísticos
UCV – Lima este Página 39
1. TABLA DE FRECUENCIA PARA VARIABLE CUANTITATIVA
CONTINUA
La tabla de frecuencia tiene la siguiente forma:
R = RANGO = MAX – MIN
K = NÚMERO DE INTERVALO = 1 + 3.3LOG(n) =
A = AMPLITUD DEL INTERVALO = R/ K
L = LÍMITES
X = MARCA DE CLASE =
2
1 ii LL
La tabla de frecuencia para una variable cuantitativa continua debe tener
intervalos, marca de clases y todas las frecuencia tanto simple como acumulada.
LÍMITES X f h p F H P
L1 - L2 x1 f 1 h 1 p 1 F1 H1 P1
L2 - L3 x2 f 2 h 2 p 2 F2 H2 P2
L3 - L4 x3 f 3 h 3 p 3 F3 H3 P3
L4 - L5 x4 f 4 h 4 p 4 F4 H4 P4
La representación grafica más común de una distribución de frecuencias de
variable cuantitativa continua es histograma de frecuencia, el polígono de
frecuencia y la ojiva.
Métodos estadísticos
UCV – Lima este Página 40
EJEMPLO 2
Construir la distribución de frecuencia de los ingresos quincenales de 50
personas si los datos recopilados son:
63 23 10 59 53 89 53 72 60 65
64 36 70 52 67 76 49 57 51 61
57 44 56 62 62 67 73 64 43 85
60 61 56 59 68 71 67 62 35 56
62 61 51 63 78 26 55 81 60 99
Realizar la tabla de frecuencia y gráficos.
Solución
R = RANGO = MAX – MIN = 99 – 10 = 89
K = NUMERO DE INTERVALO = 1 + 3.3LOG(n) = 1 +3.33log (50) = 6.67 = 7
A = AMPLITUD DEL INTERVALO = R/ K = 89 / 7 = 12.71 = 13
L = LIMITES
101 MINL 2313102 L 3613233 L
4913364 L 6213495 L 7513626 L
8813757 L 10113888 L
Métodos estadísticos
UCV – Lima este Página 41
X = MARCA DE CLASE =
2
1 ii LL
5.162
23101
X 5.29
2
36232
X 5.42
2
49363
X
5.552
62494
X 5.68
2
75625
X 5.81
2
88756
X
5.942
101887
X
TABLA DE DISTRIBUCIÓN DE FRECUENCIA
SEGÚN INGRESO QUINCENAL
X f h p F H P
10 A 23 16,5 1 0,02 2% 1 0,02 1%
23 A 36 29,5 3 0,06 6% 4 0,08 8%
36 A 49 42,5 3 0,06 6% 7 0,14 14%
49 A 62 55,5 20 0,40 40% 27 0,54 54%
62 A 75 68,5 17 0,34 34% 44 0,88 88%
75 A 88 81,5 4 0,08 8% 48 0,96 96%
88 A 101 94,5 2 0,04 4% 50 1,00 100%
0
5
10
15
20
25
1
INGRESO QUINCENAL
10 A 23
23 A 36
36 A 49
49 A 62
62 A 75
75 A 88
88 A 101
Métodos estadísticos
UCV – Lima este Página 42
ACTIVIDADES
1. Al averiguar el número de hijos de 50 empleados que están registrado en
los archivos de una empresa se obtuvo los siguientes datos:
3 1 3 1 4 2 0 5 3 2
4 1 4 1 5 2 0 5 3 3
4 0 4 4 4 3 2 1 4 3
1 0 3 4 5 1 1 1 4 4
0 1 0 2 3 0 5 3 1 5
Construir la distribución de frecuencia y trazar su gráfica.
2. Se realizó una encuesta a una muestra de padres de familias de una I.E., para
averiguar el número de habitaciones que tienen sus respectivas viviendas y se
obtuvieron los siguientes resultados:
Construir la distribución de frecuencia y trazar su gráfica.
5 8 6 6 8 4 6 8 6
4 7 5 5 7 6 4 7 6
6 3 3 2 1 6 1 4 5
8 5 5 4 3 4 2 3 2
Métodos estadísticos
UCV – Lima este Página 43
3. La inversión anual, en miles de dólares, de una muestra de 50 fábricas
fueron:
11 15 36 25 17 39 19 75 101 125
27 18 29 33 20 30 37 79 105 129
28 41 33 22 10 26 27 82 109 138
34 12 27 31 25 46 24 85 112 140
14 18 26 35 24 23 31 90 116 142
Construir la distribución de frecuencia y trazar su gráfica.
4. A 50 trabajadores varones se le midió la puntuación de Hamilton.
21,3
17,9 18,4 12,3 11,2 11,2 30,2 21,3 25,1 15,3
26,8 22,7 11,2 15,8 15,1 14,7 12,5 35,2 12,3 25,3
8,3 22,3 12,2 24,6 16,2 15,9 25,2 32,3 26,3 26,3
15,8 26,4 18,2 22,7 22,4 14,3 20,1 33,2 24,3 23,1
20,5 21,9 13,4 15,5 28,9 12,1 20,3 30,1 29,3 34,2
Construir la distribución de frecuencia y trazar su gráfica.
Métodos estadísticos
UCV – Lima este Página 44
5. El peso de 50 productos en kilogramos son:
35.6 31.1 30.1 30.5 33.5 27.9 31.6 28.7 31.3 30.5
29.3 28.1 33.2 24.9 30.6 31.5 33.7 30.5 26.8 35.1
22.5 32.1 27.9 29.9 28.6 34.2 28.5 31.2 28.7 30.1
34.2 27.5 29.5 30.4 30.3 32.7 29.8 28.7 31.3 29.6
20,5 21,9 13,4 15,5 28,9 12,1 20,3 30,1 29,3 34,2
Elaborar una distribución de frecuencia y su grafico respectivo.
6. A 50 sujetos se les midió la cantidad de alcohol consumido por semana, las
cuales se muestras en el siguiente conjunto de datos.
Elaborar una distribución de frecuencia y su gráfico respectivo.
0,05 3,11 5,64 7,83 8,65 10,45 12,36 12,36 17,89 18,36
1,51 4,23 5,98 7,88 9,54 10,78 12,54 15,56 17,89 18,59
2,53 4,56 6,36 7,99 9,63 11,23 12,89 14,58 18,23 19,56
3,23 4,89 6,54 8,52 9,52 11,45 13,25 15,89 18,25 19,85
3,24 5,23 6,87 8,35 10,12 11,56 13,45 16,63 18,45 19,56
Métodos estadísticos
UCV – Lima este Página 45
GLOSARIO
Defina brevemente, con sus propias palabras, cada
término de la lista.
Encuesta: ……………………………………………………………………..……………
Cuestionario: ……………………………………………………………………………...
Codificación: ………………………………………………………………………………
Tabla de frecuencia: ……………………………………………………………………...
Frecuencia absoluta: ……………………………………………………………………...
Frecuencia relativa: ……………………………………………………………………….
Frecuencia porcentual: …………………………………………………………………...
Frecuencia absoluta acumulada: ………………………………………………………..
Frecuencia relativa acumulada: ………………………………………………………….
Frecuencia porcentual acumulada: ……………………………………………………..
Gráfico de la escalera: ……………………………………………………………………
Gráfico del bastón: ………………………………………………………………………
Gráfico del histograma: …………………………………………………………………
Polígono de frecuencia: ………………………………………………………………….
Métodos estadísticos
UCV – Lima este Página 46
AUTOEVALUACIÓN
1. El consumo mensual de agua ( en metros cúbicos) de ochenta fábricas se
tabuló en una distribución de frecuencia simétrica de 7 intervalos de
amplitud iguales a tres. Siendo la marca de clase del cuarto intervalo
igual a 19. si las frecuencias del primer y tercer intervalo son iguales a
5% y 15% del total respectivamente y si la quinta frecuencia acumulada
es de 85% del total. Reconstruir la distribución de frecuencia y los
gráficos respectivos.
2. Los tiempos de vida útil (en días) de un producto se tabularon en una
distribución de frecuencia de 5 intervalos de igual amplitud con
frecuencia relativa acumulada 0.10, 0.25, 0.55, 0.80, 1.00 . Determine la
distribución de frecuencia absolutas si la tercera frecuencia absoluta
acumulada es 11, si la segunda marca de clase es 10 y el límite inferior
del cuarto intervalo es 16.
3. Los tiempo de vida útil de un tipo de batería, se tabuló en una distribución
de frecuencia de 5 intervalos de igual amplitud con frecuencia relativa
acumuladas: 0,10 , 0,25 , 0,55 , 0,80 , 1.00. determine la distribución de
frecuencia absolutas si la tercera frecuencia absoluta acumulada es 11, si la
segunda marca de clase es 6 y si el límite inferior del cuarto intervalo es 12.
4. La nota de un examen aplicado a obreros de una fábrica se tabuló en una
distribución de frecuencia relativa de 3 intervalos de amplitud iguales a 5, la
nota mínima es 5 y el 48% de las notas son menores que 12, y si el 80%
de las notas son inferiores a 16. Reconstruir la distribución de frecuencia.
Métodos estadísticos
UCV – Lima este Página 47
BIBLIOGRAFÍA
1. ÁVILA, Roberto. Estatística Elemental. 3era. Edición. Lima. Estudios y Ediciones
R.A. 2002. 224 p
2. WALPOLE, R. [et al. ]. Probabilidad y Estadística para Ingenieros. 6ta. Edición.
México DF. Pearson Educativo. 2002. 200 p.
3. CÓRDOVA Manuel. Estadística Descriptiva e Inferencial Aplicaciones. Editorial,
Librería Moshera S.R.L. 2008.
4. MITACC Meza Máximo. Tópicos de Estadística Descriptiva y Probabilidad.
Editorial San Marcos. 2000
5. JHONSON, Robert. Estatística Elemental. 2da. Edición. México DF. Editorial
Trillas. 2002. 180 p.
6. MONTGOMERY, M E. y RUNGER, G. Probabilidad y Estadística Aplicada a la
Ingeniería. 1era. Edición. México. DF. Mc Graw Hill. 1999. 200 p.
Métodos estadísticos
UCV – Lima este Página 48
MEDIDAS DE TENDENCIA CENTRAL
1. INTRODUCCIÓN
Son estadígrafos que describen la posición que ocupan una distribución
de frecuencia alrededor de un valor de la variables.
Los estadígrafos son valores que de manera condensada representa en un
solo valor a una serie de datos y además describen resumidamente el conjunto
de observaciones.
Los estadígrafos de posición de uso más frecuente son: la media, la
mediana, la moda, los deciles, cuartiles y percentiles.
2. LA MEDIANA
La mediana o valor mediano de una serie de valores observado es el
numero que separa a la serie de datos ordenados en formas creciente en dos
partes iguales.
La mediana es una medida de posición que depende del número de
datos observado y no de su valores de estos datos.
2.1 MEDIANA PARA DATOS NO TABULADOS
Para calcular la mediana para datos no tabulados se obtiene bajo el siguiente
criterio:
Cuando “n” es impar
2
1 nXME
Ejemplo 1 2, 4, 5, 8, 10, 11, 13.
84
2
17
2
1 XXXME n
Cuando “n” es par
2
2/22/
nn XXME
Ejemplo 2 1, 4, 5, 7, 13, 15, 16, 19
10
2
137
22
542/22/
XXXXME
nn
Métodos estadísticos
UCV – Lima este Página 49
2.2 MEDIANA PARA DATOS TABULADOS (sin intervalo)
Si los valores de una variable discreta se tabulan en una distribución de
frecuencia de la forma “dato frecuencia”, entonces la mediana será aquel valor
de la variable que contenga a la primera frecuencia absoluta acumulada que
supere o sea igual a n/2.
Ejemplo 3
El número de hijos por familia se encuentra en la siguiente tabla hallar la
mediana.
El valor de la media es 2 porque es el valor de la variable que tiene a la primera
frecuencia absoluta acumulada que supera a la mitad.
2.3 MEDIANA PARA DATOS TABULADOS (con intervalo)
Si el valor de una variable discreta o continua se tabulan en una
distribución de frecuencia por intervalos, la mediana se determina mediante la
siguiente fórmula:
1
12
ii
i
iFF
Fn
ALME
Ejemplo 4
Los ingresos quincenales de 50 personas están representados en la siguiente tabla
hallar la mediana.
X f F
0 3 3
1 8 11
2 6 17
3 4 21
4 9 30
Métodos estadísticos
UCV – Lima este Página 50
INTERVALOS f F
10 23 1 1
23 36 3 4
36 49 3 7
49 62 20 27
62 75 17 44
75 88 4 48
88 101 2 50
32.55744
72513492
1
1
ii
i
iFF
Fn
ALME
El 50% de los ingresos quincenales son menores o iguales a 55.32
2.4 VENTAJA DE LA MEDIANA
La suma de la diferencia de los datos respecto a su mediana es menor o
igual que la suma de las diferencias de esos datos respecto a cualquier
otro valor.
La mediana, a diferencia de la media, depende del número de datos y no
del valor de los datos. Por eso no está afectada de valores extremos.
La mediana puede ser calculada para distribuciones de frecuencia con
intervalos de diferente amplitud, siempre que se pueda determinar el límite
inferior del intervalo de la mediana.
3. LA MODA
La moda de una serie de datos es aquel valor que se repite con mayor
frecuencia. Este promedio se usa cuando se requiere señalar el valor más
común de una serie de datos. La moda es una medida menos importante que
la mediana debido a su ambigüedad. La moda no siempre existe y si existe,
no siempre es única.
3.1 MODA PARA DATOS NO TABULADOS
Ejemplo 5
Sería el valor que se repite el mayor número de veces
5, 8, 8, 8, 8, 8, 8, 11, 15, 15, 15, 15, entonces la moda sería 8 .
Métodos estadísticos
UCV – Lima este Página 51
3.2 MODA PARA DATOS TABULADO (sin intervalo)
La moda sería aquel valor de la variable que tenga la frecuencia absoluta.
Ejemplo 6
El número de hijos por familia se encuentra en la siguiente tabla hallar la moda.
X f
0 3
1 8
2 6
3 4
4 9
El mayor número de familia tiene 4 hijos.
3.3 MODA PARA DATOS TABULADO (con intervalo)
La moda para datos tabulado en tablas de frecuencia con intervalo se
encuentra mediante la siguiente fórmula:
21
1
dd
dALMO i
Ejemplo 7
Los ingresos quincenales de 50 personas están representados en la siguiente tabla
hallar la moda.
INTERVALOS f
10 23 1
23 36 3
36 49 3
49 62 20
62 75 17
75 88 4
88 101 2
55.60317
171349
21
1
dd
dALMO i
El ingreso quincenal más frecuente es 60.55 .
Métodos estadísticos
UCV – Lima este Página 52
4. MEDIA ARITMÉTICA
La media aritmética se denomina simplemente media y comúnmente se le
conoce como promedio, la media es el estadígrafo más importante; se define y
calcula dividiendo la suma de los valores de la variables entre el número de
observaciones o valores.
La media que se obtiene a partir de “n” datos originales se denomina
media aritmética simple.
La media obtenida a partir de los datos agrupados en tabla de frecuencia
se denomina media aritmética ponderada.
4.1 MEDIA ARITMÉTICA PARA DATOS NO TABULADOS
La media aritmética para datos no tabulados se obtiene mediante la
siguiente fórmula:
n
x
x
n
i
i 1
___
Ejemplo 8
Hallar la media de las siguientes edades: 15, 16, 18, 15, 25.
8.175
891___
n
x
x
n
i
i
4.2 MEDIA ARITMÉTICA PARA DATOS TABULADOS (sin intervalos)
La media aritmética para datos tabulados se obtiene mediante la siguiente
fórmula:
n
xf
x
k
i
ii 1
__
Ejemplo 9
Hallar el número promedio de hijos por familia.
X F
0 3
1 8
2 6
3 4
4 9
Métodos estadísticos
UCV – Lima este Página 53
Solución: 36.230
711__
n
xf
x
k
i
ii
4.3 MEDIA ARITMÉTICA PARA DATOS TABULADOS (con intervalos)
La media aritmética para datos tabulados se obtiene mediante la
siguiente fórmula:
n
xf
x
k
i
ii 1
__
Ejemplo 10
Los ingresos quincenales de 50 personas están representados en la siguiente tabla
hallar el promedio.
INTERVALOS
f
10 23 1
23 36 3
36 49 3
49 62 20
62 75 17
75 88 4
88 101 2
4.4 PROPIEDADES DE LA MEDIA ARITMÉTICA
La suma total de n valores es igual “ nx___
”.
La media de una constante es igual a la misma constante.
La media del producto de una constante por una variable, es igual al producto
de la constante por la media de la variable.
La media de la suma de dos variables, es igual a la suma de las medias de cada
una de dichas variables.
Si cada uno de los “n” valores de XI es trasformado en: YI = aXi + b,
siendo “a” y “b” constante, entonces, la media de los “n” valores es:
bxay ____
La media aritmética de datos tabulados, se calcula también utilizando las
frecuencia relativas.
Métodos estadísticos
UCV – Lima este Página 54
k
i
iihxx1
__
La media de una muestra es igual a la media ponderada de su sub.
muestras donde los pesos son los tamaños respectivos.
k
i
i
k
i
ii
n
xn
x
1
1
__
__
NOTA
La media aritmética como estadígrafo de posición de una distribución
proporciona una idea de la posición de los valores alrededor de la media.
La media es un valor promedio, por tanto no significa que todos los
valores observados resultan ser iguales.
La media siempre está influenciada por los valores extremos, sean mayores
o menores.
La media aritmética no divide en dos partes iguales a un conjunto de
datos.
5. CUARTILES
Los cuartiles son los estadígrafos que divide a un conjunto de datos en
cuatro partes iguales y en total son tres cuartiles; se calcula utilizando la siguiente
fórmula:
1
14
ii
i
iKFF
Fkn
ALQ k = 1, 2, 3
Ejemplo 11
Los ingresos quincenales de 50 personas están representados en la siguiente tabla.
Hallar el primer cuartil.
INTERVALOS F F
10 23 1 1
23 36 3 4
36 49 3 7
49 62 20 27
62 75 17 44
75 88 4 48
88 101 2 50
Métodos estadísticos
UCV – Lima este Página 55
58.39727
75.1213364
1
1
ii
i
iKFF
Fkn
ALQ
El 25% de los ingresos quincenales son menores o iguales a 39.58
Ejemplo 12
Los ingresos quincenales de 50 personas están representados en la siguiente tabla.
Hallar el tercer cuartil.
INTERVALOS f F
10 23 1 1
23 36 3 4
36 49 3 7
49 62 20 27
62 75 17 44
75 88 4 48
88 101 2 50
68.65744
275.3713624
3
1
1
3
ii
i
iFF
Fn
ALQ
El 75% de los ingresos quincenales son menores o iguales a 65.68
6. DECILES
Es el estadígrafo que divide a un conjunto de datos en 10 partes iguales; se
calcula mediante la siguiente fórmula:
1
110
ii
i
iKFF
Fkn
ALD
Ejemplo 13
Los ingresos quincenales de 50 personas están representados en la siguiente tabla.
Hallar el decil 8.
Métodos estadísticos
UCV – Lima este Página 56
INTERVALOS F F
10 23 1 1
23 36 3 4
36 49 3 7
49 62 20 27
62 75 17 44
75 88 4 48
88 101 2 50
94.712744
2740136210
1
1
ii
i
iKFF
Fkn
ALD
El 80% de los ingresos quincenales son menores o iguales a 71.94
7. PERCENTILES
Es el estadígrafo que divide a un conjunto de datos en 100 partes iguales
1
1100
ii
i
iKFF
Fkn
ALP
Ejemplo 14
Los ingresos quincenales de 50 personas están representados en la siguiente tabla.
Hallar el percentil 35.
INTERVALOS F F
10 23 1 1
23 36 3 4
36 49 3 7
49 62 20 27
62 75 17 44
75 88 4 48
88 101 2 50
Métodos estadísticos
UCV – Lima este Página 57
83.55727
75.171649100
1
1
ii
i
iKFF
Fkn
ALP
El 35% de los ingresos quincenales son menores o iguales a 55.93 soles.
ACTIVIDADES
1. La inversión anual, en miles de dólares, de una muestra de 50 fábrica en
compra de insumo están distribuido en la siguiente tabla de frecuencia. Hallar
las medidas de tendencia central.
INTERVALOS f
20 - 50 12
50 - 80 7
80 - 110 6
110 - 140 15
140 - 170 10
2. A 50 obreros varones se le midió la puntuación de Hamilton y se le
representó en la siguiente tabla de frecuencia. Hallar las medidas de tendencia
central.
INTERVALOS f
21,3 - 24,3 5
24,3 - 27,3 10
27,3 - 32,3 15
32,3 - 37,3 10
37,3 - 42,3 10
Métodos estadísticos
UCV – Lima este Página 58
3. Los costos de fabricación de 20 productos son los siguientes:
9,35 8,56 9,00 8,63
9,60 9,00 8,56 9,5
9,46 7,52 9,99 8,00
9,53 9,77 9,54 7,56
9,20 8,56 9,36 8,56
Si el precio de venta de cada producto es tres veces su costo de fabricación
menos 5 soles. Calcular la utilidad media por producto.
4. El sueldo promedio de 200 empleados de una empresa es 400. Se
propone dos alternativas de aumento: a) 75 soles a cada uno, b) 15% de
su sueldo más 10 soles a cada uno. Si la clínica dispone a lo más de
94000 soles para pagar sueldos, ¿Cuál alternativa es la más conveniente?
5. De una central telefónica de una empresa salieron 70 llamadas de menos de
tres minutos, promediando 2.3 minutos, 40 llamadas de menos de 10
minutos pero no menos de tres minutos, promediando 6.4 minutos, y 10
llamadas de al menos 10 minutos, promediando 15 minutos. Calcular la
duración promedio de todas las llamadas.
Métodos estadísticos
UCV – Lima este Página 59
GLOSARIO
Defina brevemente, con sus propias palabras, cada término de la lista.
Mediana: …………………………………………………………………………….
Moda: ……………………………………………………………………………….
Media: ……………………………………………………………………………….
Percentiles: …………………………………………………………………………..
Cuartiles: ……………………………………………………………………………..
Deciles: ……………………………………………………………………………….
Asimetría positiva: …………………………………………………………………..
Asimétrica negativa: ………………………………………………………………..
AUTOEVALUACIÓN
1. Los egresos de una empresa varían de 3000 a 8000 soles distribuido en
forma simétrica en cinco intervalos de igual amplitud, con el 15%, 20%
y 30% de casos en el primer, segundo y tercer intervalo
respectivamente. Calcule el egreso promedio
2. En un examen de estadística participaron tres grupos A, B y C con un total de
180 alumnos; habiendo obtenidos nota promedio general de 72 puntos. Los
puntajes promedio de los grupos A y B fueron 75 y 62, y estaba constituido
por 80 y 60 alumnos respectivamente. ¿Cuál es la nota promedio del grupo
C?
3. En el control de calidad de 120 lotes de determinado producto, se observó
el número de artículos defectuosos por lote, obteniendo los siguientes
resultados: el 5% de los lotes no tiene artículos defectuoso, el 15% tiene un
defectuoso, el 25% tiene 2 defectuosos, el 45% tiene 3 defectuosos y el
resto contiene 4 defectuoso.
Métodos estadísticos
UCV – Lima este Página 60
4. Cuatro fabricas A, B, C y D, producen un mismo tipo de objeto. La fábrica B
produce el doble d C, la D 10% menos que la C y la A el 60% menos
que la B. si los costos de producción por cada unidad del objeto de esta
fábricas son respectivamente: 0.2, 0.3, 0.2 y 0.5, calcule el precio medio de
venta si se sabe que la fábrica gana 20% por unidad vendida.
5. El sueldo medio de los obreros de una fábrica es de 286 dólares ¿Qué
porcentaje de hombres y mujeres trabajan en la fábrica si su sueldo medio
respectivo son 300 y 260 dólares?
BIBLIOGRAFÍA
1. ÁVILA, Roberto. Estatística Elemental. 3era. Edición. Lima. Estudios y Ediciones
R.A. 2002. 224 p
2. CÓRDOVA Manuel. Estadística Descriptiva e Inferencial Aplicaciones. Editorial,
Librería Moshera S.R.L. 2008.
3. JHONSON, Robert. Estatística Elemental. 2da. Edición. México DF. Editorial
Trillas. 2002. 180 p.
4. MITACC Meza Máximo. Tópicos de Estadística Descriptiva y Probabilidad.
Editorial San Marcos. 2000
5. MONTGOMERY, M E. y RUNGER, G. Probabilidad y Estadística Aplicada a la
Ingeniería. 1era. Edición. México. DF. Mc Graw Hill. 1999. 200 p.
6. WALPOLE, R. [et al. ]. Probabilidad y Estadística para Ingenieros. 6ta. Edición.
México DF. Pearson Educativo. 2002. 200 p.
Métodos estadísticos
UCV – Lima este Página 61
MEDIDA DE DISPERSIÓN
1. INTRODUCCIÓN
Las medidas de tendencia central no son suficientes para describir un conjunto
de valores de alguna variable estadística. Los promedios determinan el centro, pero
nada indica de cómo están situados los datos respecto al centro.
En primer lugar, se necesita una medida de nivel de dispersión o la
variabilidad de los datos con respecto a su centro con la finalidad de ampliar la
descripción de los datos o de comparar dos o más serie de datos.
En segundo lugar , se necesita una medida de grado o nivel de la asimetría o
la deformación en ambos lados del centro de una serie de datos, con el fin de
describir la forma de la distribución de los datos. Esta medida se denomina índice
de asimetría.
En tercer lugar, se necesita una medida que nos permita comparar el
apuntamiento o curtosis de distribución simétrica con respecto a la distribución
simétrica normal. Esta medida se denomina índice de apuntamiento o curtosi.
2. DEFINICIÓN
Las medidas de dispersión o variabilidad son números que miden el
grado de separación de los datos con respecto a un valor central, que
generalmente es la media aritmética.
Las principales medidas de dispersión son:
El rango
El rango intercuartil
La varianza
La desviación estándar
El coeficiente de variación
3. RANGO O RECORRIDO
El rango o recorrido, de una serie de datos, es la diferencia entre sus
valores máximo y mínimo.
R = max – min
El rango es una medida de dispersión muy fácilmente calculable, pero es
muy inestable, ya que depende únicamente de los dos valores extremos. Su
valor puede cambiar grandemente si se añade o elimina un solo dato. Por
tanto su uso es muy limitado.
Métodos estadísticos
UCV – Lima este Página 62
4. RANGO INTERCUARTIL
El rango intercuartil, es la diferencia entre sus cuartiles tercero y
primero.
RI = Q3 – Q1
El rango intercuartil es una medida que excluye el 25% más alto y el
25% más bajo, dando un rango dentro del cual se encuentra el 50% central
de los datos observados y a diferencia del rango total no se encuentra
afectada por los valores extremos.
5. LA VARIANZA
La varianza, es una medida que cuantifica el grado de dispersión o de
variación de los valores de una variable cuantitativa con respecto a la media
aritmética. Si los valores tienden a concentrarse alrededor de su media, la
varianza será pequeña. Si los valores tiende a distribuirse lejos de la media, la
varianza será grande.
La varianza es la media aritmética de los cuadrados de las diferencia de
los datos con respecto a su media aritmética.
a. La varianza para datos no tabulados
2
1
2
1
2
2
)(
UN
X
N
Uxn
i
i
n
i
i
Ejemplo 1
Hallar la varianza al siguiente conjunto de datos 5, 8, 12, 19, 14.
b. La Varianza para datos tabulados (sin intervalo)
2
1
2
1
2
2
)(
UN
fX
N
UXfn
i
iii
n
i
ii
Ejemplo 2
Hallar la varianza de la tabla siguiente, que representa el número de hijos por
familia.
X f
0 3
1 8
2 6
3 4
4 9
Métodos estadísticos
UCV – Lima este Página 63
c. La Varianza para datos tabulados (con intervalo)
2
1
2
1
2
2
)(
UN
fX
N
UXfn
i
iii
n
i
ii
Ejemplo 3
Los ingresos quincenales de 50 personas están representados en la siguiente tabla
hallar la varianza.
INTERVALOS f
10 23 1
23 36 3
36 49 3
49 62 20
62 75 17
75 88 4
88 101 2
Propiedades de la varianza
Para cualquier distribución la varianza es siempre una cantidad no negativa.
Si el valor de las observaciones son todos iguales, entonces la varianza es cero.
La varianza de una constante es cero.
La varianza del producto de una constante por una variable, es igual al
cuadrado de la constate por la varianza de la variable.
La varianza de la suma de una variable mas una constante, es igual a la
varianza de la variable.
6. DESVIACIÓN ESTÁNDAR
La desviación estándar es la raíz cuadrada positiva de la varianza 2
7. COEFICIENTE DE VARIACIÓN
El coeficiente de variación es una medida de dispersión relativa, que se
define como la desviación estándar dividido por la media aritmética.
El coeficiente de variación es una medida muy útil para comparar la
variabilidad de dos o más serie de datos que tenga distinta unidades de
medidas o media aritmética diferente.
Métodos estadísticos
UCV – Lima este Página 64
%100*.
U
VC
8. USO DE LAS MEDIDAS DE VARIACIÓN
La varianza viene expresada en unidades cuadráticas en las que vienen
expresado los datos. Las desviación estándar viene expresada en la misma
unidades en las que viene expresados los datos. El coeficiente de variación
viene expresada en números abstractos (suprimiendo las unidades en las que
vienen expresado los datos)
Si dos o más serie tienen medias aritméticas iguales y dispersiones
diferentes entonces la serie de mayor variación es aquel que tiene mayor
medida de dispersión. La serie de menor variación es aquella que tiene menor
medida de dispersión.
Si dos o más serie de datos, no tienen medias iguales o no tienen la
misma unidades de medición, entonces la serie de mayor variación es aquella
que tenga mayor coeficiente de variación.
NOTA
Las medidas de dispersión más usuales son:
MUESTRA - POBLACIÓN
Rango R R
Varianza S2 2
Desviación estándar S
DATOS SIN AGRUPAR
N
UXN
i
i
1
2
2
1
1
2
2
n
xx
S
n
i
i
DATOS AGRUPADOS
N
fUXK
i
ii
1
2
2
.
1
.1
2
2
n
fxm
Si
k
i
i
Métodos estadísticos
UCV – Lima este Página 65
ACTIVIDADES
1. A 50 varones se le midió la puntuación de Hamilton y se le representó en la
siguiente tabla de frecuencia, hallar las medidas de dispersión.
INTERVALOS f
21,3 - 24,3 5
24,3 - 27,3 10
27,3 - 32,3 15
32,3 - 37,3 10
37,3 - 42,3 10
2. En un estudio se obtuvieron estas observaciones sobre el perímetro en
centímetro de 100 mesa el cual está representado en la siguiente tabla, hallar
las medidas de dispersión.
INTERVALOS f
10 - 20 20
20 - 30 30
30 - 40 10
40 - 50 15
50 - 60 25
3. A 50 sujetos se les midió la cantidad de alcohol consumido por semana, la
cual se muestra en la siguiente tabla. Hallar las medidas de dispersión. El coeficiente
intelectual de 40 obreros está distribuido en la siguiente tabla. Hallar las medidas
de posición.
INTERVALOS f
0 - 4 5
4 - 8 10
8 - 12 5
12 - 16 15
16 - 20 15
Métodos estadísticos
UCV – Lima este Página 66
4. La siguiente tabla corresponde a la distribución de una muestra de empleados del
Ministerio de Educación según su tiempo de servicios (años). Halle e intérprete: la
media aritmética, la mediana y la moda y ubicar estos valores en el Histograma
correspondiente.
5. La inversión anual, en miles de dólares, de una muestra de 50 empresa
están distribuido en la siguiente tabla de frecuencia. Hallar las medidas de
dispersión.
INTERVALOS f
20 - 50 12
50 - 80 7
80 - 110 6
110 - 140 15
140 - 170 10
Tiempo de
servicios
Nº
empleados
[0 – 4>
4 – 8
8 – 12
12 – 16
16 – 20
20 – 24
24 – 28
28 - 32
11
13
20
17
12
6
4
2
Métodos estadísticos
UCV – Lima este Página 67
GLOSARIO
Defina brevemente, con sus propias palabras, cada término de
la lista.
Rango: …………………………………………………………………………………
Intercuartil: ……………………………………………………………………….……
Varianza: ……………………………………………………………………………….
Desviación estándar: ……………………………………………………………….…
Coeficiente de variación: …………………………………………………………….
Homogéneo: …………………………………………………………………………..
Heterogéneo: ………………………………………………………………………….
AUTOEVALUACIÓN
1. En un test aplicado a 100 personas se obtuvo la siguientes información: los
puntajes se tabularon en una distribución de frecuencia simétrica de 5
intervalos de amplitud iguales, siendo el puntaje mínimo 40 y el máximo
de 90. la frecuencia absoluta del intervalo central fue de 40 y del quinto
de 10. calcular la varianza.
2. Una prueba de conocimiento, A se calificó sobre 20 puntos dando una
media de 12 y una desviación estándar de 2 puntos. Mientras que una
prueba de aptitud ,B se calificó sobre 100 puntos, dando una media de
70 y una desviación estándar de 5 ¿En cuál de las dos pruebas los
puntajes son más homogéneos?
3. Los sueldo de 150 trabajadores de una empresa tiene un coeficiente de
variación del 5% en el mes de agosto. para el mes de septiembre hay un
aumento a cada trabajador el 20% de su sueldo más una bonificación de
60$ y el coeficiente de variación baja a 4%. Calcular la media y la
desviación estándar de los sueldos del mes de agosto.
Métodos estadísticos
UCV – Lima este Página 68
4. La distribución de los sueldos de los empleados de dos empresa A y B se
tabularon en tres intervalos de igual amplitud en cada caso, siendo las
frecuencias absoluta del primero al tercero de 10, 30, 30 y de 30, 50, 20.
respectivamente en A y B. Si los sueldos mínimo y máximo son de 50 y
200 en A, y de 60 y 240 en B. ¿En qué empresa los sueldo son más
homogéneos?
BIBLIOGRAFÍA
1. ÁVILA, Roberto. Estatística Elemental. 3era. Edición. Lima. Estudios y Ediciones
R.A. 2002. 224 p
2. CÓRDOVA Manuel. Estadística Descriptiva e Inferencial Aplicaciones. Editorial,
Librería Moshera S.R.L. 2008.
3. JHONSON, Robert. Estatística Elemental. 2da. Edición. México DF. Editorial
Trillas. 2002. 180 p.
4. MITACC Meza Máximo. Tópicos de Estadística Descriptiva y Probabilidad.
Editorial San Marcos. 2000
5. MONTGOMERY, M E. y RUNGER, G. Probabilidad y Estadística Aplicada a la
Ingeniería. 1era. Edición. México. DF. Mc Graw Hill. 1999. 200 p.
6. WALPOLE, R. [et al. ]. Probabilidad y Estadística para Ingenieros. 6ta. Edición.
México DF. Pearson Educativo. 2002. 200 p.
Métodos estadísticos
UCV – Lima este Página 69
UNIDAD DIDÁCTICA 2: PROBABILIDADES E INFERENCIA
Capacidad de Unidad: Aplica probabilidades en situaciones reales y
analiza resultados, teniendo en cuenta la teoría de probabilidad
PROBABILIDAD BÁSICA
1. EXPERIMENTO
Es un proceso mediante el cual se obtiene un
resultado de una observación.
1.2 CLASIFICACIÓN DE EXPERIMENTOS
Los experimentos se dividen en dos clases:
1.2.1 Experimento determinístico
Es aquel experimento que está completamente determinado y puede describirse
por una fórmula matemática llamado también modelo determinísticos.
1.2.2 Experimento no determinístico
Es aquel experimento donde no se puede predecir con exactitud los
resultados.
1.2.3 Experimento aleatorio
Es todo proceso que consiste de la ejecución de un acto o prueba una
o más veces, cuyo resultados en cada prueba depende del azar y en
consecuencia no se puede predecir con certeza y cumple ciertas características:
Que sea repetible en igualdad de condiciones.
Que se pueda describir el conjunto de todos los resultados posibles aunque no se
pueda asegurar un resultado en particular.
Si se repite un número grande de veces debe aparecer cierta regularidad
estadística.
Ejemplo
E1: Lanzar un dado
E2: Lanzar una moneda tres veces
E3: Lanzar una moneda tantas veces hasta que aparezca la primera cara
E4: Medir la vida útil en horas de una marca de artefacto eléctrico
Métodos estadísticos
UCV – Lima este Página 70
1.2.3.1. Clasificación de experimento aleatorio
Los experimentos aleatorios se clasifican en:
a. Experimento simple
Es aquel experimento que está formado por un solo acto o prueba.
Ejemplo
Lanzar un dado
Lanzar una moneda
b. Experimento compuesto
Un experimento se dice que es compuesto, si consiste de dos o más
experimento simples. A la vez se clasifican en:
Experimento unido por la “o” excluyente: Un experimento
compuesto E, se dice que es una combinación de los experimento
simples, E1 , E2 si, solo si el experimento E ocurre, cuando el
experimento E1 o E2 ocurre pero no ambos.
Ejemplo
Lanzar un dado o una moneda.
Extraer una ficha de la urna 1 o de la urna 2.
Experimento unido por la “y”: Un experimento compuesto E, se dice
que es una combinación de los experimento simples, E1 , E2 si, solo si el
experimento E ocurre, cuando el experimento E1 y E2 ocurre en forma
simultáneas o consecutivas.
Ejemplo
Lanzar un dado y una moneda simultáneamente.
Extraer dos fichas de una urna.
2. ESPACIO MUESTRAL:
Se denomina espacio muestral al conjunto que contiene todos los
resultados posible de un experimento aleatorio.
Cada resultado posible de un experimento aleatorio es un elemento del
espacio muestral. A cada elemento del espacio muestral se denomina también
punto muestral. Esto es, el espacio muestral se describe por:
= / es un punto muestral
Si el espacio muestral tiene un numero finitos de elementos es posible
en listar a todos estos, y si el número de elementos es grande o infinito el
espacio muestral se describirá mediante un enunciado o regla de
correspondencia.
Métodos estadísticos
UCV – Lima este Página 71
2.1 CLASIFICACIÓN DE LOS ESPACIOS MUESTRALES
Por el número de elementos o puntos muéstrales, los espacios muéstrales
se clasifican en:
Discreto finitos, consisten de un numero finito de elementos.
Discreto infinito, consiste de un número infinito numerable de elementos.
Continuos, consiste de un número infinito no numerable de elementos.
Ejemplo
Observar el lanzamiento de una moneda
1 , ,S cara sello c s
Observar el lanzamiento de un dado
6,5,4,3,2,12 S
Medir la duración de un equipo electrónico
0:3 ttS
Contar el número de vehículos que pasan por un cruce en lapsos de un minuto
El lanzamiento de dos dados
Lanzamiento de un dado y una moneda
3. EVENTOS: A, B, C……..Z
Se denomina evento a cualquier subconjunto de un espacio muestral.
3.1 CLASE DE EVENTOS
Los eventos se clasifican en:
Eventos imposible, Ø es aquel que no tiene puntos muestrales, en
consecuencia no ocurre nunca.
Eventos unitarios o elementales, w es aquel que contiene un solo
punto muestral.
Eventos compuestos, es el que consiste de dos o más eventos.
Evento seguro o cierto, es el mismo espacio muestral, ya que es el
subconjunto que contiene a todos los eventos elementales.
1) E1 : Lanzamiento de una moneda.
1 , ,S cara sello c s
Podremos plantear los siguientes eventos:
A1: que salga cara A1 = { c }
A2 : que salga sello A2 = ______
Métodos estadísticos
UCV – Lima este Página 72
2) E2 :Lanzamiento de un dado
6,5,4,3,2,12 S
B1 : que salga número par B1 = _______________________
B2 : que salga número impar B2 = _______________________
B3 : que salga número 4 ò 5 B3 = _______________________
3.2 OPERACIONES CON EVENTOS
a. Unión de eventos
Se denomina unión de los eventos A y B, al evento A B que consiste
de todos los puntos muéstrales que pertenecen al evento A o al evento
B, o ambos.
BA = {w / w A w B}
b. Intersección de eventos
Se denomina intersección de los eventos A y B al eventos AB que
consiste de todos los puntos muéstrales que son comunes al evento A y al
evento B.
BA = {w / w A w B}
c. Diferencia de evento
La diferencia del evento A menos B es el evento A – B, que consiste
de todos los puntos muéstrales que pertenecen al evento A y no pertenecen
al evento B.
BA = {w / w A w B}
d. Complemento de un evento
Si A está incluido en B entonces el complemento está formado por
aquellos elementos que están fuera del conjunto A.
AC = {w B / w A}
e. Eventos disjuntos
Dos eventos A y B son mutuamente excluyentes o disjuntos, si no tiene
elementos en común, esto es si, BA = .
3.3 PROBABILIDAD DE UN EVENTO
3.3.1 Definición de probabilidad
La probabilidad de un evento es la razón entre el número de casos
favorables y el número total de casos posibles.
Métodos estadísticos
UCV – Lima este Página 73
n
AnAP
3.3.2 Axioma de probabilidad
0 ≤ P(A) ≤ 1 Para cada evento “A” en Ω
0 0.5 1
Sin probabilidad Tan probable Certeza
De ocurrir como improbable de ocurrir
P(Ω) = 1
Para cualquier numero finito k de eventos mutuamente excluyentes en Ω,
entonces
K
i
i
K
i
i APAP11
3.4 TEOREMA
Si Ǿ es el evento imposible, entonces P(Ǿ) = 0
Para cada evento A, se cumple que P(AC) = 1 – P(A)
A y B son eventos tales que A esta dentro de B, entonces P(A) ≤ P(B)
Si A y B son dos eventos cualquiera en Ω entonces
)()()( BAPBPAPBAP
Si A, B y C son tres eventos cualquiera en Ω, entonces
)()()()()()()()( CBAPCBPCAPBAPCPBPAPCBAP
Ejemplo
Consideremos el lanzamiento de un dado dos veces. Calcular la
probabilidad de Obtener suma 7
Ejemplo
Se tiene el siguiente experimento aleatorio
DEFINICIÓN DE PROBABILIDAD
CLÁSICA
Probabilidad de un evento =# de resultados favorables
# de resultados posiblesDEFINICIÓN DE PROBABILIDAD
CLÁSICA
Probabilidad de un evento =# de resultados favorables
# de resultados posibles
Métodos estadísticos
UCV – Lima este Página 74
E: Lanzamiento de dos monedas al aire.
a) Calcule el espacio maestral
b) Sea el evento A: salga solo una cara. Plantee el evento A, utilizando conjunto
c) ¿Cuál es la probabilidad de que salga 1 cara?
Ejemplo
Hallar la probabilidad de sacar un “Rey” al extraer una carta de una baraja de 52
cartas
Ejemplo
Hallar la probabilidad de que en el lanzamiento de 3 monedas se obtenga resultados
iguales
Ejemplo
Si se tira 4 monedas, una después de la otra.
Halle el espacio muestral.
Halle la probabilidad de que salgan 2 caras.
Halle la probabilidad de que al menos salgan 2 caras.
Halle la probabilidad de que a lo más salgan 2 caras.
Ejemplo
Si se extraen dos cartas de un mazo. Hallar la probabilidad de que salgan 2…
a) Con reemplazamiento
b) Sin reemplazamiento
4. PROBABILIDAD CONDICIONAL
La probabilidad condicional es una parte de las probabilidades que se ocupa del
análisis de aquellos experimentos aleatorios que se ejecutan en más de una etapa. Es
decir, la probabilidad condicional estudia la relación de dos o más eventos, de tal
manera que la probabilidad de ocurrencia de un evento depende de la ocurrencia o
no del otro.
4.1 Definición de Probabilidad Condicional: Para dos eventos cualesquiera A y B
en un espacio muestra S, tales que P(A) > 0 con 0, P(A) la probabilidad del evento
B dado el evento A, se define por:
La definición de probabilidad condicional satisface los siguientes axiomas:
a)
b)
c)
d) P ( A
Métodos estadísticos
UCV – Lima este Página 75
EJEMPLO
Se lanzan dos dados. Si la suma ha sido 7, ¿cuál es la probabilidad de que alguno de
los dados haya salido un tres?
Sean los sucesos:
A= "la suma de los puntos es siete"
B = "en alguno de los dados ha salido un tres"
El suceso B /A es salir en algún dado 3, si la suma ha sido 7.
Observamos que esta situación ocurre en las parejas (3 , 4) y (4 , 3) . Por tanto,
P (B / A) = 1 / 3
EJEMPLO
Se tiene la siguiente información:
Especialidad /
Sexo Varones Mujeres Total
Ciencias 42% 28% 70%
Letras 12% 18% 30%
Total 54% 46% 100%
Se definen los siguientes eventos:
A : El estudiante elegido es de ciencias.
B : El estudiante elegido es varón.
Hallar:
a)
b)
Solución:
a)
b)
5. PROBABILIDAD TOTAL
El Teorema de la probabilidad total nos permite calcular la probabilidad de un
suceso a partir de probabilidades condicionadas.
Antes de introducir la fórmula pasaremos a explicar el concepto de Partición de un
conjunto.
Se llama partición a conjunto de sucesos Ai (A 1 , A 2 , . . . , A n ) tales que
A1 U A2 U... U An = S y Ai Aj =
Métodos estadísticos
UCV – Lima este Página 76
Sea A1, A2, ...,An un sistema completo de sucesos tales que la probabilidad de cada uno
de ellos es distinta de cero, y sea B un suceso cualquier del que se conocen las
probabilidades condicionales P(B/Ai), entonces la probabilidad del suceso B viene dada
por la expresión:
Ejemplo
Una compañía dedicada al transporte público explota tres líneas de una ciudad, de
forma que el 60% de los autobuses cubre el servicio de la primero línea, el 30% cubre
la segunda y el 10% cubre el servicio de la tercera línea. Se sabe que la probabilidad
de que, diariamente, un autobús se averíe es del 2%, 4% y 1%, respectivamente, para
cada línea. Determina la probabilidad de que, en un día, un autobús sufra una avería.
Solución:
El suceso "sufrir una avería" (Av) puede producirse en las tres líneas, (L1, L2, L3). Según
el teorema de la probabilidad total y teniendo en cuenta las probabilidades del
diagrama de árbol adjunto, tenemos:
P(Av) = P(L1) · P(Av/L1) + P(L2) · P(Av/L2) + P(L3) · P(Av/L3) =
= 0.6 · 0.02 + 0.3 · 0.04 + 0.1 · 0.01 =
= 0.012 + 0.012 + 0.001 = 0.025
Ejemplo 22
Una empresa del ramo de la alimentación elabora sus productos en cuatro factorías:
F1, F2, F3 y F4. El porcentaje de producción total que se fabrica en cada factoría es del
40%, 30%, 20% y 10%, respectivamente, y además el porcentaje de envasado
incorrecto en cada factoría es del 1%, 2%, 7% y 4%. Tomamos un producto de la
empresa al azar. ¿Cuál es la probabilidad de que se encuentre defectuosamente
envasado?
Métodos estadísticos
UCV – Lima este Página 77
Solución:
Llamando M = "el producto está defectuosamente envasado", se tiene que este
producto puede proceder de cada una de las cuatro factorías y, por tanto, según el
teorema de la probabilidad total y teniendo en cuenta las probabilidades del diagrama
de árbol adjunto, tenemos:
P(M) = P(F1) · P(M/F1) + P(F2) · P(M/F2) + P(F3) · P(M/F3) + P(F4) · P(M/F4) =
= 0.4 · 0.01 + 0.3 · 0.02 + 0.2 · 0.07 + 0.1 · 0.04 =
= 0.004 + 0.006 + 0.014 + 0.004 = 0.028
6. TEOREMA DE BAYES
El Teorema de Bayes, dentro de la teoría probabilística, proporciona la
distribución de probabilidad condicional de un evento "A" dado otro evento "B"
(probabilidad posteriori), en función de la distribución de probabilidad condicional
del evento "B" dado "A" y de la distribución de probabilidad marginal del evento "A"
(probabilidad simple o apriori).
Teorema:
Sea A1, A2, ...,An un sistema completo de sucesos, tales que la probabilidad de
cada uno de ellos es distinta de cero, y sea B un suceso cualquier del que se conocen
las probabilidades condicionales P(B/Ai). Entonces la probabilidad P(Ai/B) viene dada
por la expresión:
Ejemplo
Tres máquinas, A, B y C, producen el 45%, 30% y 25%, respectivamente, del total de
las piezas producidas en una fábrica. Los porcentajes de producción defectuosa de
estas máquinas son del 3%, 4% y 5%.
Seleccionamos una pieza al azar; calcula la probabilidad de que sea defectuosa.
Tomamos, al azar, una pieza y resulta ser defectuosa; calcula la probabilidad de
haber sido producida por la máquina B.
¿Qué máquina tiene la mayor probabilidad de haber producido la citada pieza
defectuosa?
Solución:
Sea D= "la pieza es defectuosa" y N= "la pieza no es defectuosa". La información del
problema puede expresarse en el diagrama de árbol adjunto.
a. Para calcular la probabilidad de que la pieza elegida sea defectuosa, P(D), por la
propiedad de la probabilidad total,
P(D) = P(A) · P(D/A) + P(B) · P(D/B) + P(C) · P(D/C) =
= 0.45 · 0.03 + 0.30 · 0.04 + 0.25 · 0.05 = 0.038
Métodos estadísticos
UCV – Lima este Página 78
b. Debemos calcular P(B/D). Por el teorema de Bayes,
c. Calculamos P(A/D) y P(C/D), comparándolas con el valor de P(B/D) ya calculado.
Aplicando el teorema de Bayes, obtenemos:
La máquina con mayor probabilidad de haber producido la pieza defectuosa es A.
6. EVENTOS INDEPENDIENTES
El concepto de independencia es importante porque facilita el análisis de los
datos estadísticos. Si no se tuviese este concepto, el análisis sería muy complejo y en
algunos casos imposible de llevarse a cabo.
Decimos que el par de eventos A,B son independientes sí y solo sí cualquiera
de las siguientes expresiones son verdaderas.
P(A\B) = P(A)
P(B\A) = P(B)
P(A B) = P(A) . P(B)
Métodos estadísticos
UCV – Lima este Página 79
EJERCICIOS PROPUESTOS
1- ¿Cuál es la probabilidad de obtener una “cara” o más si lanzamos al aire una
moneda tres veces consecutivas? ¿Cuál la de obtener dos o más “caras”?
2. Un experimento consiste en lanzar 4 monedas. Describa el espacio muestral
del experimento. Luego describa el rango de valores del numero de caras y
las veces que cada valor ocurre.
3. Una caja contiene 8 dulce de piña, 6 de naranjas y 4 de fresa. ¿Cuántos
elementos tiene el espacio muestral que resulta de extraer al azar un dulce de
cada sabor?
4. De 8 hombres y 7 mujeres ¿Cuántos comité de 10 miembros se puede formar
si cada uno de ellos debe contener cuando menos 5 mujeres?
5. En una universidad se realiza un estudio para determinar qué relación existe, en
cado de haberla, entre la habilidad matemática y el interés por las matemáticas. Se
determinar la habilidad y el interés de 150 estudiantes, con los resultados
siguientes:
Habilidad
Interés
TOTAL Escaso Promedio Mucho
Escasa 40 8 12 60
Promedio 15 17 18 50
Mucho 5 10 25 40
TOTAL 60 35 55 150
Si se escoge uno de los participantes en el estudio:
¿Cuál es la probabilidad de escoger a una persona que tenga escaso
interés en las matemáticas?
¿Cuál es la probabilidad de seleccionar a una persona con habilidad
promedio?
¿Cuál es la probabilidad de que una persona tenga mucha habilidad para
las matemáticas dado que manifieste mucho interés por esa disciplina?
¿De que la persona tenga mucho interés en las matemáticas dado que
posee una habilidad promedio?
Métodos estadísticos
UCV – Lima este Página 80
6. Un grupo de personas están distribuido de acuerdo a su género y lugar de
procedencia de la siguiente manera: 130 son hombres, 110 son de la capital y
30 son mujeres y de provincia. Si se eligen dos personas al azar de este grupo
calcule la probabilidad de que ambos sean hombres y de provincia.
7. Una urna contiene 20 fichas similares de las cuales 10 son rojas, 6 azules y
4 son verdes. Si se extraen 10 fichas al azar y a la vez calcule la probabilidad
de que ocurran cinco rojas y 3 azules.
8. Una caja contiene 16 pernos de los cuales 8 no tienen defecto, 5 tiene
defecto leves y 3 tiene defecto graves. Si se eligen 3 pernos al azar y de una
sola vez, calcule la probabilidad de que los tres pernos no tengan defecto leve.
9. Si en el control de calidad de la producción de un articulo, la probabilidad de
que se encuentre por lo menos ocho artículos defectuoso es 0.15 y de que se
encuentren a lo más 4 artículos defectuoso es 0.50, ¿Cuál es la probabilidad de
que se encuentre 5, 6, 7 artículos defectuoso en el control?
10. En una encuesta de opinión se encontró que el 25% de los electores votarían
por el candidato E. de lo que no votarían por E el 20% son mujeres. Además,
7 de cada 10 electores son hombre. Si se elige un elector al azar y resulta
mujer, ¿Cuál es la probabilidad de que no vote por E?
11. De los 80 objetos que tienen un lote recibido por un comerciante, 2 de cada 5
son del proveedor A y el resto del proveedor B. además, el 12.5% de
objetos de cada proveedor tiene fallas. Si se inspecciona cuatro objetos del lote
escogidos al azar a la vez, ¿Cuál es la probabilidad de que al menos uno tenga
falla si tres son del lote B?
Métodos estadísticos
UCV – Lima este Página 81
DISTRIBUCIONES IMPORTANTES
1. DISTRIBUCIÓN NORMAL
Esta distribución es frecuentemente utilizada
en las aplicaciones estadísticas. Su propio nombre
indica su extendida utilización, justificada por la
frecuencia o normalidad con la que ciertos
fenómenos tienden a parecerse en su comportamiento a esta distribución.
Muchas variables aleatorias continuas presentan una función de densidad cuya
gráfica tiene forma de campana.
Se dice que la variable aleatoria X es continua cuando toma valores reales
desde el -∞ < x< ∞ y se dice que se distribuye normalmente con media µ y
variancia σ2 .
X ~ N (µ, σ2)
La distribución normal se utiliza como modelo para variables como el peso, la
altura, la calificación en un examen, etc., es decir, en variables cuya distribución es
simétrica respecto a un valor central (alrededor del cual toma valores con gran
probabilidad) y apenas aparecen valores extremos.
Si una variable aleatoria x tiene distribución normal suele representarse como
N(µ,σ2
) donde µ, es la media o valor esperado de la variable y σ= σx es la desviación
típica de la variable, que son los dos parámetros que caracterizan la distribución
normal.
En la distribución normal, la mayoría de la probabilidad se concentra en la
zona central.
Métodos estadísticos
UCV – Lima este Página 82
1.1 Propiedades de la distribución normal:
La distribución normal posee ciertas propiedades importantes que conviene
destacar:
Tiene una única moda, que coincide con su media y su mediana.
La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor
entre y es teóricamente posible. El área total bajo la curva es,
por tanto, igual a 1.
Es simétrica con respecto a su media.
La distancia entre la línea trazada en la media y el punto de inflexión de
la curva es igual a una desviación típica.
El área bajo la curva comprendida entre los valores situados
aproximadamente a dos desviaciones estándar de la media es igual a
0.95.
La forma de la campana de Gauss depende de los parámetros .
1.2 Distribución normal estándar
La distribución normal estándar, o tipificada o reducida, es aquella que tiene
por media el valor cero, μ =0, y por desviación típica la unidad, σ =1.
La probabilidad de la variable X dependerá del área del recinto sombreado
en la figura. Y para calcularla utilizaremos una tabla.
Tipificación de la variable
Para poder utilizar la tabla tenemos que transformar la variable X que sigue
una distribución N(μ, σ) en otra variable Z que siga una distribución N(0, 1).
Cálculo de probabilidades en distribuciones normales
La tabla nos da las probabilidades de P(z ≤ k), siendo z la variable
tipificada. Estas probabilidades nos dan la función de distribución Φ(k).
Φ(k) = P(z ≤ k)
Métodos estadísticos
UCV – Lima este Página 83
Búsqueda en la tabla de valor de k: Unidades y décimas en la columna de
la izquierda. Céntesimas en la fila de arriba.
P(Z ≤ a)
P(Z > a) = 1 - P(Z ≤ a)
P(Z ≤ −a) = 1 − P(Z ≤ a)
P(Z > −a) = P(Z ≤ a)
Métodos estadísticos
UCV – Lima este Página 84
P(a < Z ≤ b ) = P(Z ≤ b) − P(Z ≤ a)
P(−b < Z ≤ −a ) = P(a < Z ≤ b )
Ejemplos.
1) Determinar la probabilidad de cada una de las siguientes expresiones:
a) P ( Z < 1.25 ) b) P ( Z< -2.28)
c) P (Z < 0 ) d) P ( 0 < Z < 2.5 )
e) P ( -2.38 < Z < 0 ) f) P ( - 2.25 < Z < 2.25 )
g) P (1.55 < Z < 2.35) h ) P ( Z > 2.43 )
2) En una población normalmente distribuida con media µ = 30 y variancia igual a
25 se pregunta: ¿Qué porcentaje del total de las observaciones estarán entre 20 y
35?
3) Se sabe que el peso medio de la población de un grupo de estudiantes es igual a 60
Kg., y su desviación estándar es igual a 3 kg. Halle la probabilidad de que el peso
de un alumno este entre 55 y 65 kilogramos.
4) El peso de los atletas de pruebas de medio fondo sigue una distribución normal
con media 64,3 kilos y desviación típica 2,3 kilos. Hallar un intervalo centrado
alrededor de la media que contenga:
a) l 68,3% de la población
Solución.-
b) El 95,5% de la población
Solución.-
c) El 99,7% de la población
Solución.-
Métodos estadísticos
UCV – Lima este Página 85
Ejemplo
La longitud a que se puede estirar sin rotura un filamento de Nylon es una
variable aleatoria con media 5000 pies y desviación estándar 5000. ¿Cuál es la
probabilidad que la longitud promedio de 100 filamento este comprendido entre
4750 y 5500?
Métodos estadísticos
UCV – Lima este Página 86
2. DISTRIBUCIÓN T STUDENT
Sea Z una variable aleatoria normal con media 0 y varianza 1 sea, sea Y
una variable aleatoria que tiene una distribución Chi - cuadrado con r grado de
libertad, y si Y e Z son independiente, entonces la variable aleatoria.
rY
ZT
/
Se dice que tiene una distribución t – student, r grados de libertad.
paTP r
r = grado de libertad
a = cuantil
p = probabilidad
Ejemplo a.
Hallar la probabilidad P (T5< 2,571) = p
Ejemplo b.
Hallar el grado de libertad P (Tr< 1,812) = 0,95
Ejemplo c.
Hallar el cuantil P (T8< a) = 0,95
2.1 TABLA DE LA DISTRIBUCIÓN t- Student
La tabla da áreas 1 y valores , donde, , y donde T
tiene distribución t-Student con r grados de libertad.
rtc ,1 1][ cTP
Métodos estadísticos
UCV – Lima este Página 87
1
r 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995
1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657
2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925
3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604
5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032
6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707
7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355
9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250
10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169
11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106
12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055
13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012
14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977
15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947
16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921
17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898
18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878
19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861
20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845
21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831
22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819
23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807
24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797
25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787
26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779
27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771
28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763
29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756
30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750
40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704
60 0.679 0.848 1.046 1.296 1.671 2.000 2.390 2.660
120 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617
0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576
Métodos estadísticos
UCV – Lima este Página 88
2.1.1 DISTRIBUCIÓN CHI CUADRADO
Sean Z1, Z2, ……Zr, variables aleatorias independientes distribuidas
normalmente, cada una con media 0 y varianza 1, la variable aleatoria
22
2
2
1
2 ...... rZZZX
Se dice que e una variable aleatoria Chi - cuadrado con r grado de libertad
paXP 2
r = grado de libertad
a = cuantil
p = probabilidad
Ejemplo
Hallar la probabilidad P (x2
4< 2,19) = p
Ejemplo
Hallar el grado de libertad P (x2
r< 18,3) = 0,95
Ejemplo
Hallar el cuantil P (x2
6< a) = 095
Métodos estadísticos
UCV – Lima este Página 89
Métodos estadísticos
UCV – Lima este Página 90
2.1.2 DISTRIBUCIÓN F DE FISHER
Considerando dos muestras aleatorias independientes, de tamaño n1 y n2,
extraídas de una población normal, el estadístico F será
DEFINICIÓN
Una variable F se define como el cociente entre dos variables ji-cuadrado
divididas por sus correspondientes grados de libertad.
CARACTERÍSTICAS
Una variable con distribución F es siempre positiva.
La distribución de la variable es asimétrica, pero su asimetría disminuye cuando
aumentan los grados de libertad del numerador y denominador.
Hay una distribución F por cada par de grados de libertad.
Parámetros: Grados de libertad asociados al numerador y denominador
Métodos estadísticos
UCV – Lima este Página 91
Métodos estadísticos
UCV – Lima este Página 92
Métodos estadísticos
UCV – Lima este Página 93
PROBLEMAS PROPUESTOS
1) El ingreso monetario mensual por hogar en una región se distribuye según
el modelo de la probabilidad normal con media 600 y desviación estándar
100 dólares. ¿Qué porcentaje de hogares de la región tienen ingreso
menores de 400?
2) La demanda diaria, en kilogramos, de un producto se distribuye según el
modelo de la probabilidad normal con una media de 50 y una desviación
estándar de 10. ¿Cuál es la probabilidad de que la demanda de un día
cualquiera este entre los 46 y 54 kilogramos?
3) Los resultados de un examen de comportamiento agresivo aplicado a 400
adolescentes se distribuye según el modelo de la probabilidad normal con
una media igual a 35 puntos. Obtenga la desviación estándar de la
distribución si el 84.13% de los adolescentes obtiene al menos 30 puntos.
4) El ingreso monetario mensual por hogar en una comunidad se distribuye
según el modelo de la probabilidad normal con una media de 400 y una
desviación estándar de 50. todos los hogares que están en el décimo superior
de los ingreso mensuales pagan una contribución de solidaridad, ¿a partir de
que ingreso lo hacen?
5) Una pieza es considerada defectuosa y por lo tanto rechazada si su
diámetro es mayor que 2.02 cm. O es menor que 1.98 cm. Suponga que
los diámetros tienen distribución normal con media de 2 cm. Y desviación
estándar de 0.01 cm. ¿Cuántas piezas de 10000 se espera que sean
rechazadas?
6) Los pesos de los posible usuarios de un ascensor constituye una población
cuya distribución normal con una media de 70 Kg. y una desviación estándar
de 10 Kg. si el ascensor admite como peso máximo 585 kg. ¿Cuál es la
probabilidad que el peso total de 10 usuarios supere ese peso máximo?
7) El tiempo, en minuto que demora un operario en ensamblar un objetos es
una variable aleatoria X cuya distribución tiene una media de 30 y una
desviación estándar de 2. el objeto totalmente terminado requiere un
tiempo de x + 5 minutos. Si el operario tiene que entregar 36 objetos
totalmente terminado, calcule la probabilidad de que emplee un tiempo total
de al menos 20.5 horas.
8) Las llamadas que realiza un alumno por su teléfono celular duran en
promedio tres minutos con una desviación estándar de 0.05 minutos. Si el
costo por llamada tiene un valor fijo de 0.8 dólares más un costo variable
Métodos estadísticos
UCV – Lima este Página 94
de 0.5 dólares por minuto, calcule la probabilidad de que el costo total de
36 llamadas sea mayor de 85 dólares.
9) Un supermercado produce pan especial cuyo peso X debe tener una media
de 100 gramos y una desviación estándar de 5 gramos. Si el pan tiene más
de 100 gramos, la diferencia del peso por cada pan tiene un costo en soles
dados por: c = 0.0125x -1.00. Si se produce 200 panes por turno ¿Cuál es
la probabilidad de que el costo total por la diferencia supere los 48
dólares?
10) La duración en meses de los focos que produce una compañía se distribuye
según el modelo de la probabilidad normal. Si el 18.41% de estos focos
duran menos de 8.2 meses y el 6.68% duran al menos 13 meses. Calcule
la media y la varianza de la duración de los focos.
Métodos estadísticos
UCV – Lima este Página 95
TEORÍA DE MUESTREO
1. ESTADÍSTICA
Es la ciencia que se ocupa
de los métodos y procedimientos
para recoger, clasificar, resumir, y
analizar datos, siempre y cuando
la variabilidad e incertidumbre sea
una causa de los mismos; así como
de realizar inferencias a partir de
ellos, con la finalidad de ayudar a
la toma de decisiones y en su caso
formular predicciones.
1.1 ESTADÍSTICA DESCRIPTIVA
Es el conjunto de métodos estadísticos que se relacionan con el resumen
y descripción de los datos, como tablas, graficas y el análisis mediante algunos
cálculos.
1.2 INFERENCIA ESTADÍSTICA
Es el conjunto de métodos con lo cual se hace la generalización sobre
una población utilizando una muestra. La inferencia puede contener conclusiones
que pueden no ser ciertas en forma absoluta, por lo que es necesario que
estas sean dadas con una medida de confiabilidad, el cual se le conoce como
probabilidad.
1.3 POBLACIÓN
Es el conjunto de elementos que contienen una o más característica
observable de naturaleza cualitativa o cuantitativa que se pueden medir en
ellos.
a. UNIDAD ELEMENTAL
Viene a ser cada elemento de la población.
b. UNIDAD DE ANÁLISIS
Elemento del que hay que obtener la información.
Métodos estadísticos
UCV – Lima este Página 96
1.4 VARIABLE
Se denomina variable estadística a una característica definida en la
población por la tarea o investigación estadística, que puede tomar dos o más
valores o modalidades.
1.5 DATO
Es el resultado de medir una característica observable de una unidad de
análisis.
1.6 INFORMACIÓN
Es el resultado que se obtiene al procesar un conjunto de datos.
1.7 PARÁMETRO
Se denomina parámetro a una medida descriptiva que resume una
característica, calculada a partir de los datos observados en toda la población.
1.8 MUESTRA
Se denomina muestra a una parte de la población seleccionada de acuerdo
con un plan o regla, con el fin de obtener información acerca de la población
de la cual proviene.
1.9 ESTADÍGRAFO
Se denomina estadígrafo a una medida descriptiva que resume una
característica, calculada a partir de los datos observados en una muestra
aleatoria.
1.10 ERROR DE ESTIMACIÓN
Es la diferencia entre un estadístico y su parámetro correspondiente. Es una
medida de la variabilidad de las estimaciones de muestras repetidas en torno al valor
de la población, nos da una noción clara hasta dónde y con qué probabilidad una
estimación basada en una muestra se aleja del valor que se hubiera obtenido por
medio de un censo completo. Siempre se comete un error, pero la naturaleza de la
investigación nos indicará hasta qué medida podemos cometerlo.
1.11 MUESTREO
Evaluar el comportamiento de una o varias características o variables de una
población sería muy costoso, por lo que la estadística nos brinda procedimientos para
seleccionar a una parte de esa población y analizarla de tal forma que sus
características coincidan con la población. El muestreo es la selección de una parte
representativa de la población que permita estimar los parámetros de la población.
Métodos estadísticos
UCV – Lima este Página 97
1.11.1 VENTAJAS DEL EMPLEO DE MUESTRAS
Hay muchas razones por las cuales el estudio de una muestra es preferible al de
la totalidad de la población. Ante todo, es evidente que el estudio de muestras es el
único practicable cuando se trata de poblaciones infinitas o de poblaciones limitadas
pero muy extensas, pues ningún investigador sería capaz de estudiarlo en su totalidad.
Lo mismo es valedero para aquellas investigaciones en las cuales el proceso de
investigación destruye al individuo que se estudia, como en el caso en que se prueba la
acción de ciertos venenos en animales de experimentación.
Pero aún en el caso en que se quiera estudiar una poblaci6n perfectamente
limitada, debemos decidirnos por la muestra, pues su utilizaci6n tiene las siguientes
ventajas:
Ahorra tiempo, dinero y trabajo.
Permite una mayor exactitud en el estudio, pues los errores debidos al
observador, al objeto observado y al método de observación, pueden
disminuir y controlarse más efectivamente.
En efecto, como será menor el número de personas que intervengan en el
estudio, será mucho más fácil conseguir buenos especialistas y entrenarlos
uniformemente; como se necesitarán menos instrumentos de investigación, éstos
podrán vigilarse y calibrarse más cuidadosamente.
1.11.2 DESVENTAJAS DEL EMPLEO DE MUESTRAS
La única desventaja del uso de muestras es el llamado error de muestreo, el cual
sumado a los tres tipos de error antes mencionado, podría invalidar nuestro estudio.
Este error de muestreo es una consecuencia de la variabilidad de las poblaciones.
Como los individuos de una población son muy variables, los diferentes grupos
o muestras que podemos formar con ellas diferirán también unas de otras y como
nosotros estudiamos una muestra para generalizar luego a toda la población, los
resultados serán algo distintos según la muestra que hayamos escogido. Esta diferencia
entre el valor dado por la muestra y el verdadero valor de la población, constituye el
error por muestreo.
Ejemplo:
Supongamos que una población de 4 personas tienen un capital de S/. 5 000, S/.
7 000, S/. 6 000 y S/. 10 000 soles respectivamente.
El capital promedio de esta población es
4
000,10000,6000,7000,5 = S/. 7 000
Si no se conociera dicho promedio y para averiguarlo se tomara una muestra
de dos personas, digamos los 2 primeros (5 000, 7 000), concluiríamos que el capital
promedio de cada persona de la población es S/. 6,000, cuando en realidad vemos
Métodos estadísticos
UCV – Lima este Página 98
que fue S/. 7 000, esta diferencia de S/. 1 000 entre el valor de la muestra y el valor
de la población constituye el error por muestreo.
La presencia del error por muestreo parecería indicar que el estudiar una
muestra en vez de la población, es desfavorable y no ventajosa como hemos indicado.
Sin embargo, conviene tener presente:
- En primer lugar, que el error por muestreo suele ser mucho menos importante que
los errores debidos al observador, al método de observación y a los individuos
estudiados, y -en segundo lugar, que el error por muestreo puede medirse
estadísticamente y en cierto modo, puede disminuirse a voluntad, tan solo con
aumentar el tamaño de la muestra.
1.11.3 USOS DEL MUESTREO
El Muestreo es utilizado en diversos campos:
a. Política: Las muestras de las opiniones de los votantes se usan para que los
candidatos midan la opinión pública y el apoyo en las elecciones.
b. Educación: Las muestras de las calificaciones de los exámenes de estudiantes se
usan para determinar la eficiencia de una técnica o programa de enseñanza.
c. Industria: La muestras de los productos de una línea de ensamble sirve para
controlar la calidad.
d. Medicina: Las muestras de medidas de azúcar en la sangre de pacientes diabéticos
prueban la eficacia de una técnica o de un fármaco nuevo.
e. Agricultura: Las muestras del maíz cosechado en una parcela proyectan en la
producción los efectos de un fertilizante nuevo.
f. Gobierno: Una muestra de opiniones de los votantes se usaría para determinar los
criterios del público sobre cuestiones relacionadas con el bienestar y la seguridad
nacional.
1.11.4 TABLA DE NÚMEROS ALEATORIOS
Las Tablas de Números Aleatorios contienen los dígitos 0, 1, 2,..., 7, 8, 9. Tales
dígitos se pueden leer individualmente o en grupos y en cualquier orden, en columnas
hacia abajo, columnas hacia arriba, en fila, diagonalmente, etc., y es posible
considerarlos como aleatorios.
Las tablas se caracterizan por dos cosas que las hacen particularmente útiles para
el muestreo al azar. Una característica es que los dígitos están ordenados de tal manera
que la probabilidad de que aparezca cualquiera en un punto dado de una secuencia es
igual a la probabilidad de que ocurra cualquier otro. La otra es que las combinaciones
de dígitos tienen la misma probabilidad de ocurrir que las otras combinaciones de un
Métodos estadísticos
UCV – Lima este Página 99
número igual de dígitos. Estas dos condiciones satisfacen los requisitos necesarios para
el muestreo aleatorio, establecidos anteriormente
Existen métodos más eficaces para generar números aleatorios, en muchos de
los cuales se utilizan calculadoras u otra clase de aparatos electrónicos. Las tablas
elaboradas mediante estos métodos son verificadas completamente para asegurarse de
que en realidad sean aleatorias. Sin embargo, el interés no radica en elaborar estas
tablas, sino utilizarlas.
Para utilizar una Tabla de Números Aleatorios:
Hacer una lista de los elementos de la población.
Numerar consecutivamente los elementos de la lista, empezando con el cero
Tomar los números de una Tabla de Números Aleatorios, de manera que la cantidad
de dígitos de cada uno sea igual a la del último elemento numerado de su lista. De
ese modo, si el último número fue 18, 56 ó 72, se deberá tomar un número de dos
dígitos.
Omitir cualquier número que no corresponda con los números de la lista o que
repita cifras seleccionadas anteriormente de la tabla. Continuar hasta obtener el
número de observaciones deseado.
Utilizar dichos números aleatorios para identificar los elementos de la lista que se
habrán de incluir en la muestra.
Donald B. Owen, Handbook of Statistical Tables, Reading
Mass:Addisson-Wesley, 1.962
3690 2492 7171 7720 6509 7549 2330 5733 4730
0813 6790 6858 1489 2669 3743 1901 4971 8280
6477 5289 4092 4223 6454 7632 7577 2816 9002
0772 2160 7236 0812 4195 5589 0830 8261 9232
5692 9870 3583 8997 1533 6466 8830 7271 3809
2080 3828 7880 0586 8482 7811 6807 3309 2729
1039 3382 7600 1077 4455 8806 1822 1669 7501
7227 0104 4141 1521 9104 5563 1392 8238 4882
8506 6348 4612 8252 1062 1757 0964 2983 2244
5086 0303 7423 3298 3979 2831 2257 1508 7642
0092 1629 0377 3590 2209 4839 6332 1490 3092
0935 5565 2315 8030 7651 5189 0075 9353 1921
Métodos estadísticos
UCV – Lima este Página 100
2605 3973 8204 4143 2677 0034 8601 3340 8383
7277 9889 0390 5579 4620 5650 0210 2082 4664
5484 3900 3485 0741 9069 5920 4326 7704 6525
6905 7127 5933 1137 7583 6450 5658 7678 3444
8387 5323 3753 1859 6043 0294 5110 6340 9137
4094 4957 0163 9717 4118 4276 9465 8820 4127
4951 3781 5101 1815 7068 6379 7252 1086 8919
9047 0199 5068 7447 1664 9278 1708 3625 2864
7274 9512 0074 6677 8676 0222 3335 1976 1645
9192 4011 0255 5458 6942 8043 6201 1587 0972
0554 1690 6333 1931 9433 2661 8690 2313 6999
9231 5627 1815 7171 8036 1832 2031 6298 6073
3995 9677 7765 3194 3222 4191 2734 4469 8617
2402 6250 9362 7373 4757 1716 1942 0417 5921
5295 7385 5474 2123 7035 9983 5192 1840 6176
5177 1191 2106 3351 5057 0967 4538 1246 3374
7315 3365 7203 1231 0546 6612 1038 1425 2709
5775 7517 8974 3961 2183 5295 3096 8536 9442
5500 2276 6307 2346 1285 7000 5306 0414 3383
3251 8902 8843 2112 8567 8131 8116 5270 5994
4675 5 2192 0874 2897 0262 5092 5541 4014
1.11.5 DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA
)1()1(
)1(22
2
PPZEN
PPNZn
PARA LA PROPORCIÓN
22
2
)1( ZEN
NZn
PARA LA MEDIA
Métodos estadísticos
UCV – Lima este Página 101
a. Métodos de muestreo probabilísticos:
a.1 Muestreo aleatorio simple: Es la forma más común de obtener una muestra en
la selección al azar, es decir, cada uno de los individuos de una población tiene la
misma posibilidad de ser elegido. Si no se cumple este requisito, se dice que la muestra
es viciada. Para tener la seguridad de que la muestra aleatoria no es viciada, debe
emplearse para su constitución una tabla de números aleatorios.
Ejemplo
Se tiene una población de 200 personas, determinar si se trabaja con toda la
población o muestra; y si se trabaja con una muestra determinar el tamaño y
escoger la muestra.
a.2 Muestreo aleatorio sistemático: Es una técnica de muestreo que requiere de
una selección aleatoria inicial de observaciones seguida de otra selección de
observaciones obtenida usando algún sistema o regla.
Ejemplo
Se tiene una población de 400 personas, determinar si se trabaja con toda la
población o muestra; y si se trabaja con una muestra determinar el tamaño
escoger la muestra por muestro aleatorio sistemático.
a.3 Muestreo aleatorio estratificado: Una muestra es estratificada cuando los
elementos de la muestra son proporcionales a su presencia en la población. La
presencia de un elemento en un estrato excluye su presencia en otro. Para este tipo de
muestreo, se divide a la población en varios grupos o estratos con el fin de dar
representatividad a los distintos factores que integran el universo de estudio. Para la
selección de los elementos o unidades representantes, se utiliza el método de muestreo
aleatorio.
En síntesis, requiere de separar a la población según grupos llamados estratos,
y de elegir después una muestra aleatoria simple en cada estrato. La información de las
muestras aleatorias simples de cada estrato constituiría entonces una muestra global.
Ejemplo
Para realizar un control de calidad para determinar en qué estado viene la caña se
realiza un muestreo aleatorio simple, puesto que la caña puede provenir de tres tipos
de proveedores.
Proveedor tipo A (estrato 1) la caña proviene de lotes de la misma finca.
Proveedor tipo B (estrato 2) la caña proviene de fincas de particulares en donde el
ingenio ha prestado servicios
Proveedor tipo C (estrato 3) la caña proviene de fincas de particulares en donde el
ingenio no ha tenido ningún servicio.
Métodos estadísticos
UCV – Lima este Página 102
DATOS:
ESTRATO Ni
1 560
2 190
3 250
a.4 Muestreo aleatorio por área o conglomerado: Requiere de elegir una muestra
aleatoria simple de unidades heterogéneas entre sí de la población llamadas
conglomerados. Cada elemento de la población pertenece exactamente a un
conglomerado, y los elementos dentro de cada conglomerado son usualmente
heterogéneos o disímiles. Ejemplo:
En el muestreo por conglomerados, éstos se forman para representar, tan
fielmente como sea posible, a toda la población; entonces se usa una muestra aleatoria
simple de conglomerados para estudiarla. Los estudios de instituciones sociales como
iglesias, hospitales, escuelas y prisiones se realizan, generalmente, con base en el
muestreo por conglomerados.
Ejemplo
Para un estudio que se realiza en un AA.HH el cual está formado por 20 manzanas
escoger una muestra mediante muestreo aleatorio simple.
NÚMERO
MANZANA
NÚMERO
DE LOTE
NÚMERO
MANZANA
NÚMERO
DE LOTE
NÚMERO
MANZANA
NÚMERO
DE LOTE
NÚMERO
MANZANA
NÚMERO
DE LOTE
1 20 6 10 11 25 16 20
2 25 7 25 12 20 17 20
3 30 8 20 13 30 18 25
4 10 9 30 14 10 19 30
5 15 10 40 15 15 20 10
b. Métodos de muestreo no probabilísticos:
b.1 Muestreo accidental.- Es un muestreo no probabilística donde el investigador
elige a aquellos individuos que están a mano. Por ejemplo, un periodista que va por la
calle preguntando a las personas que salen a su paso, sin atender ningún criterio
especial de elección. No es probabilística porque aquellas personas que no pasan por
ese sitio no tienen la posibilidad de entrar en la muestra.
Métodos estadísticos
UCV – Lima este Página 103
b.2 Muestreo por cuotas.- Se aplica en la última fase del muestreo, y consiste en
facilitar al entrevistador el perfil de las personas que tiene que entrevistar dejando su
criterio, la elección de las mismas, siempre y cuando cumplan con el perfil.
b.3 Muestreo intencionado.- Se basa en una buena estrategia y el buen juicio del
investigador. Se puede elegir las unidades del muestreo. Un caso frecuente es tomar
elementos que se juzgan típicos o representativos de la población, y suponer que los
errores en la selección se compensarán unos con otros. El problema que plantea es que
sin una comprobación de otro tipo, no es posible saber si los casos típicos lo son en
realidad, y tampoco se conoce como afecta a esos casos típicos los posibles cambios
que se producen.
Métodos estadísticos
UCV – Lima este Página 104
PROBLEMAS PROPUESTOS
1. Una cantidad, con frecuencia, de interés para una clínica es el porcentaje de
pacientes retrasados para su vacunación. Algunas clínicas examinan cada registro
para determinar el porcentaje; Sin embargo, en una clínica grande, la realización
de un censo de los registros puede llevar mucho tiempo. Cullen (1994) realizó una
muestra de los 580 niños a los que da servicio una clínica familiar, en Auckland
para estimar la proporción de interés. Qué tamaño de muestra sería necesario con
una muestra aleatoria simple (sin reemplazo) para estimar la proporción con el
95% de confianza y un margen de error de 0.10.
2. En un estudio, se desea determinar en qué proporción los niños de una región
toman incaparina en el desayuno. Si se sabe que existen 1,500 niños y deseamos
tener una precisión del 10 por ciento, con un nivel de significancia del 5%. ¿De
qué tamaño debe de ser la muestra?
3. En un lote de frascos para medicina, con una población de 8000 unidades, se
desea estimar la media de la capacidad en centímetros cúbicos de los mismos. A
través de un pre muestreo de tamaño 35 se ha estimado que la desviación
estándar es de 2 centímetros cúbicos. Si queremos tener una precisión 0.25 cms3,
y un nivel de significancia del 5%. ¿De qué tamaño debe de ser la muestra?
4. Existe tres colegios de los cuales se quiere extraer una muestra, los colegio
estas categorizado según estrato socio económico; del colegia A tiene 520
alumnos, el colegio B tiene 450 alumnos y el colegio C tiene 950 alumnos;
determinar cuántos alumnos de cada colegio se tiene que escoger
5. La captura de eglefino de un barco de arrastre se desembarca en Aberdeen
dividida en cuatro categorías de tamaños, que serán los cuatro estratos (datos
tomados de Pope, 1956). Se hicieron muestras de cada categoría, y los resultados
se pueden resumir del modo siguiente:
Categoría Ni
Pequeño 2 432
Pequeño-Mediano 1 656
Mediano 2 268
Grande 665
TOTAL 7 021
Métodos estadísticos
UCV – Lima este Página 105
6. El presidente de una fraternidad en el campus universitario desea tomar una
muestra de las opiniones de 112 miembros respecto a las actividades urgentes para
el otoño.
a. ¿cuál es la población?
_________________________________________________________
b. ¿Cuál es la mejor forma en qué debe tomarse la muestra?
_________________________________________________________
7. Se desea realizar una evaluación de los principales problemas detectados en el
campus universitario:
i. congestionamiento en los ascensores
ii. pérdida de objetos personales
iii. rendimiento de los alumnos.
iv. Vocación profesional.
Identifique la población y el tipo de muestreo que aplicaría. ¿Por qué? Responda en
cada caso.
i) Población: ___________________________________________________
Tipo de muestreo: _____________________________________________
Porque: ____________________________________________________
____________________________________________________________
ii) Población: ___________________________________________________
Tipo de muestreo: _____________________________________________
Porque: ____________________________________________________
___________________________________________________________
iii) Población: ___________________________________________________
Tipo de muestreo: _____________________________________________
Porque: ____________________________________________________
___________________________________________________________
iv) Población: ___________________________________________________
Tipo de muestreo: _____________________________________________
Porque: ____________________________________________________
___________________________________________________________
8. El censo del 2007 se muestra que en Jauja el 11.5% de los residentes tienen más de
60 años. Para verificar un sistema de muestreo por teléfono se llaman a 200
residencias elegidas al azar. De los residentes contactados, 10.2% tenían más de 60
años.
a) ¿11.5% es un parámetro o una estadística?
b) ¿10.2% es un parámetro o una estadística?
Métodos estadísticos
UCV – Lima este Página 106
9. En el año 2006 la Universidad Cesar Vallejo tiene 5 453 estudiantes, en la tabla se
muestra un detalle de la composición. Necesitamos una muestra de tamaño n=20
de la población de estudiantes.
Mujeres Hombres Total
Pregrado 2461 2848 5309
Postgrado 67 77 144
Total 2528 2925 5453
Elija muestras de tamaño 20 para 2 tipos de muestreo:
a) Muestreo aleatorio simple
b) Muestreo estratificado
10. Supongamos que necesitamos seleccionar a 4 integrantes del programa de
televisión "Gana con la Estadística" de Abril del 2008. Calcule muestras de tamaño
n=4 usando los distintos diseños muestrales (muestreo aleatorio simple y
muestreo estratificado). En cada alternativa, use la tabla de números aleatorios,
empiece en la fila 3 columna 3.
Mujeres Hombres
Giovanna Santos Carolina Soto Jorge Molina
Gianina Ramos Maura Rivera Nelson Pachas
Bárbara Ascue María Sobarzo Leandro Martínez
Pam Lozano Rosa Díaz Joel Mauri
Jimena Pereira Darío Juárez
Lía Gutiérrez Dany Bellido
11. Suponga que nuestra población de interés es el comité de estudiantes de la UCV
para efectos de colaboración con la universidad en agosto del 2008. Juan Pérez,
Miguel Cornejo, Juana Olivares, Lucia Galán, Edwin Manrique, Angélica Mariño,
Carlos Enciso, Julia Salinas, Manuela Enrico, Sonia Oquendo, Ángel Bravo, Luis
Alba, Abel Vivar, Carla Espinosa, Marcelo Oyarte, Elba Aguilar, Ernesto Aguirre,
Francisco Alama.
a) Si nos interesa estudiar la proporción de mujeres en esta población. Elija una
muestra aleatoria simple de tamaño n=4 de esta población.
b) Indique cuál es el parámetro y el estadístico en (a)
c) Elija una muestra estratificada por sexo de tamaño n=4 de esta población
Métodos estadísticos
UCV – Lima este Página 107
12. La Facultad de Administración de la Universidad Cesar Vallejo, quiere saber acerca
del ingreso promedio de sus estudiantes y para esto envía cartas a todos los
Estudiantes desde su ingreso a la Universidad en el año 2006. En la Encuesta había
sólo una pregunta: ¿Cuál es el ingreso promedio en su hogar? Aproximadamente
30% de los alumnos respondieron.
Comente los posibles sesgos acerca del salario promedio de los estudiantes de
Administración. ¿Cómo debe ser el ingreso promedio entre los que respondieron y
los que no respondieron?
13. El titular de un diario dice: “Encuesta señala que aumentó el porcentaje de gente
que chatea en el trabajo”. El artículo dio la siguiente información: “Se encuestaron
al azar 227 personas que llamaron a la línea abierta 800-CHAT durante 6 semanas
entre Febrero y Marzo. 92% de los que llamaron dijeron haber chateado alguna
vez mientras trabajaban”.
a) ¿Qué clase de muestreo se usó?
b) ¿Cuál piensa usted que fue la población de la cual fue elegida esta muestra?
c) ¿Piensa usted que el titular es correcto?
14. Una organización estudiantil quiere saber si a los estudiantes le interesa cambiar el
horario de atención de la biblioteca. Selecciona al azar 100 estudiantes de primer
año, 100 de segundo, y 100 estudiantes que egresarán este año. ¿Qué tipo de
diseño muestral es éste?
15. Un profesor quiere investigar sobre el tiempo diario de estudio de 20 estudiantes
de una clase.
Nombre Número de
horas Nombre
Número de
horas
Juan 2,3 María 2,9
Alicia 1,9 Fernanda 0,7
Pedro 2,0 Julio 0,8
Marcos 1,5 Rosa 1,0
Alberto 1,7 Fabián 1,3
Jorge 2,2 Ana 2,8
José 1,8 Laura 0,8
Carlos 1,9 Enrique 0,9
Miguel 1,9 Carmen 1,1
Victoria 1,6 Marcelo 1,2
Métodos estadísticos
UCV – Lima este Página 108
En cada alternativa, use la tabla de números aleatorios, empiece en la fila 1 columna
1 y continúe seleccionando hacia la derecha.
a) Elija una muestra aleatoria simple de tamaño n=4 de esta población.
b) Calcule el Parámetro y el Estadístico en (a).
c) Elija una muestra estratificada de tamaño n=4 de esta población
d) Calcule el estadístico en (c)
16. Una compañía de marketing saca una muestra de la guía de teléfonos tomando
10 personas cuyos apellidos comiencen con letra A, 10 personas cuyos apellidos
comiencen con la letra B, y así sucesivamente con cada letra del alfabeto, para una
muestra total de 260 personas.
a) ¿Qué clase de diseño muestral se usó aquí?
b) ¿Tienen todos los que están en la guía de teléfonos igual probabilidad de ser
elegidos en la muestra?
c) No todos los residentes de la ciudad tiene teléfono, ¿qué clase de sesgo va a
provocar este hecho?
d) Se sabe que la distribución de la primera letra del apellido varía por etnicidad
¿Qué clase de sesgo va a provocar este hecho?
Métodos estadísticos
UCV – Lima este Página 109
ESTIMACIÓN DE PARÁMETRO
1. INTRODUCCIÓN
Al realizar una investigación estadística a
menudo se sabe o se supone que la población
definida por una variable aleatoria x, de la cual se
selecciona una muestra aleatoria, tiene una forma
funcional especifica cuyo parámetro se intenta
determinar.
Los método de inferencia estadística,
básicamente, consisten en seleccionar una muestra
aleatoria de la población en estudio y con la información que se obtenga de esta
llegar a estimar el o los valores del parámetro desconocido.
El método de estimación de parámetro puede ser puntual o por intervalos, en el
primer caso, la estimación del parámetro es un numero. Mientras que en el
segundo caso la estimaron del parámetro es un intervalo de los posible valores
que puede tener.
2. ESTIMACIÓN PUNTUAL
La estimación puntual es el valor numérico de un estimador, un buen
estimador es aquel que se acerca al verdadero valor del parámetro.
Ejemplo: De una población de 120 sueldos de Profesores de la Universidad X, se toma
una muestra de 40 sueldos, y se calcula el sueldo promedio. Supongamos que el
sueldo promedio es: S/. 690.00 soles, y al momento de concluir el trabajo podemos
decir, que el sueldo promedio de los profesores de la universidad X, tienen un sueldo
promedio de S/. 690.00. Quiere decir que el promedio poblacional µ, se ha estimado
puntualmente por x = S/. 690.00 soles.
3. INTERVALO DE CONFIANZA
La estimación por intervalo es la estimación del parámetro Ф dentro de un
intervalo de extremo cerrado [a, b], donde los números a y b se obtiene a partir
de la distribución de la estadística que estima puntualmente el parámetro y a
partir de los valores de la muestra.
Sea X1, X2…..Xn una muestra aleatoria de tamaño n escogida de una población f(x,
Ф), cuyo valores experimentales respectivos son x1, x2…..xn , sea además, la
expresión ),...,( 21
__
nXXXH es una estadística para estimar el parámetro Ф cuya
distribución de probabilidad sea conocida y sea __
el valor del parámetro, dado el
Métodos estadísticos
UCV – Lima este Página 110
número 1 , y si a partir de la distribución de probabilidad del estimador se
puede encontrar el estimador A y B tales que:
1BAP
se dice entonces que el intervalo BA, es el intervalo del estimador de parámetro
Ф con el grado de confianza de 1 *100%, o que tal intervalo contiene al
parámetro Ф con probabilidad 1
Un nivel de confianza del 95%, implica que 95% de todas las muestras incluye al
parámetro y solo un 5% de las muestras producirá un intervalo erróneo. Cuanto
mayor es el nivel de confianza se estima que el valor del parámetro este dentro del
intervalo.
Ejemplo. El sueldo promedio de los profesores en la Universidad X, se encuentran
entre S/. 650.00 y S./ 720.00 soles
4. INTERVALO PARA LA MEDIA POBLACIONAL
Sabemos que:
XZ
Pero también,
n
σ
µ-XΖ
Como no conocemos el parámetro µ y lo queremos estimar por medio de la
media de la muestra, sólo se despejará µ de la formula anterior, quedando lo
siguiente:
n
σΖXµ /2α-1
De esta fórmula se puede observar que tanto el tamaño de la muestra como el
valor de Z se conocerán. Z se puede obtener de la tabla de la distribución normal a
partir del nivel de confianza establecido. Pero en ocasiones la muestra es menor de 30
o se desconoce por lo que en esos casos lo correcto es utilizar otra distribución
llamada "t" de Student si la población de donde provienen los datos es normal.
n
stXµ /2)α-1;1-(n
Donde S la desviación estándar de la muestra y t es la distribución de la t de
Student con n – 1 grados de libertad y nivel de confianza igual a /2-1 .
Para el caso de tamaños de muestra grande se puede utilizar una estimación puntual
de la desviación estándar, es decir igualar la desviación estándar de la muestra a la de
la población (s= ).
Métodos estadísticos
UCV – Lima este Página 111
El error de estimación de µ será la diferencia absoluta entre x y µ, es decir
despejando:
Error de estimación de µ=
n
σΖX-µ /2α-1
Ejemplo:
Se encuentra que en una dieta la concentración promedio de vitaminas a partir de una
muestra de 36 mediciones en sitios diferentes del hospital es de 2.6 gramos por
mililitro. Suponga que la desviación estándar de la concentración de vitaminas es 0.3.
a) Señale la estimación puntual para µ.
b) Encuentre el intervalo de confianza al 95% para la concentración
media de vitaminas en las dietas de dicho hospital.
c) Halle el error de estimación de µ para la pregunta b.
d) Encuentre el intervalo de confianza al 99% para la concentración media
de vitaminas en las dietas de dicho hospital.
e) Halle el error de estimación de µ para la pregunta d.
Solución:
a) La estimación puntual para µ es:
X µ, es decir µ= 2.6 gr/ml
b) IC para la media poblacional se calcula:
n
σΖXµ /2α-1
Reemplazando valores:
c) El error de estimación de µ para la pregunta b.
d) Calculando el Intervalo de confianza para la media µ a un nivel de confianza
del 99%
e) Calcule el error de estimación de µ
Ejemplo:
Una empresa eléctrica fabrica focos que tienen una duración aproximadamente
distribuida de forma normal con una desviación estándar de 40 horas. Si una muestra
de 32 focos tiene una duración promedio de 780 horas, encuentre un intervalo de
confianza de 96% para la media de la población de todos los focos que produce esta
empresa así también halle el error de estimación.
Solución:
n
σΖXµ /2α-1
Métodos estadísticos
UCV – Lima este Página 112
Ejemplo
Una muestra aleatoria de 100 hogares de una ciudad, revela que el promedio de los
ingresos mensuales es de 500 dólares. Obtenga un intervalo de confianza del 95%
para la media de la población de los ingresos de todos los hogares de esa ciudad.
Asuma que la desviación estándar poblacional es 100.
Ejemplo
Para confirmar el peso neto promedio de los frascos de conserva de palmito de la
empresa agroindustrial “LA PALMA “ de Iquitos, cuya especificación es de 250
gramos, un estudiante de estadística aplicada selecciono una muestra de tamaño 10
de tales frascos y observo los siguiente peso netos en gramos: 250 251 249
248 256 252 248 256 256 254
Construya un intervalo de confianza del 96%
Ejemplo
Una muestra de 60 niñas de diez años de edad proporciono un peso medio
de 40 Kg. y una desviación estándar de 4 Kg., respectivamente. Suponiendo
que existe normalidad, encuentre los intervalos de confianza del 95% para la
media poblacional
5. INTERVALO PARA LA PROPORCIÓN: P
Una proporción es una razón de una parte con respecto a un todo y que
generalmente pertenecen a un experimento aleatorio de tipo binomial, es decir con
solo dos posibles respuestas.
Sabemos que:
P p
pq
n
Como no conocemos el parámetro p y lo queremos estimar por medio de la
proporción de la muestra, sólo se despejará P de la formula anterior, quedando lo
siguiente:
1 / 2
pqP p
n
Error de estimación de P
P – p= 1 / 2
pq
n
Ejemplo
Un fabricante de reproductores de discos compactos utiliza un conjunto de pruebas
amplias para evaluar la función eléctrica de su producto. Todos los reproductores de
discos compactos deben pasar todas las pruebas antes de venderse. Una muestra
aleatoria de 500 reproductores tiene como resultado 15 que fallan en una o más
Métodos estadísticos
UCV – Lima este Página 113
pruebas. Encuentre un intervalo de confianza de 90% para la proporción de los
reproductores de discos compactos de la población que no pasan todas las pruebas.
Solución:
n=500
p = 15/500 = 0.03
z(0.90) = 1.645
Se sabe con un nivel de confianza del 90% que la proporción de discos defectuosos
que no pasan la prueba en esa población está entre:
En un estudio de 300 accidentes de automóvil en una ciudad específica, 60 tuvieron
consecuencias fatales. Con base en esta muestra, construya un intervalo del 90% de
confianza para aproximar la proporción de todos los accidentes automovilísticos que
en esa ciudad tienen consecuencias fatales.
Solución:
P= 60/300 = 0.20
Z(0.90) = 1.645
Ejemplo
En instituto de opinión publica utilizo una muestra aleatoria de 600 lectores que
acaban de emitir su voto, para realizar un proyección estadística de los resultados.
Si el sondeo indica que 240 electores votaron a favor del candidato A, obtenga el
intervalo de estimación del porcentaje de electores a favor A en toda la población
con el nivel de confianza del 95%.
6. INTERVALO PARA LA VARIANZA
LI =
x n
sn2
1;2
1
2)1(
LS =
x n
sn2
1;2
2)1(
Ejemplo
Para estimar la variabilidad de los contenidos de un producto que una empresa
comercializa en bolsa de 150 gramos. Un analista de métodos cuantitativos
escogió una muestra aleatoria de 10 unidades del producto resultando los
siguiente pesos en gramos:
150,5 150.7 148.1 150.4 149.3 151.2 150.9 149.2 150.3 149.3
Obtenga el intervalo de confianza del 95% para la varianza de los contenidos de
todas las unidades del producto en mención. Supóngase que la población de estos
contenidos se distribuye según el modelo de la probabilidad normal.
Métodos estadísticos
UCV – Lima este Página 114
PROBLEMAS PROPUESTOS
1) El tiempo en minuto que utiliza los clientes en sus distintas operaciones en
un banco local es una variable aleatoria cuya distribución se supone normal
con una desviación estándar de 3 minuto. Se han registrado los tiempos de
las operaciones de 9 clientes del banco resultando una media igual a 9
minuto, ¿Cuánto es el nivel de confianza si la media poblacional se estima de
7 a 11?
2) Se asigna una tarea estadística a un grupo de estudiantes para hacer un
estudio del contenido promedio de las latas de frutas en conserva de la
agroindustria que afirma que los contenidos tiene distribución normal con
media de 19 onzas y una desviación estándar de 2 onzas. ¿Qué tamaño
mínimo de muestra debería escoger si quiere que la estimación tenga un
error de 0.98 onzas con un nivel de confianza del 95%?
3) El ingreso mensual de cada una de las 500 microempresario de servicio
constituye una población asimétrica cuya media se quiere determinar. Si una
muestra al azar de 50 microempresario se obtuvo un ingreso mensual
promedio de 1000 dólares con una desviación estándar de 80 dólares,
obtenga un intervalo de confianza del 95%.
4) Para estimar la vida útil de un producto se escogió una muestra aleatoria de
9 unidades del producto resultando las siguientes vidas:
775 780 800 795 790 785 795 780 810
Estime la media de la población utilizando un intervalo de confianza del 95%
6) Un auditor escoge una muestra aleatoria de 10 cuentas por cobrar de una
compañía las cuales fueron: 730 759 725 740 754 745 75.
756 780 810 Estime la media de la población utilizando un intervalo de
confianza del 95%
7) En un estudio socioeconómico se tomo una muestra aleatoria de 100
comerciantes informales y se encontró entre otros datos que solo el 30%
de ellos tienen ingresos superiores a 800 dólares por mes, obtenga el
intervalo de confianza de la proporción de todos los comerciantes con
ingresos superiores a 800 dólares al 95% de nivel de confianza.
8) Un productor afirma que es el 5% el porcentaje de unidades defectuosa
que resulta del total de su producción. Si una muestra aleatoria de 100
unidades de la producción se encontraron 10 unidades defectuosas. Es
aceptable la afirmación del productor con un 95% de nivel de confianza.
Métodos estadísticos
UCV – Lima este Página 115
9) La oficina de planificación familiar de cierta región del país quiere estimar el
porcentaje de familia con más de 4 hijos en las zonas rurales. Si se escogió
una muestra de 385 familias y en ellas se encontró que 320 tiene más de 4
hijos, estime el porcentaje de familias con más de 4 hijos en toda la región
aplicando un intervalo de confianza del 98%.
10) Una empresa cambiara su proceso actual de producción, cuya desviación
estándar de los tiempos empleados para procesar cada pieza es de 9
segundo, si solo hay prueba que el nuevo proceso es más estable en cuanto
a variabilidad. Si una muestra aleatoria de los tiempos empleados para
producir 13 piezas con el nuevo proceso ha dado una desviación estándar de
6 segundos, con un nivel de confianza del 95% ¿debería la empresa
cambiarse al nuevo proceso de producción?
Métodos estadísticos
UCV – Lima este Página 116
UNIDAD DIDÁCTICA 3: ESTADÍSTICA INFERENCIAL APLICADA
Capacidades:
Aplica los conceptos básicos de la estadística orientados a la
Investigación.
Aplica el modelo de regresión lineal y técnicas de muestreo en su
trabajo de investigación.
Determina si dos variables son independientes a través de la prueba de
Chi Cuadrado y realiza el análisis de varianza.
PRUEBA DE HIPÓTESIS
1. INTRODUCCIÓN
El objetivo de este tema es exponer los
métodos estadístico básicos que se aplican para
tomar decisiones sobre la conjetura que se hace
acerca del valor numérico del parámetro de una
población en estudio y que es sometida a
comprobación experimental con el propósito de
determinar si los resultados de una muestra
aleatoria extraída de esa población contradicen o
no en forma significativa tal afirmación.
2. HIPÓTESIS ESTADÍSTICA
Se denomina hipótesis estadística a cualquier afirmación o conjetura que
se hace acerca de la distribución de una o más poblaciones.
La afirmación o conjetura se puede referirse bien a la forma o tipo de
distribución de probabilidad de la población o bien referirse al valor o valores
de uno o más parámetro de la distribución conocida su forma.
La hipótesis estadística consiste en suponer que los parámetros, que define
a la población, toma determinado valores numéricos.
3. HIPÓTESIS NULA Y ALTERNATIVA
Se denomina hipótesis nula y se representa por H0 a la hipótesis que es
aceptada provisionalmente como verdadera y cuya validez será sometida a
comprobación experimental. Toda hipótesis nula va acompañada de una
Métodos estadísticos
UCV – Lima este Página 117
hipótesis alterna que es lo contrario de la hipótesis nula. La hipótesis alterna se
representa por H1.
4. PRUEBA DE UNA HIPÓTESIS ESTADÍSTICA
La prueba de una hipótesis estadística es un proceso que nos conduce a
tomar la decisión de aceptar o rechazar la hipótesis nula, en contraposición a
la alterna y en base a los resultados de una muestra aleatoria seleccionada de
la población en estudio.
5. TIPOS DE PRUEBAS DE HIPÓTESIS
El tipo de prueba depende básicamente de la hipótesis alterna, se puede
encontrar pruebas de una cola donde la hipótesis alterna es unilateral y pruebas de
dos colas donde la alterna es bilateral.
6. REGIÓN RECHAZO
Es la región que contiene los valores para los cuales se rechaza la hipótesis
nula.
7. REGIÓN DE ACEPTACIÓN
Es la región que contiene los valores para los cuales no se rechaza la hipótesis
nula.
8. DECISIÓN
Si el valor del estadígrafo cae dentro de la región de rechazo entonces
se rechaza la hipótesis nula.
9. PROCEDIMIENTO PARA REALIZAR UNA PRUEBA DE HIPÓTESIS
El procedimiento que se recomienda utilizar para pruebas de hipótesis con
parámetro se resume en los siguientes pasos:
Paso 1: Formular la hipótesis nula H0 y la hipótesis alternativa H1 apropiada
Prueba de una Cola Prueba de dos Colas
H0: = 0 H0: = 0 H0: = 0
H1: 0
H1: > 0
H1: < 0
Métodos estadísticos
UCV – Lima este Página 118
Paso 2: Seleccionar = Nivel de significación
Paso 3: Establecer el estadígrafo apropiado a usar en la prueba y hallar D = valor
del estadígrafo
Paso 4: Establecer la región crítica y de aceptación para el estadígrafo. Recuerde que
la región crítica debe ser construida en base al valor significante fijada en el paso 2
Prueba de una Cola Prueba de dos Colas
R.C = < - , - D / 2 > U < D
/ 2 , >
R.C = < D ,
>
R.C = < - , -
D >
Paso 5: Si D pertenece a la región crítica, entonces se rechaza la hipótesis nula.
10. PRUEBAS DE HIPÓTESIS DE LA MEDIA CON VARIANZA CONOCIDA
Prueba de una Cola Prueba de dos Colas
Fijar , donde Fijar , donde
1
Fijar , donde 1
Ejemplo 1
Un proceso automático llena latas de palmito. Si el peso medio de las latas llenas es
400 gramos se afirma que el proceso está controlado, en caso contrario, el proceso no
está controlado. En el proceso de enlatado se ha determinado que los pesos de las
latas llenas tienen una desviación estándar de 20 gramos. Si una muestra aleatoria de
100 latas llenas de palmito ha dado el peso medio de 395 gramos, ¿se podría concluir
que el proceso está fuera de control al nivel de significación 5%?
Métodos estadísticos
UCV – Lima este Página 119
Solución:
Sea : peso de las latas llenas de palmito
1. Hipótesis:
(El proceso está controlado)
(El proceso está fuera de control)
2. Nivel del significación:
3. Estadígrafo:
4. Región Crítica: Primero se encuentra el valor crítico que es:
y luego la región crítica es:
5. Decisión: El valor -2.5 pertenece a la región crítica, por lo que se debe
rechazar Finalmente, con un riesgo de 5% se concluye que el proceso
de enlatado de palmito no está controlado.
Ejemplo 2
Al estudiar si conviene o no una sucursal en la ciudad de Ucayali, la gerencia de una
tienda comercial de Lima, establece el siguiente criterio para tomar una decisión: abrir
la sucursal sólo si el ingreso promedio familiar mensual en dicha ciudad es no menos
de $500 y no abrirla en caso contrario. Si una muestra aleatoria de 100 ingresos
familiares de esa ciudad ha dado una media de $480. ¿Cuál es la decisión a tomar al
nivel de significación del 5%?
Solución:
Sea : ingresos familiares mensuales de los pobladores de Tarapoto.
1. Hipótesis:
(Se abre la sucursal)
(No se abre la sucursal)
2. Nivel del significación:
Métodos estadísticos
UCV – Lima este Página 120
3. Estadígrafo:
4. Región Crítica: Primero se encuentra el valor crítico que es:
y luego la región crítica es:
.
5. Decisión: El valor -2.5 pertenece a la región crítica, por lo que se debe
rechazar Finalmente, con un riesgo de 5% se concluye no debe abrirse la
sucursal en Ucayali.
Ejemplo 3
Ante un reclamo sobre el tiempo de realización de una tarea, los empleados de una
compañía sostienen que en promedio ellos completan la tarea en a lo más 13 minutos.
Si usted es el gerente de la compañía, ¿qué conclusión obtiene si para una muestra de
400 tareas se obtiene un promedio de tiempo de finalización de 14 minutos? Se sabe,
por información de trabajos similares, que los tiempos de ejecución de la tarea tiene
una distribución normal con desviación estándar de 10 minutos. Usar el nivel de
significancia .
Solución:
Sea : tiempo de realización de una tarea
1. Hipótesis:
(El tiempo de realización de la tarea no amerita un reclamo de la
compañía)
(El tiempo de realización de la tarea amerita un reclamo de la
compañía)
2. Nivel del significación:
Métodos estadísticos
UCV – Lima este Página 121
3. Estadígrafo:
4. Región Crítica: Primero se encuentra el valor crítico que es:
y luego la región crítica es: .
5. Decisión: El valor 2 pertenece a la región crítica, por lo que se debe rechazar
Finalmente, con un riesgo de 5% se concluye que el reclamo realizado
por la compañía sobre el tiempo de realización de una tarea es justificado.
11. PRUEBAS DE HIPÓTESIS DE LA MEDIA CON VARIANZA DESCONOCIDA
Prueba de una Cola Prueba de dos Colas
Fijar , donde Fijar , donde Fijar , donde <
si
si
Ejemplo 1
En una muestra de 19 adolescentes que sirvieron de sujetos en estudio
inmunológico, una variable de interés fue el diámetro de reacción de la piel a
una prueba con un antígeno. La media muestral y la desviación estándar fue
respectivamente, 21 y 11 mm de eritema. ¿Puede concluirse a partir de estos
datos que la media de la población es 30?
Métodos estadísticos
UCV – Lima este Página 122
Solución:
Sea : diámetro de reacción de la piel a una prueba
1. Hipótesis:
(El diámetro de la reacción de la piel es igual a 30 mm)
(El diámetro de la reacción de la piel es diferente a 30 mm)
2. Nivel del significación:
3. Estadígrafo:
4. Región Crítica: Primero se encuentra el valor crítico que es:
y luego la región crítica es:
5. Decisión: El valor -3.56 pertenece a la región crítica, por lo que se debe
rechazar Finalmente, con un riesgo de 5% se concluye que el diámetro
de reacción de la piel a una prueba es diferente a 30 mm.
Ejemplo 2
Una muestra de 35 estudiantes de primer año tuvo una calificación media de
77 en una prueba efectuada para medir su actitud . La desviación estándar
de la muestra fue de 10. ¿Proporcionan estos datos evidencia suficiente como
para indicar, a un nivel de significación 0.01 que la media de la población es
menor que 80?
Solución:
Sea : Puntaje obtenidos en la prueba de actitud
1. Hipótesis:
(Puntaje obtenido en la prueba igual a 80)
(Puntaje obtenido en la prueba menor a 80)
Métodos estadísticos
UCV – Lima este Página 123
2. Nivel del significación:
3. Estadígrafo
4. Región Crítica: Primero se encuentra el valor crítico que es:
y luego la región crítica es:
.
5. Decisión: El valor -1.77 no pertenece a la región crítica, por lo que no se debe
rechazar Finalmente, con un riesgo de 1% se concluye que el puntaje
obtenido no es menor a 80.
Ejemplo 3
Un distribuidor de cosméticos ha conseguido cobrar sus cuentas pendientes en un
plazo medio de 22 días, durante el año pasado. Este promedio se considera un
estándar para medir la eficiencia del departamento de crédito y cobranzas. Sin
embargo, durante el mes en curso, un chequeo aleatorio de 81 cuentas dio como
resultado un promedio de 24 días, con una desviación estándar de 9 días. ¿Es este
resultado significativamente diferente del estándar al nivel del 3%?
Solución:
Sea : Cobro de cuentas
1. Hipótesis:
(El cobro de cuentas se realiza en tiempo estándar)
(El cobro de cuentas no se realiza en tiempo estándar)
2. Nivel del significación:
3. Estadígrafo:
Métodos estadísticos
UCV – Lima este Página 124
4. Región Crítica: Primero se encuentra el valor crítico que es:
y luego la región crítica es:
5. Decisión: El valor 2 no pertenece a la región crítica, por lo que no se debe
rechazar Finalmente, con un riesgo de 3% se concluye de que no existe
razón parar creer que el cobro de cuentas se realiza en tiempo diferente al
estándar.
12. PRUEBAS DE HIPÓTESIS PARA LA PROPORCIÓN
Prueba de una Cola Prueba de dos Colas
Fijar , donde Fijar , donde
1
Fijar , donde 1
Ejemplo 1
Un médico afirma que cierto medicamento que se prescribe para aliviar determinada
enfermedad es efectivo al 78%. Con el fin de evaluar esta afirmación se tomó una
muestra aleatoria de 400 pacientes y se encontró que 300 de ellos han experimentado
alivio. ¿Es ésta, suficiente evidencia para concluir que realmente el medicamento no es
efectivo al 78%? Utilice el nivel de significación del 1%.
Solución:
Sea : Efectividad del medicamento
1. Hipótesis:
(El medicamento es efectivo)
(El medicamento no es efectivo)
2. Nivel del significación:
3. Estadígrafo:
Métodos estadísticos
UCV – Lima este Página 125
4. Región Crítica: Primero se encuentra el valor crítico que es:
y luego la región crítica es:
5. Decisión: El valor -1.44 no pertenece a la región crítica, por lo que no se debe
rechazar Finalmente, con un riesgo de 1% se concluye que el
medicamento es efectivo y el médico tenía razón.
Ejemplo 2
Se afirma que cierto programa de mejoramiento genético en alpacas de raza Huacaya
es efectivo en más del 60%. Al parecer esta afirmación es exagerada por lo que decide
evaluar esta afirmación, tomando una muestra aleatoria de 200 alpacas resultando
que 173 alpacas mejoraron genéticamente. ¿Es ésta suficiente evidencia para concluir
que realmente el programa de mejoramiento genético es efectivo en más del 60% de
los casos al nivel de significancia del 5%?
Solución:
Sea : Efectividad de mejoramiento genético en alpacas
1. Hipótesis:
2. Nivel del significación:
3. Estadígrafo:
4. Región Crítica:
Primero se encuentra el valor crítico que es:
y luego la región crítica es:
Métodos estadísticos
UCV – Lima este Página 126
5. Decisión: El valor 7.65 pertenece a la región crítica, por lo que se debe
rechazar Finalmente, con un riesgo de 5% se concluye que que el
programa de mejoramiento genético es efectivo en más del 60% de los casos.
Ejemplo 3
El consumidor de un cierto tipo de producto acusó al fabricante diciendo que más del
20% de las unidades que fabrica son defectuosas. Para confirmar su acusación, el
consumidor usó una muestra aleatoria de tamaño 50, donde el 27% de las unidades
eran defectuosas. ¿Qué conclusión puede extraer usted? Use
Solución:
1. Hipótesis:
(La afirmación del consumidor no es verdadera) (La afirmación del consumidor es verdadera)
2. Nivel del significación:
3. Estadígrafo:
4. Región Crítica:
Primero se encuentra el valor crítico que es:
y luego la región crítica es:
5. Decisión: El valor 1.24 no pertenece a la región crítica, por lo que no se debe
rechazar Finalmente, con un riesgo de 1% se concluye que la muestra no
da evidencia para apoyar al consumidor.
Métodos estadísticos
UCV – Lima este Página 127
13. PRUEBAS DE HIPÓTESIS PARA LA VARIANZA
Prueba de una Cola Prueba de dos Colas
Fijar , donde Fijar , donde
1
Fijar , donde
Ejemplo 1
En un proceso de fabricación, se plantea la hipótesis que la desviación estándar de las
longitudes de cierto tipo de tornillo es 2 mm. En una muestra de de diez tornillo
elegidos al azar del proceso de producción se obtuvo una desviación estándar de 2.60
mm. Con estos datos ¿se justifica la suposición que la desviación estándar verdadera es
2 mm? Use y suponga que la distribución de las longitudes es normal.
Solución:
1. Hipótesis:
σ (La afirmación del consumidor no es verdadera)
σ (La afirmación del consumidor es verdadera)
2. Nivel del significación:
3. Estadígrafo:
4. Región Crítica:
Primero se encuentra los valores críticos que son:
, y
.
Finalmente, la región crítica es:
Métodos estadísticos
UCV – Lima este Página 128
5. Decisión: El valor 15.21 no pertenece a la región crítica, por lo que no se debe
rechazar Finalmente, se concluye que la varianza de la población es igual
a 4.
Ejemplo 2
Un biólogo cree que la varianza de vida de cierto organismo al ser expuesto a cierto
agente mortal, es a lo más 625 minutos al cuadrado. Una muestra aleatoria de 15
organismos dio una varianza de 1225. ¿Proporcionan estos datos evidencia suficiente
como para concluir la investigación del biólogo acerca de que la variabilidad es
incorrecta?
Solución:
1. Hipótesis:
(La investigación del biólogo es correcta)
(La investigación del biólogo no es correcta)
2. Nivel del significación:
3. Estadígrafo:
4. Región Crítica: El valor crítico es:
.
Entonces, la región crítica es:
5. Decisión: El valor 27.44 pertenece a la región crítica, por lo que se debe
rechazar Finalmente, los datos proporcionados por el biólogo acerca de
la variabilidad es incorrecta con un riesgo del 5%.
Métodos estadísticos
UCV – Lima este Página 129
Ejemplo 3
Una de las maneras de mantener bajo control la calidad de un producto es controlar
su varianza. Una máquina para enlatar conservas de durazno está regulada para llenar
con una desviación estándar de 10 gr. y con una media de 500 gr ¿Diría usted que la
máquina ha sido adecuadamente regulada en relación a la varianza, si una muestra de
16 latas de conserva dio una varianza de 169 gr2? Use un y el peso de cada
lata de conserva presenta una distribución norma
Solución:
1. Hipótesis:
2. Nivel del significación:
3. Estadígrafo:
4. Región Crítica:
Primero se encuentra los valores críticos que son:
, y
.
Finalmente, la región crítica es:
5. Decisión: El valor 25.35 no pertenece a la región crítica, por lo que no se
debe rechazar Finalmente, se concluye que la máquina está bajo control
en cuanto a la varianza.
Métodos estadísticos
UCV – Lima este Página 130
EJERCICIOS PROPUESTOS
1. La concentración media de dióxido de carbono en el aire en una cierta zona no es
habitualmente mayor que 355 p.p.m.v (partes por millón en volumen). Se
sospecha que esta concentración es mayor en la capa de aire más próxima a la
superficie. Para contrastar esta hipótesis se analiza el aire en 60 puntos elegidos
aleatoriamente a una misma altura cerca del suelo con una media muestral de 580
p.p.m.v. Suponiendo normalidad para las mediciones, ¿proporciona estos datos
suficiente evidencia estadística para afirmar que la concentración media es mayor
cerca del suelo? Use y
a. , se rechaza
b. , no se rechaza
c. , se rechaza
d. , no se rechaza
Respuesta: Clave a
2. El promedio de nicotina que tienen los cigarros de cierta marca es igual a 11mg. Se
sabe que la distribución de la cantidad de nicotina es normal con desviación
estándar igual a 0.5mg. El creador de un nuevo procedimiento de fabricación
asegura que su procedimiento disminuye el promedio de 11mg. Al nivel de
significación , ¿se puede decir que el nuevo procedimiento disminuye el
promedio de nicotina?
a. , no se rechaza
b. , se rechaza
c. , no se rechaza
d. , se rechaza
Respuesta: Clave c
3. Antes de la aplicación de un nuevo plan vital en la ciudad el promedio de
accidentes de tránsito por día era de 15.6. para determinar si el nuevo plan ha sido
efectivo en la reducción del promedio de accidentes, se observaron al azar 81 días
posteriores a la aplicación del nuevo plan obteniéndose un promedio de 12
accidentes por día con una desviación estándar igual a 3. Al nivel de significación
, ¿se podría decir que existe evidencia de que el promedio de accidentes
por día ha disminuido?
a. , no se rechaza
b. , se rechaza
c. , no se rechaza
d. , se rechaza
Respuesta: Clave d
Métodos estadísticos
UCV – Lima este Página 131
4. En diez mediciones sobre la resistencia de un alambre se obtuvieron los siguientes
resultados: y . Suponiendo que la variable X que representa a
las mediciones sigue una distribución normal, probar la siguiente hipótesis:
al nivel de significación .
a. No se rechaza , No se puede indicar que la media no es igual o menor que
10
b. Se rechaza , Se puede indicar que la media no es igual o menor que 10
Respuesta: Clave a
5. Un gobernante afirma que en su país existe el 40% de analfabetos. Con el fin de
evaluar está afirmación se tomó una muestra de 500 personas resultando que 300
son analfabetos. Sobre la base de la información obtenida ¿qué se puede decir
acerca de la afirmación del gobernante? Usar
a. , no se rechaza
b. , se rechaza
c. , no se rechaza
d. , se rechaza
Respuesta: Clave b
6. Una empresa afirma que su producto tiene una participación del 50% del
mercado. Para tomar una decisión respecto de lo afirmado por dicha empresa se
encuesta a 48 personas consumidoras del producto y se encuentra que 18
consumen el producto fabricado por la empresa en cuestión. ¿Cuál es la decisión
que se toma con un nivel de significancia de 2.5%?
a. , no se rechaza
b. , se rechaza
c. , no se rechaza
d. , se rechaza
Respuesta: Clave c
7. El fabricante de una patente médica sostiene que la misma tiene un 90% de
efectividad en el alivio de una alergia, por un periodo de 8 horas. En una muestra
de 200 individuos que tenían la alergia se les suministro el medicamento y 160
personas mostraron alivio. Determinar si la aseveración del fabricante es cierta.
a. , no se rechaza
b. , se rechaza
c. , no se rechaza
d. , se rechaza
Respuesta: Clave d
Métodos estadísticos
UCV – Lima este Página 132
8. La variabilidad de los pesos en un determinado proceso de producción está
controlado si la desviación estándar de los pesos de los contenidos de los
envases es 0.25 onzas pero, una muestra al azar de pesos de los contenidos de
20 envases ha dado una desviación estándar de 0.30 onzas. Al nivel de
significancia del 5% ¿proporciona estos datos indicio suficiente que indique un
aumento significativo de tal variabilidad?
a. no se rechaza
b. , se rechaza
c. , no se rechaza
d. , se rechaza
Respuesta: Clave a
9. Con el fin de poder diferenciar a las personas con una aptitud baja y personas con
una aptitud alta para desempeñar determinada actividad, es necesario que la
variabilidad de los resultados de una prueba que se aplica a los postulantes a dicha
actividad sea alta. La recomendación es que la variabilidad de la prueba, medida
por la varianza, sea . Cuando la prueba se aplico a 12 postulantes la
varianza de los resultados fue . ¿Se podría decir que la prueba satisface los
requerimientos? Usar y suponer normalidad.
a. , no se rechaza
b. , se rechaza
c. , no se rechaza
d. , se rechaza
Respuesta: Clave c
10. Un fabricante de máquinas de llenado de leche en bolsas, asegura que cada una de
éstas deposita en las bolsas un promedio de un litro con varianza igual a 0.01. En
una muestra de 10 bolsas se halló la varianza muestra . Al nivel de
significación , probar la hipótesis
, si
además se supone que la cantidad vertida tiene distribución normal.
a. No se rechaza , Se puede indicar que el llenado de bolsas tiene una varianza
menor o igual a 0.01
b. Se rechaza , Se puede indicar que el llenado de bolsas tiene una varianza
mayor a 0.01
Respuesta: Clave b
Métodos estadísticos
UCV – Lima este Página 133
BIBLIOGRAFÍA
1. ÁVILA, Roberto. Estatística Elemental. 3era. Edición. Lima. Estudios y Ediciones
R.A. 2002. 224 p
2. CÓRDOVA Manuel. Estadística Descriptiva e Inferencial Aplicaciones. Editorial,
Librería Moshera S.R.L. 2008.
3. JHONSON, Robert. Estatística Elemental. 2da. Edición. México DF. Editorial
Trillas. 2002. 180 p.
4. MITACC Meza Máximo. Tópicos de Estadística Descriptiva y Probabilidad.
Editorial San Marcos. 2000
5. MONTGOMERY, M E. y RUNGER, G. Probabilidad y Estadística Aplicada a la
Ingeniería. 1era. Edición. México. DF. Mc Graw Hill. 1999. 200 p.
6. WALPOLE, R. [et al. ]. Probabilidad y Estadística para Ingenieros. 6ta. Edición.
México DF. Pearson Educativo. 2002. 200 p.
Métodos estadísticos
UCV – Lima este Página 134
ANÁLISIS DE DATOS CATEGÓRICOS
1. INTRODUCCIÓN
Las pruebas de hipótesis de proporciones de
categoría de variables cualitativas en tablas de
contingencia son las siguientes:
Prueba de independencia de variable
cualitativa
Prueba de homogeneidad de muestra
Prueba de igualdad de más de dos proporciones de poblaciones
independiente.
Pruebe la bondad de ajuste entre las frecuencia observada en los intervalos y
las correspondiente frecuencia esperada de una distribución normal, con un nivel de
significación del 5%.
2. PRUEBA DE INDEPENDENCIA
La prueba de hipótesis de independencia implica dos variables categóricas y
lo que se prueba es la suposición de que las dos variables son estadísticamente
independiente.
Para cada frecuencia observada en una celda hay una frecuencia esperada
que se calcula a partir de la hipótesis especificada y que se supone que es verdadera.
H0: Las dos variables cualitativas son independientes.
3. PROCEDIMIENTO PARA REALIZAR LA PRUEBA DE INDEPENDENCIA
1. Formular las hipótesis
2. Seleccionar el nivel de significación
3. Calcular los valores esperados: Se realiza utilizando la fórmula
4. Calcular el valor del estadígrafo:
5. Región Crítica: Para el nivel de significancia dado, el valor crítico es :
Métodos estadísticos
UCV – Lima este Página 135
6. Decisión: Si
, se debe rechazar
EJEMPLO 1
500 artículos se escogieron al azar de artículos producidos. Esto es independiente
según la calidad y según la línea de producción, como se indica en la tabla que sigue:
Calidad Línea de producción
1 2 3
c1 40 90 70
c2 50 60 60
c3 60 50 20
A nivel de significación del 5% ¿se puede inferir que la calidad del producto es
independiente de la línea de producción?
Solución
1. Hipótesis:
í ó
í ó
2. Nivel del significación:
3. Calculo de valores esperados: Se realiza utilizando la fórmula
Calidad
Línea de producción
Total 1 2 3
c1
c2
c3
Total
4. Estadígrafo:
5. Región Crítica: Para el nivel de significancia el valor crítico es :
6. Decisión: Dado que , por lo tanto se debe rechazar
Métodos estadísticos
UCV – Lima este Página 136
Finalmente, se concluye que la calidad del producto no es independiente de la línea
de producción.
EJEMPLO 2
En un proceso de producción se registró el número de objetos defectuosos
clasificándolos por turnos de producción y por máquina de producción. Verificar al
nivel de significación si el número de objetos defectuosos producidos por las
máquinas es independiente de los turnos de producción. Los datos se muestran en la
siguiente tabla:
Turnos
Máquinas
Total
A B C
Mañana 75 90 85 250
Tarde 70 85 70 225
Noche 95 85 75 255
Total 240 260 230 730
Solución
1. Hipótesis:
2. Nivel del significación:
3. Calculo de valores esperados: Se realiza utilizando la fórmula
Métodos estadísticos
UCV – Lima este Página 137
Turnos
Máquinas
Total
A B C
Mañana
Tarde
Noche
Total
4. Estadígrafo:
5. Región Crítica: Para el nivel de significancia el valor crítico es:
6. Decisión: Dado que , por lo tanto no se debe rechazar Finalmente,
se concluye que el número de objetos defectuosos producidos por las máquinas no
depende de los turnos.
4. PRUEBA DE HOMOGENEIDAD
Con la prueba de homogeneidad de muestra se busca determinar si dos o más
muestra independiente proviene de una misma población. Como en el método
anterior, para esta prueba los datos muestrales se registran en celda de tabla de
contingencia de orden k * c.
H0: La muestra aleatoria proviene de una misma población.
Métodos estadísticos
UCV – Lima este Página 138
5. PROCEDIMIENTO PARA REALIZAR LA PRUEBA DE INDEPENDENCIA
1. Formular las hipótesis
2. Seleccionar el nivel de significación
3. Calcular los valores esperados: Se realiza utilizando la fórmula
4. Calcular el valor del estadígrafo:
5. Región Crítica: Para el nivel de significancia dado, el valor crítico es :
6. Decisión: Si
, se debe rechazar
EJEMPLO 3
Se efectuó un estudio en tres colegios de Lima para determinar las preferencias de los
alumnos por tres tipos de deportes. Una muestra de 500 alumnos ha hado los
resultados de la tabla que sigue. A partir de estos datos, determine si los tres son
homogéneos con respecto a sus preferencias en los tres deportes. Utilice .
Deportes
Colegios
Total
A B C
Futbol 80 70 100 250
90 90 60 30 180
20 30 20 20 70
Total 200 150 150 500
Solución
1. Hipótesis:
2. Nivel del significación:
3. Cálculo de valores esperados: Se realiza utilizando la fórmula
Métodos estadísticos
UCV – Lima este Página 139
Turnos
Máquinas Total
A B C
Mañana
Tarde
Noche
Total
4. Estadígrafo:
5. Región Crítica: Para el nivel de significancia el valor crítico es :
6. Decisión: Dado que , por lo tanto se debe rechazar Finalmente, se
concluye que para cuando menos un deporte, las preferencias en los tres colegios
no son las mismas.
EJEMPLO 4
Un investigador estudia el nivel de efectividad de tres remedios para aliviar cierta
enfermedad. Para esto escogió tres muestra aleatoria de tamaño 50, 70 y 60 de
paciente de cierta enfermedad suministrando a la primera el remedio uno, al
segundo el remedio dos y al tercero el remedio tres y midiendo la efectividad de
los remedios en tres niveles: sin alivio, cierto alivio y alivio total. Los resultados del
experimento se dan en la tabla que sigue:
Efectividad
Remedios para la alegría
1 2 3
sin alivio 10 20 15
cierto alivio
30
20
20
alivio total 10 30 25
¿Puede usted inferir con probabilidad igual a 0.01 que los tres remedios son
igualmente efectivos?
Métodos estadísticos
UCV – Lima este Página 140
Solución
1. Hipótesis:
2. Nivel del significación:
3. Cálculo de valores esperados: Se realiza utilizando la fórmula
Efectividad
Remedios para la alegría
Total
1 2 3
Sin alivio
0
Cierto alivio
4
Alivio total
Total
4. Estadígrafo:
5. Región Crítica: Para el nivel de significancia el valor crítico es :
6. Decisión: Dado que , por lo tanto se debe rechazar Finalmente, se concluye que para cuando menos un remedio, la efectividad
no es la misma.
Métodos estadísticos
UCV – Lima este Página 141
PRACTICA DIRIGIDA
1. Una muestra de empleados de la universidad clasificada como docentes, no
docentes y de servicio, se les pidió que escogiera entre planes de seguro
familiar particular, en el cuadro que sigue se dan los resultados:
Clase
Plan de seguro
A B C
Docente 100 150 60
No
docente 40 70 20
Servicios 20 40 10
Se puede afirmar que el plan de seguro depende de la clase de trabajo.
a. , no se rechaza H0
b. , se rechaza H0
c. , no se rechaza H0
d. , se rechaza H0
Respuesta: Clave a
2. Un estudio de mercado de una empresa proporciona la tabla de datos que
sigue, donde la muestra de 800 consumidores de un producto específico opina
acerca de las tres formas presentación y de la tres marcas que aparecen en el
mercado:
Presentación
Marca del producto
M1 M2 M3
P1 200 130 70
P2 60 60 80
P3 40 60 100
Existe relación entre la marca y la presentación del producto.
a. , no se rechaza H0
b. , se rechaza H0
c. , no se rechaza H0
d. , se rechaza H0
Respuesta: Clave b
Métodos estadísticos
UCV – Lima este Página 142
3. En una empresa se desea estudiar si existe una dependencia entre el nivel de
remuneraciones y los años de experiencia del personal. Con este objeto, se
clasifican las remuneraciones en tres categorías: bajo, medio y alto y los años de
experiencia en cuatro categorías: A, B, C y D. Al nivel del 10% ¿Hay alguna
relación entre los años de experiencia y las remuneraciones que perciben los 100
empleados?
Remuneración
Años de experiencia
Total
A B C D
Bajo 4 11 9 14 38
Medio 12 9 8 4 33
Alto 10 6 7 6 29
Total 26 26 24 24 100
a. , no se rechaza H0
b. , se rechaza H0
c. , no se rechaza H0
d. , se rechaza H0
Respuesta: Clave d
4. En la siguiente tabla se muestran los resultados obtenidos por 435 estudiantes en
los cursos de Estadística y Cálculo I. Contraste la hipótesis de que las notas
obtenidas en Estadística I son independientes de las notas obtenidas en Cálculo I,
al nivel de 2.5%
Notas
Matemática
I
Notas Estadística I
Total
0 – 10 11 – 14 15 – 20
0 – 10 70 40 15 125
11 – 14 30 130 25 185
15 – 20 15 60 50 125
Total 115 230 90 435
a. , no se rechaza H0
b. , se rechaza H0
c. , no se rechaza H0
d. , se rechaza H0
Respuesta: Clave d
Métodos estadísticos
UCV – Lima este Página 143
5. Un grupo de investigadores desean determinar si existe asociación entre el nivel
educativos de los individuos y la preferencia por un determinado medio de
comunicación. A continuación se presentan los resultados obtenidos aplicado por
los investigadores a 290 individuos.
Nivel
educativo
Medio de Comunicación
Total
Prensa Radio TV
Primaria 15 10 25 50
Secundaria 40 25 45 110
Superior 45 30 55 130
Total 100 65 125
290
Teniendo en cuenta la información presentada, ¿qué le diría usted al grupo de
investigadores con un nivel de significancia de 2.5%?
a. , no se rechaza H0
b. , se rechaza H0
c. , no se rechaza H0
d. , se rechaza H0
Respuesta: Clave a
6. Dos investigadores toman muestras de una misma ciudad con el objeto de estimar
el número de personas que corresponden a los grupos de renta de clase pobre,
media y alta (los límites de los grupos se expresan en cantidad de dinero y son los
mismos para los dos investigadores). Los resultados que se obtuvieron fueron:
Investigador
Rentas
Total
Pobre Media Alta
A 150 100 20 270
B 150 80 30 260
Total 300 180 50 530
¿Presentan estos datos suficiente evidencia para decir que las muestras de uno de
los investigadores es sospechosa? Use nivel de significancia al 5%?
a. , no se rechaza H0
b. , se rechaza H0
c. , no se rechaza H0
d. , se rechaza H0
Respuesta: Clave c
Métodos estadísticos
UCV – Lima este Página 144
7. Se realizó una encuesta entre los votantes de 4 distritos de Lima para comparar las
proporciones de votantes a favor del candidato A para la alcaldía de Lima. Se
tomó una muestra de 300 votantes cada uno de los 4 distritos, obteniéndose los
siguientes resultados:
Votos Distritos
Total
Lince Breña Cercado Comas
A favor de A 126 103 109 98 436
En contra de A 174 197 191 202 764
Total 300 300 300 300 1200
¿Presentan los datos suficiente evidencia que indique que las proporciones de
votantes que estén a favor del candidato A en los 4 distritos, son diferentes? Use
nivel de significancia al 5%
a. , se rechaza H0
b. , no se rechaza H0
c. , no se rechaza H0
d. , se rechaza H0
Respuesta: Clave b
8. Una hacienda que siembra manzanas está interesada en determinar si dos tipos de
fertilizantes producen los mismos efectos en la producción de manzanas. Con tal
fin las manzanas son abonadas con dos marcas distintas de fertilizantes F1 y F2. El
resultado fue que unas manzanas aumentaron su producción, otras las
disminuyeron y otras no variaron, estos resultados se presentan en la siguiente
tabla:
F1 F2 Total
Producción
+ 200 350 550
= 200 150 350
- 100 100 200
Total 500 600 1100
¿Presentan los datos suficiente evidencia que indique que los dos tipos de
fertilizantes producen los mismos efectos? Use nivel de significancia al 5%
a. , se rechaza H0
b. , no se rechaza H0
c. , no se rechaza H0
d. , se rechaza H0
Respuesta: Clave a
Métodos estadísticos
UCV – Lima este Página 145
9. El gerente de venta de una empresa afirma que las ventas de cuatros de sus
principales producto es homogénea entre sus clientes clasificados por tipos de
ocupación. Si su afirmación está sustentada entre otras cosas en la muestra
aleatoria de las ventas a mil clientes tabulada como sigue:
Ocupación Producto
1 2 3 4
Profesionales 30 35 55 40
Comerciantes 155 50 125 80
Obreros 130 30 105 50
Ama de casa 35 15 20 45
Al nivel de significación del 5% ¿Qué opina usted de la afirmación del gerente?
a. , se rechaza H0
b. , no se rechaza H0
c. , no se rechaza H0
d. , se rechaza H0
Respuesta: Clave a
10. Una muestra de televidentes clasificados por clase social y por la sintonía
diaria de cuatro programa TV del mediodía se da en la siguiente tabla:
Programa
Clase social
Pobre Media baja Media Alta
1 190 280 500 280
2 250 300 350 150
3 160 250 180 120
4 100 150 80 80
Al nivel de significancia del 5% ¿Es homogéneo el ranking de los 4 programas
en las cuatro clases sociales?
a. , se rechaza H0
b. , no se rechaza H0
c. , no se rechaza H0
d. , se rechaza H0
Respuesta: Clave d
Métodos estadísticos
UCV – Lima este Página 146
BIBLIOGRAFÍA
1. ÁVILA, Roberto. Estatística Elemental. 3era. Edición. Lima. Estudios y Ediciones
R.A. 2002. 224 p
2. CORDÓVA Manuel. Estadística Descriptiva e Inferencial Aplicaciones. Editorial,
Librería Moshera S.R.L. 2008.
3. JHONSON, Robert. Estatística Elemental. 2da. Edición. México DF. Editorial
Trillas. 2002. 180 p.
4. MITACC Meza Máximo. Tópicos de Estadística Descriptiva y Probabilidad.
Editorial San Marcos. 2000
5. MONTGOMERY, M E. y RUNGER, G. Probabilidad y Estadística Aplicada a la
Ingeniería. 1era. Edición. México. DF. Mc Graw Hill. 1999. 200 p.
6. WALPOLE, R. [et al. ]. Probabilidad y Estadística para Ingenieros. 6ta. Edición.
México DF. Pearson Educativo. 2002. 200 p.
Métodos estadísticos
UCV – Lima este Página 147
ANÁLISIS DE VARIANZA
1. INTRODUCCIÓN
El análisis de varianza para experimentos diseñado, es una técnica estadística
que se aplica para comprobar si son iguales las medias de más de dos poblaciones
independiente mediante la comparación de varianza insesgadas de muestra de
diversas fuentes, utilizando para el efecto la prueba F.
El anova trabaja con muestras pequeñas; por esta razón, se planifican
adecuadamente la recolección de datos.
La técnica estadística del análisis de varianza ha encontrado aplicación en casi
toda las disciplinas científicas y han llegado a convertirse en un tema muy amplio.
El término factor (cualitativo) se da a cada una de las variables independiente
que involucra el problema de anova, relacionada con una variable dependiente o
variable respuesta (cuantitativa); los valores de un factor son denominado niveles o
tratamientos en el diseño anova.
La variable dependiente x podría estar asociada a dos factores, cada elemento
de muestra contenida en todas las combinaciones de los niveles de los dos
factores es una unidad experimental. Los modelos se clasifican según el número de
factores o variable independiente.
2. ANÁLISIS DE VARIANZA DE UN SOLO FACTOR DISEÑO
COMPLETAMENTE ALEATORIZADO
En un diseño de experimento completamente aleatorio que se aplica para
comparar k tratamiento de un factor, los tratamientos se asignan al azar a las
unidades experimentales de la muestra, de manera que un tratamiento escogido al
azar es aplicado a una muestra, el siguiente tratamiento escogido al azar de lo que
restan es aplicado a otra muestra y así sucesivamente.
TRATAMIENTO DEL FACTOR A TOTAL
1 2 3 4 5
TOTAL T
MUESTRA n
MEDIA
VARIANZA
Métodos estadísticos
UCV – Lima este Página 148
Suma de los datos de la muestra i
Suma total de los datos
Numero de datos de la muestra i
Número total de datos
Media de la muestra i
Media general
MODELO DE CLASIFICACIÓN SIMPLE
Modelo de efectos fijos: Este modelo es aplicable cuando se desea comparar las
características dependiente x bajo k tratamientos prefijado de interés. Las
conclusiones serán validas solo para esto k tratamientos.
Modelo de efecto aleatorio: Se emplea cuando se tiene una gran población de
tratamiento y por lo tanto resulta poco práctico compáralos a todos. En este caso
se elige al azar solo k tratamientos de la población y luego se infiere las
conclusiones a toda la población de tratamientos.
HIPÓTESIS DEL MODELO DE CLASIFICACIÓN
Planteamiento de Hipótesis:
Ho:
Ha: No todas las son iguales
ESTADÍSTICA DE PRUEBA
Sumas cuadradas
SCT = suma del cuadrado total n
XXSCT ij
2
..2
SCTR = suma de cuadrado de tratamiento
n
X
n
XSCTR
i
i2
..
.
2
.
SCE = suma de cuadrado del error SCE = SCT - SCTR
Medias cuadráticas
1
n
SCTMCT
1
k
SCTRMCTR
kn
SCEMCE
Métodos estadísticos
UCV – Lima este Página 149
La estadística de prueba
MCE
MCTRF F (K – 1; n – k)
CUADRO DEL ANÁLISIS DE LA VARIANZA
Fuente de
Variación
Suma de
Cuadrados
Grados de
Libertad
Cuadrados
Medios
Razón F
calculada
Tratamientos SCTR k - 1
CMTR
Residual SCE
n - k CME
Global SCT
n - 1
EJEMPLO 1
Un ingeniero va a decidir la compras de una de 4 máquinas de marcas diferentes
para su uso en una producción especifica. Por esto, utilizo cada máquina al azar
para procesar cinco unidades del producto registrando los tiempo por unidad, en
segundos, resultando así el experimento completamente aleatorio. Los datos
observados son los siguientes:
M1: 55 46 45 73 50
M2: 60 58 68 58 63
M3: 64 62 51 57 65
M4: 42 45 52 44 42
Con un nivel de significancia del 5% pruebe la hipótesis que las máquinas utilizan
la misma velocidad media para procesar los productos.
EJEMPLO 2
Cuatro profesores cada uno con un grupo de alumnos, enseñan el mismo curso de
estadística, para evaluar las calificaciones por profesor de examen final se extrajeron
al azar una muestra de calificaciones de cada grupo, resultando los siguientes datos:
P1: 12 11 09 17 12
P2: 14 16 13 18 17
P3: 13 12 08 11 12
P4: 10 14 17 14 15
Al nivel de significancia del 5% ¿se puede concluir que existe diferencia significativas
en las calificaciones promedios obtenidas con los cuatros profesores?
Métodos estadísticos
UCV – Lima este Página 150
EJERCICIOS PROPUESTOS
1. El proyecto académico de un ingeniero es el diseño de un experimento a fin de
determinar el rendimiento de cuatro variedades de papa si tener en cuenta la
influencia de la fertilidad de la tierra de cultivo. Las 20 parcelas de igual
fertilidad que le fueron asignados los divido en 4 grupos de 5 parcelas cada
una. A cada grupo de parcelas le asigno una variedad distinta de papas
escogida al azar, resultando un diseño completamente aleatorizado. los
rendimientos medido en kilogramos de la cinco variedades por parcelas son la
siguientes:
V1 55 53 60 52 53
V2 52 58 50 60 52
V3 53 55 57 51 54
V4 52 50 51 49 53
Al nivel de significancia del 5% ¿se puede inferir que existe diferencia
significativa entre las producciones media de las 4 variedades.
2. Para comparar el tiempo empleado en realizar una tarea específica bajo tres
procedimientos un investigador diseño un experimento seleccionando al azar
tres muestra independiente de 10 operarios cada una y asigno al azar un
procedimiento a cada muestra. Los tiempos registrado en segundo son los
siguientes:
P1 13.45 19.10 20.73 23.60 13.45 23.29 14.93 17.07 13.65 18.79
P2 22.81 20.69 24.40 26.86 22.37 19.98 20.98 24.08 18.35 17.22
P2 18.92 21.32 25.93 19.07 20.98 26.40 28.04 23.44 18.47 25.42
¿Existe diferencia significativa entre los promedios de tiempo?
3. Una empresa de transporte terrestre va a adquirir una de 4 marcas de
neumático que hay en el mercado. El ingeniero de pruebas de la empresa diseñó
un experimento escogiendo al azar seis neumáticos de cada marca de
característica similares. En el laboratorio de prueba, con una carga específica
simulada, observo la duración de cada neumático hasta que se deteriore. Los
datos son los siguiente:
N1 55 53 50 60 55 65
N2 63 67 55 62 70 75
N3 48 50 59 50 47 61
N4 59 68 57 66 71 73
¿Indica estos datos que las marcas de los neumáticos producen efectos
significativo en el rendimiento?
Métodos estadísticos
UCV – Lima este Página 151
4. Un promotor inmobiliario considera invertir en un centro comercial a
construir en el sector medio de una capital del interior del país. Se evalúa cuatro
ciudades: Arequipa, Iquitos, Piura y Trujillo, en donde es muy importante el
nivel de los ingresos mensuales de familia. Los ingresos mensuales en dólares son
los siguientes:
Arequipa: 710 560 490 550 568
Iquitos: 610 560 490 550 610
Piura: 560 610 470 510 580
Trujillo: 500 400 500 550 520
¿Producen efectos significativos en la variabilidad de los ingresos los niveles de
factor ciudad?
5. El decano de FACI desea estudiar el número de horas que los alumnos de los
ciclo 5, 6, 7 y 8 utilizan los terminales de cómputos de la universidad. Una
muestra de usos por ciclo ha dado los siguientes tiempos en horas mensuales:
C5: 35 33 30 40
C6: 43 47 35 45
C7: 28 30 39 30
C8: 39 48 37 46
¿Existe diferencia significativa en el tiempo según el ciclo de estudio?
Métodos estadísticos
UCV – Lima este Página 152
BIBLIOGRAFÍA
1. ÁVILA, Roberto. Estatística Elemental. 3era. Edición. Lima. Estudios y Ediciones
R.A. 2002. 224 p
2. CÓRDOVA Manuel. Estadística Descriptiva e Inferencial Aplicaciones. Editorial,
Librería Moshera S.R.L. 2008.
3. JHONSON, Robert. Estatística Elemental. 2da. Edición. México DF. Editorial
Trillas. 2002. 180 p.
4. MITACC Meza Máximo. Tópicos de Estadística Descriptiva y Probabilidad.
Editorial San Marcos. 2000
5. MONTGOMERY, M E. y RUNGER, G. Probabilidad y Estadística Aplicada a la
Ingeniería. 1era. Edición. México. DF. Mc Graw Hill. 1999. 200 p.
6. WALPOLE, R. [et al. ]. Probabilidad y Estadística para Ingenieros. 6ta. Edición.
México DF. Pearson Educativo. 2002. 200 p.
Métodos estadísticos
UCV – Lima este Página 153
REGRESIÓN LINEAL SIMPLE
1. INTRODUCCIÓN
En muchas aplicaciones estadística se debe resolver problemas que contiene
un conjunto de variables y que se sabe existe alguna asociación entre ellas. En
este conjunto de variables muy a menudo se tiene una sola variable dependiente,
que depende de una o más variable independiente.
La primera forma del estudio de la asociación entre las variables X e Y
es la regresión, que consiste en determinar una relación funcional entre ellas,
con el fin de que se pueda predecir el valor de una variable en base a la
otra. La variable que se va predecir se denomina variable dependiente y la
variable que es la base de la predicción se denomina variable independiente.
La segunda forma del estudio de la asociación entre las variables X e Y,
es denominada correlación, que consiste en determinar la variación conjunta de
las dos variables, su grado de relación y su sentido. La medida del grado de
la relación se denomina coeficiente de correlación. El cuadrado del índice de
correlación se denomina coeficiente de determinación.
Se realizará un estudio de la regresión lineal en el sentido que, la ecuación
de regresión que se calcula será válida, solo si hay la seguridad de que existe un alto
nivel de correlación entre las variable medido por el coeficiente de
determinación.
Los métodos de regresión y de correlación se clasifican por el numero de
variable independiente en simple o múltiple. El análisis de asociación se denomina
simple, si hay una sola variable independiente. Si hay dos o más variable
independiente se denomina análisis de asociación múltiple.
2. DIAGRAMA DE DISPERSIÓN
Se denomina diagrama de dispersión o nube de puntos, a la gráfica de
los valores (x,y) de las variables X e Y en el sistema cartesiano.
Es frecuente visualizar el tipo de relación existente entre dos variables a partir
del diagrama de dispersión.
Métodos estadísticos
UCV – Lima este Página 154
3. LA COVARIANZA
La covarianza de los datos observado en una muestra es la estadística que
mide el nivel de la variabilidad conjunta de los datos de las variables en pareja
con respecto a sus medias respectivas.
4. EL COEFICIENTE DE CORRELACIÓN
El coeficiente de correlación lineal de Pearson de los n pares de valores de
una variable bidimensional (x,y) es el numero abstracto o relativo r que se calcula
por:
Otra expresión que se suele usar es:
SS yx
yxr
),cov(
Donde:
Cov(x,y) es la covarianza de x e y.
es la desviación estándar de x.
es la desviación estándar de y.
El coeficiente de correlación de la muestra es un número real comprendido
entre -1 y 1. El grado o nivel de ajuste de la ecuación a los datos se analiza en
forma descriptiva aplicando el coeficiente de determinación que se define como
el cuadrado del coeficiente de correlación.
Interpretación:
Si r = 1, hay una correlación perfecta positiva.
Si r = -1, hay una correlación perfecta negativa.
Si r = 0, no hay correlación entre las dos variables.
5. REGRESIÓN LINEAL SIMPLE
Dados n pares de valores de una variable bidimensional, la regresión
lineal simple Y con respecto a X, consiste en determinar la ecuación de la
recta:
Y= a+bx
Métodos estadísticos
UCV – Lima este Página 155
Que mejor se ajusta a los valores de la muestra, con el fin de poder predecir
o estimar Y a partir de X.
El proceso de predecir o estimar Y a partir de la variables X , es la regresión.
Hallar la función lineal, consiste en determinar las constante “a” y “b” a
partir de los datos de la muestra, para lo cual se usara el método de mínimos
cuadrados.
Otra expresión para b es: 2
),cov(
x
yxb
____
xbya
Interpretación de coeficiente de regresión b
Si b > 0, entonces la tendencia lineal es creciente, es decir a mayores
valores de X corresponde mayores valores de Y. También a menores
valores de X menores valores de Y.
Si b < 0, entonces, la tendencia lineal es decreciente, es decir, a mayores
valores de X corresponde menores valores de Y. También, a menores
valores de X corresponde mayores valores de Y.
Si b = 0, entonces Y permanece estacionario para cualquier valor de X es
decir no hay regresión.
6. COEFICIENTE DE DETERMINACIÓN
El coeficiente de determinación es una medida de la proximidad del ajuste
de la recta de regresión. Cuanto mayor sea el valor, mejor será el ajuste y más útil
la recta de regresión como instrumento de predicción; para calcular el coeficiente
de determinación se eleva al cuadrado el coeficiente de correlación. El número r2 es
denominado coeficiente de determinación.
Métodos estadísticos
UCV – Lima este Página 156
7. VARIANZA ESTIMADA DE REGRESIÓN
El segundo método para medir el ajuste de la estimación del modelo de
regresión a los datos de la muestra, es aplicar el error estándar de la estimación,
que desarrollaremos a continuación:
22
2
2
n
xybyay
n
SCEs
La raíz cuadrada positiva de la varianza de regresión es la desviación
estándar de la regresión, y se le denomina error estándar de estimación.
El error estándar de la estimación al igual que la varianza, es una medida de
la dispersión o concentración de los valores observados alrededor del modelo de
regresión.
Mientras más pequeño sea el valor del error estándar de estimación, más
cercano a la línea de regresión estarán los valores estimados.
8. INFERENCIA ACERCA DE LOS COEFICIENTE DE REGRESIÓN
No trataremos las inferencia acerca del parámetro “a” porque a menudo
carece de importancia, pues “a” es la ordenada en el origen y representa la
intersección de los ejes cuando x = 0.
Nos referimos a la inferencia acerca del parámetro “b” la pendiente de la línea
de regresión en la población.
Antes de aplicar el modelo estimado de la regresión lineal para realizar
predicciones de Y en función de X, se debe analizar si el valor de la pendiente B es
o no es significativo.
Entonces para evaluar el parámetro se puede utilizar cualquiera de los tres métodos:
Intervalo de confianza b
Prueba de hipótesis b
Análisis de varianza para b
INTERVALO DE CONFIANZA
Para poder calcular el intervalo de confianza se debe realizar los siguientes pasos:
Diferencia cuadrada de x con respecto a la media:
2___2 XnXS XX
Varianza estimada de “b”:
xx
bs
sS 2
Intervalo de confianza para “b”:
Métodos estadísticos
UCV – Lima este Página 157
Si el valor cero pertenece al intervalo entonces decimos que la b es igual a cero
que no es significativo en el modelo.
PRUEBA DE HIPÓTESIS
Si se plantea la hipótesis que b es igual a cero; esta hipótesis se rechazará
si el valor encontrado en la tabla es menor que el valor del estadístico. Esta
prueba es bilateral.
Hipótesis 1:
Ho: a = 0
Ha: a 0
Hipótesis 2:
Ho: b = 0
Ha: b 0
Valor de la tabla: )2;2
1( nt
Valor del estadístico de prueba:
bs
bt
ANÁLISIS DE VARIANZA
El método del ANOVA de la regresión lineal simple plantea la hipótesis nula
si b es igual a cero:
Suma cuadrado total
2___2 ynySCT
Suma cuadrado de regresión )(_____
yxnxybSCR
Suma cuadrado del error SCRSCTSCE
Cuadrado medio de regresión SCRCMR
Cuadrado medio del error
2
n
SCECME
Valor del estadístico
CME
CMRF
Valor de la tabla )1,2,1( nF
Si el valor del estadístico es mayor que el valor de la tabla entonces se rechaza la
hipótesis nula.
Métodos estadísticos
UCV – Lima este Página 158
9 APLICACIÓN DEL MODELO
Después de haber analizado la validez del modelo de regresión lineal
calculado de la muestra y comprobado la existencia de regresión lineal en la
población de la cual se ha obtenido la muestra o más específicamente después de
haber concluido que el modelo lineal estimado es adecuado para describir la
relación lineal entre X e Y se puede aplicar esta estimación del modelo de
regresión, para pronosticar o predecir el valor y para un valor especifico de x.
El primero es estimar el valor medio de todo los valores de y que
corresponde al valor x en un intervalo de confianza.
El segundo es predecir un solo valor y de todo los valores de y que
corresponde a x y calcular los extremo de esta predicción.
EJEMPLO APLICATIVO DE ANÁLISIS DE REGRESIÓN
Los siguientes datos corresponden a las notas obtenidas en un examen parcial y
final del curso de métodos estadísticos:
X:PARCIAL Y:FINAL
12 14
10 08
11 11
04 06
09 12
11 15
18 19
15 10
13 12
14 15
Hallar el grafico de dispersión
Tendencia: lineal positiva
Métodos estadísticos
UCV – Lima este Página 159
Hallar el coeficiente de correlación
= 0.7555
Hallar el modelo de regresión lineal (modelo ajustado)
Y = 3.38 + 0.75 X
2222 )()(
))((
XXnYYn
YXXYnr
22 )(
))((
XXn
YXXYnB XbYA
Métodos estadísticos
UCV – Lima este Página 160
TABLA DE LOS COEFICIENTES DEL MODELO
Modelo
Coeficientes no
estandarizados
Coeficientes
tipificados
t P_VALOR B Error típ. Beta
(Constante) 3,377 2,828 1,194 0,267
X_PARCIAL ,754 ,231 ,756 3,262 0,011
El coeficiente del examen parcial es significativo
CUADRO DEL COEFICIENTE DE CORRELACIÓN
Modelo r
R
cuadrado
R cuadrado
corregida
Error típ. de la
estimación
1 ,756 ,571 ,517 2,616
Dado que el r = 0.756 se dice que existe relación lineal positiva entre las notas
del examen parcial y el examen final.
CUADRO DE BONDAD DE AJUSTE DEL MODELO
Modelo Suma de
cuadrados gl
Media
cuadrática F
P_VAL
OR
1 Regresión 72,846 1 72,846 10,643 ,011
Residual 54,754 8 6,844
Total 127,600 9
Ho: el modelo es no significativo.
Ha: el modelo es significativo.
Decisión: entonces se rechaza Ho.
Conclusión: con un 5% de significancia el modelo resulta ser significativo.
Métodos estadísticos
UCV – Lima este Página 161
EJERCICIOS PROPUESTOS
1) En un estudio del efecto de un componente de la dieta sobre la
composición de los lípidos del plasma, se obtuvieron los siguientes datos en
una muestra de 8 animales experimentales
X = Medida del componente de la dieta
Y = Medida de la concentración de lípidos en el plasma
x y
18 38
21 40
28 47
35 54
47 66
33 52
40 59
19 38
Hallar la covarianza
Halar la correlación
Estimar el modelo
Hallar el coeficiente de determinación
Hallar la varianza de regresión
Realizar la inferencia del modelo
Aplicación del modelo.
2) Los datos siguientes muestran la densidad óptica de cierta sustancia a
diferente niveles de concentración.
X = Nivel de concentración
Y = Densidad óptica
Métodos estadísticos
UCV – Lima este Página 162
x y x y
80 0,08 280 0,38
120 0,12 320 0,41
160 0,18 360 0,42
200 0,21 400 0,51
Hallar la covarianza
Halar la correlación
Estimar el modelo
Hallar el coeficiente de determinación
Hallar la varianza de regresión
Realizar la inferencia del modelo
Aplicación del modelo.
3) El administrador de un hospital reunió los siguientes datos sobre el costo
por comida estándar a diferentes volúmenes de preparación.
X = Números de comidas servidas
Y = Costo por comidas
x
y
30 1,15
35 1,11
40 0,98
45 1,01
50 0,97
Hallar la covarianza
Halar la correlación
Estimar el modelo
Hallar el coeficiente de determinación
Hallar la varianza de regresión
Realizar la inferencia del modelo
Aplicación del modelo
Métodos estadísticos
UCV – Lima este Página 163
4) Se llevo a cabo un experimento para estudiar la relación entre una
medición objetiva de la ansiedad y la frecuencia cardiaca en adulto. Se
obtuvieron los siguientes resultados en los 10 adultos normales.
X = Frecuencia cardiaca por minutos
Y = Medición objetiva de la ansiedad
x y x y
50 48 75 36
55 41 80 38
60 45 85 36
65 41 90 30
70 42 95 32
Hallar la covarianza
Hallar la correlación
Estimar el modelo
Hallar el coeficiente de determinación
Hallar la varianza de regresión
Realizar la inferencia del modelo
Aplicación del modelo.
5) Se reunieron los siguientes datos en un estudio de la relación entre la
inteligencia y el tamaño de la familia.
X = Tamaño de la familia
Y = Puntuación de inteligencia
x y x y
1 105 6 101
2 102 7 95
3 104 8 93
4 100 9 97
5 97 10 88
Métodos estadísticos
UCV – Lima este Página 164
Hallar la covarianza
Halar la correlación
Estimar el modelo
Hallar el coeficiente de determinación
Hallar la varianza de regresión
Realizar la inferencia del modelo
Aplicación del modelo
6) Un banco estudia la relación entre las variables, ingreso y ahorros mensuales
de sus clientes. Una muestra aleatoria de sus clientes revelo los siguientes datos
en dólares:
X: 350 400 450 500 950 850 700 900 600
Y: 100 1105 130 160 350 350 250 320 130
Hallar la covarianza
Halar la correlación
Estimar el modelo
Hallar el coeficiente de determinación
Hallar la varianza de regresión
Realizar la inferencia del modelo
Aplicación del modelo
7) El gerente de personal de una empresa quiere estudiar la relación entre el
ausentismo y la edad de sus trabajadores. Si una muestra aleatoria de 10
trabajadores de registro de la empresa reveló lo siguientes datos:
Edad:
25 46 58 37 55 32 41 50 23 60
Ausentismo:
18 12 8 15 10 13 7 9 16 6
Hallar la covarianza
Halar la correlación
Estimar el modelo
Hallar el coeficiente de determinación
Hallar la varianza de regresión
Realizar la inferencia del modelo
Aplicación del modelo
8) Un grupo que vende al menudeo, encargó un estudio para determinar la
relación entre los gastos de publicad semanal por radio y el monto de las
ventas de sus productos. En el estudio se obtuvieron los siguientes resultados:
Métodos estadísticos
UCV – Lima este Página 165
Gastos:
30 20 40 50 70 60 80 70 80 90
Ventas:
300 250 400 380 550 750 630 930 700 750
Hallar la covarianza
Halar la correlación
Estimar el modelo
Hallar el coeficiente de determinación
Hallar la varianza de regresión
Realizar la inferencia del modelo
Aplicación del modelo
9) Una empresa agroindustrial quiere determinar la relación entre cantidad de
fertilizante y producción de papa por hectárea que produce. Si la muestra del
experimento proporcionó los siguientes datos:
Sacos:
3 4 5 6 7 8 9 10 11 12
Rendimiento:
45 48 52 55 60 65 68 70 74 76
Hallar la covarianza
Halar la correlación
Estimar el modelo
Hallar el coeficiente de determinación
Hallar la varianza de regresión
Realizar la inferencia del modelo
Aplicación del modelo
10) Para estudiar la relación entre el número de horas de estudio y las
calificaciones finales en una prueba de conocimientos se recopilaron los
siguientes datos de una muestra aleatoria de 10 alumnos.
Horas: 14 16 22 20 18 16 18 16 18 22
Calificaciones: 12 13 15 15 17 11 14 16 08 05
Hallar la covarianza
Halar la correlación
Estimar el modelo
Hallar el coeficiente de determinación
Hallar la varianza de regresión
Realizar la inferencia del modelo
Aplicación del modelo
Métodos estadísticos
UCV – Lima este Página 166
BIBLIOGRAFÍA
1. ÁVILA, Roberto. Estatística Elemental. 3era. Edición. Lima. Estudios y Ediciones
R.A. 2002. 224 p
2. CÓRDOVA Manuel. Estadística Descriptiva e Inferencial Aplicaciones. Editorial,
Librería Moshera S.R.L. 2008.
3. JHONSON, Robert. Estatística Elemental. 2da. Edición. México DF. Editorial
Trillas. 2002. 180 p.
4. MITACC Meza Máximo. Tópicos de Estadística Descriptiva y Probabilidad.
Editorial San Marcos. 2000
5. MONTGOMERY, M E. y RUNGER, G. Probabilidad y Estadística Aplicada a la
Ingeniería. 1era. Edición. México. DF. Mc Graw Hill. 1999. 200 p.
6. WALPOLE, R. [et al. ]. Probabilidad y Estadística para Ingenieros. 6ta. Edición.
México DF. Pearson Educativo. 2002. 200 p.
Top Related