Apunte de Estadística 2014

75
TECNICATURA SUP E Docente Responsable : P Instituto Superior “F.A PERIOR EN HIGIENE Y SEG EL TRABAJO ESTADÍSTICA Prof. Quiroga Hahn, Adriana Aye A.S.T.A. Catamarca” GURIDAD EN elén

description

apunte

Transcript of Apunte de Estadística 2014

Page 1: Apunte de Estadística 2014

TECNICATURA SUPERIOR EN HIGIENE Y SEGURIDAD EN

ESTADÍSTICA

Docente Responsable: Prof. Quiroga Hahn, Adriana Ayelén Instituto Superior “F.A.S.T.A. Catamarca”

TECNICATURA SUPERIOR EN HIGIENE Y SEGURIDAD EN EL TRABAJO

ESTADÍSTICA

: Prof. Quiroga Hahn, Adriana Ayelén

Instituto Superior “F.A.S.T.A. Catamarca”

TECNICATURA SUPERIOR EN HIGIENE Y SEGURIDAD EN

: Prof. Quiroga Hahn, Adriana Ayelén

Page 2: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 1 de 75

UNIDAD Nº 1: “CONCEPTOS BÁSICOS DE ESTADÍSTICA – ORGANIZACIÓN DE DATOS”

I. INTRODUCCIÓN

Permanentemente se difunden estadísticas referidas a los más variados aspectos. Sin

embargo el conocimiento que las personas tienen en general respecto a este tema es escaso, e incluso existe una actitud de cierta desconfianza debido al uso interesado que frecuentemente se hace de distintos datos mal llamados 'estadísticos'.

No todas las 'estadísticas' que llegan a nuestro conocimiento provienen de la aplicación de la Metodología Estadística. Existe una Teoría Estadística con su propia estructura debidamente fundamentada y de cuya correcta aplicación pueden derivarse resultados y conclusiones científicamente válidas. Por otra parte, existen también datos obtenidos sin ninguna metodología científica a las cuales lamentablemente también se las denomina 'estadísticas'.

El no uso de una metodología adecuada, el mal uso de la metodología, el planteo inadecuado del problema, las interpretaciones incorrectas o interesadas de los resultados, el abuso de los métodos cuantitativos a problemas que no lo soportan, etc., son algunos de los problemas que frecuentemente malogran un adecuado entendimiento de esta disciplina por parte de las personas no entrenadas en la misma.

La Estadística en su aplicación, no es un fin en sí misma, sino un medio. La Estadística es una ciencia auxiliar de otras ciencias. Ella colabora en resolver problemas planteados generalmente por otras disciplinas.

La estadística es ampliamente utilizada en los distintos métodos de la investigación científica y por lo tanto se hace necesario cada vez más su conocimiento por parte tanto de los investigadores como de aquellos que aplican los nuevos conocimientos adquiridos con la finalidad de interpretar críticamente los nuevos resultados que se le aportan. II. ¿POR QUÉ ESTUDIAR ESTADÍSTICA?

Si observa los planes de estudio de cualquier carrera terciaria o universitaria, se dará cuenta que la estadística se encuentra en la mayoría de dichos planes. ¿Por qué razón? ¿Cuál es la diferencia entre la estadística que se estudian en las diferentes carreras? La mayor diferencia radica en los ejemplos que se utilizan. El contenido es básicamente.

Entonces, ¿por qué la estadística se necesita en tantas áreas importantes? Existen tres razones fundamentales:

1) La información numérica está en todas partes. 2) Las técnicas estadísticas se utilizan para tomar decisiones que afectan nuestra vida

diaria. 3) El conocimiento de los métodos estadísticos le ayudará a tomar decisiones en forma

más efectiva y a comprender de qué manera afectan éstos sobre las decisiones tomadas.

Sin importar la línea de trabajo, tendrá que enfrentar decisiones en las que el entendimiento del análisis de datos será muy útil. A fin de tomar una decisión informada, necesitará poder:

• Determinar si la información existente es adecuada o si se necesita información adicional.

• Recopilar información adicional, en caso de ser necesaria, de manera que no proporcione resultados erróneos.

• Resumir la información en forma útil y organizada. • Analizar la información disponible. • Sacar conclusiones y hacer deducciones al tiempo que evalúa el riesgo de una

conclusión incorrecta.

III. ORIGEN DE LA ESTADÍSTICA La Estadística Descriptiva tiene su origen mil o dos miles años antes de Cristo, en Egipto,

China y Mesopotamia, donde se hacían censos para la administración de los imperios.

Page 3: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 2 de 75

Del Egipto de los faraones se tienen datos mucho más exactos: listas de familias, de soldados, de casas, de jefes de familia y de profesiones. Existen documentos del siglo VI a.C. que muestran que todo individuo tenía la obligación de declarar, cada año, bajo pena de muerte, su actividad y sus fuentes de ingresos. Los egipcios tuvieron el barómetro económico más antiguo: un instrumento llamado "Nilometro", que medía el caudal del Nilo y servía para definir un índice de fertilidad, a partir del cual se fijaba el monto de los impuestos. De la observación de la variabilidad del clima conocían el concepto de incertidumbre, y el concepto de azar de los juegos.

Pero la Estadística progresa realmente a partir del siglo XVI junto con las monarquías absolutas y su poderosa estructura administrativa centralizada. Empiezan a aparecer las primeras obras sobre Estadística, más bien descriptivas. Una de las más influyentes fue la de Jean Bodin (Francia, 1530-1596), que explica la importancia de los censos.

La Estadística moderna surge a mediados del siglo XVII, siendo John Graunt y William Petty sus iniciadores. Con la introducción de diferentes aplicaciones, la teoría de las probabilidades del siglo XVIII funda la Estadística Matemática. El término de Estadística se debe posiblemente a G. Achenwall (1719-1772), profesor de la Universidad Göttingen, tomando del latín la palabra status.

Los primeros resultados importantes de la Estadística Matemática se deben al inglés Kart Pearson (1857-1936) y a otros investigadores de la escuela biométrica inglesa.

En la segunda mitad del siglo XX (llamada la revolución computacional), la llegada de los computadores revolucionó el desarrollo de la Estadística. En Francia (Benzécri) y en los Estados unidos (Tuckey) fueron los pioneros en repensar la Estadística en función de los computadores. Ellos mejoraron, adaptaron y crearon nuevos técnicas para estudiar grandes volúmenes de datos.

Por un lado los datos estadísticos empiezan a ser utilizados por los bancos y por las nacientes compañías de seguros; por otro, se inventa en Inglaterra el concepto de "aritmética política" y se empiezan a "matematizar" disciplinas que eran, hasta entonces, puramente descriptivas; tales como la demografía, la economía y las ciencias sociales, transformándose al contacto con la Matemática.

Hoy, la Estadística, junto con el cálculo de probabilidades, constituyen una rama independiente de la Matemática con aplicaciones en casi todas las actividades humanas: Física, Astronomía, Biología, Genética, Medicina, Agricultura, Psicología, y otras; en todas estas ciencias se hacen predicciones, encuestas, controles de calidad, etc., También se aplican los métodos de la Estadística al estudio de fenómenos "no medibles", tales como la Lingüística y la Literatura. Es claro que la lista no es exhaustiva IV. CLASIFICACIÓN DE LA ESTADÍSTICA

La Estadística se divide en dos grandes ramas: Estadística Descriptiva: Conjunto de métodos para organizar, resumir y presentar los datos de manera informativa. Estadística Inferencial: Conjunto de métodos utilizados para determinar algún atributo medible acerca de una población con base en una muestra.

Población: Conjunto de todos los individuos, medidas u objetos de interés. Para inferir algo acerca de una población, casi siempre tomamos una muestra de ésta.

Muestra: Una porción o parte representativa de la población de interés. ¿Por qué tomamos una muestra en lugar de estudiar a todos los individuos de la población?

1. Establecer contacto con la totalidad de la población resulta materialmente imposible debido a su tamaño. Por ejemplo, al querer determinar el número de bacterias en un lago en un momento determinado.

2. La observación de cada individuo requiere de su destrucción, como sería el caso de estudiar el tiempo de vida de animales sometidos a cierta droga.

Page 4: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 3 de 75

3. Por razones de costo, tiempo o limitación en otros recursos impiden observar la totalidad de las unidades.

4. Si bien a veces podemos observar la totalidad de las unidades de la población, no se justifica utilizar los recursos necesarios para ello, dado el pequeño margen de error que puede arrojar una muestra que implique una observación mucho menor.

V. ETAPAS DE UNA INVESTIGACIÓN ESTADÍSTICA

En el proceso de investigación estadística se identifican tres etapas: • Planificación • Ejecución • Evaluación

En cada una ellas se establecen subetapas que no necesariamente deben cumplirse en la secuencia indicada.

A fin de clarificar cada subetapa se presenta un ejemplo de investigación educativa que se irá desarrollando paso a paso.

PROBLEMA DE APLICACIÓN Como parte del proyecto "Lectura comprensiva y redes informáticas" los docentes investigadores consideraron relevante obtener una aproximación acerca de las preferencias de lectura de los estudiantes. Para ello llevaron a cabo una encuesta a los alumnos de 2° y 3° ciclo de la Enseñanza General Básica (E.G.B.) de la Escuela pública N° 265 de San José, departamento Fray Mamerto Esquiú de la provincia de Catamarca, en el año 2004. En dicha encuesta se indagaba respecto del gusto por leer, los temas que preferían leer y la cantidad de libros leídos por año. A los fines didácticos solo se consideran los estudiantes de 7 Año de E.G.B. 3.

•••• Planificación Cuanto mejor planificada esté una investigación, más fácil será su ejecución. Las subetapas que se consideran en la planificación son:

���� Definición de objetivos: Consiste en indicar, detalladamente, lo que se pretende

investigar: qué, cómo, dónde, cuándo y por qué. Los objetivos para estar bien formulados deben tener la siguiente estructura.

“Verbo + variable + unidad de observación + contextualización” En esta subetapa deben evaluarse la factibilidad del cumplimiento de los objetivos. “En el problema de aplicación considerado el objetivo general es: Explorar cómo el potencial para la lectura desde los modelos analizados puede desarrollarse para contribuir a mejorar el rendimiento escolar en todas las áreas de aprendizaje. Y como objetivo especifico: Obtener una aproximación acerca de las preferencias de lectura de los estudiantes".

���� Revisión de la literatura: Este paso es muy importante, ya que puede suministrar

información que permita: replantear los objetivos y, usar escalas de medidas y métodos de análisis, a fin de poder comparar los resultados con otras investigaciones previas.

���� Definición y delimitación del Universo: El universo o población del cual se extraerá la

información debe quedar claramente definido y delimitado. "En la investigación en cuestión, la población que se desea investigar está compuesta por los alumnos que asisten a 7º Año de E.G.B. 3, de la escuela pública N° 265 de San José del departamento Fray Mamerto Esquiú de la provincia de Catamarca, en el año 2004".

Page 5: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 4 de 75

���� Diseño de la muestra: Con frecuencia resulta imposible, innecesario o poco práctico el estudio de todo el universo; es en estos casos dónde se debe diseñar la muestra, esto permitirá la generalización de los resultados de la muestra a la población de origen.

"En el diseño de la muestra se tuvo en cuenta que los alumnos pertenezcan a 7º Año de E.G.B. 3 de la escuela pública N° 265 de San José, departamento Fray Mamerto Esquiú de la provincia de Catamarca, pues el estudio se centra en dicha institución, tomándose una muestra de 20 alumnos".

���� Definición de las variables y de las unidades de medidas: Para el estudio de un

problema y su descripción es necesario cuantificarlo, es decir definir las variables de estudio y las unidades en que éstas serán medidas. Al fijar la unidad de medida de una variable quedará determinado el modo de registrar y tabular la información de ella.

Si se solicita la información, por ejemplo de la edad en grupos o intervalos, se pierde la información de aliada en edades individuales. “En la investigación analizada se consideran como variables de estudio y sus correspondientes unidades de medidas, las siguientes:

VARIABLES UNIDAD DE MEDIDAS 1) Preferencia por la lectura. SI / NO

2) Temas de interés de lectura. Listado de temas 3) Cantidad de libros leídos por año. Unidades

���� Determinación de las unidades de observación: Es importante tener en claro

quiénes serán estudiados: personas, animales u objetos que conformarán el universo; elementos estos que Estadística reciben el nombre de individuos.

En una misma investigación, cada objetivo puede requerir el estudio de distintas unidades de observación, como ser familias, viviendas, escuelas, personas, entre otras.

���� Determinación de las fuentes de información: Puede ocurrir que ya existan fuentes

para la obtención de los datos requeridos, como ser: registros administrativos del Registro Civil, fichas clínicas de Hospitales u otros organismos; ó que se consideren fuentes propias para planificar la recolección de los datos necesarios.

“La fuente de información considerada fueron los registros de inscripción de alumnos de 7º Año de E.G.B. 3, en el año 2004, de la Escuela Pública N° 265 de San José, del departamento Fray Mamerto Esquiú de la Provincia de Catamarca".

���� Selección del sistema de recolección de la información: Pueden darse dos posibilidades: a) De registros administrativos, que corresponden a anotaciones continuas,

permanentes y obligatorias de datos. b) Por encuestas, la recolección de datos se hace en un periodo establecido de

tiempo y puede tomar el total de la población (censo) o una muestra. “En la investigación en estudio se utilizó como instrumento de recolección de información una encuesta”.

���� Diseño del instrumento de recolección: Para la recolección de la información se utilizan instrumentos ya existentes o se construyen nuevos. Resulta conveniente hacer una cuidadosa selección de la información a recoger, pues ésta deberá ser la mínima suficiente para cumplir con los objetivos establecidos.

"La encuesta utilizada en la investigación propuesta fue diseñada por los investigadores del proyecto".

���� Elaboración del plan de tabulación y análisis: Es necesario diseñar un plan de

tabulación y análisis estadístico que permita dar respuesta a los objetivos planteados. En esta instancia, muchas veces se advierte que se había decidido

Page 6: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 5 de 75

recoger datos que no eran necesarios y que se pueden dejar de lado; o bien, que se necesitan otros que no se habían considerado.

"En el plan de tabulación del problema de aplicación se construirán tablas de frecuencias para cada variable estudiada y gráficos, y a fin de cruzar variables se construirán tablas de contingencia. En el análisis de los datos se calcularán las medidas de posición y dispersión adecuadas al tipo de variables".

���� Organización de la investigación: Se refiere a los recursos humanos, materiales y financieros que permitirán realizar el estudio. Deberá efectuarse el cronograma aproximado de las etapas de ejecución, la selección del personal que intervendrá y su capacitación. Además, habrá que estimar el costo de la investigación en conceptos de remuneración, obtención de la muestra, materiales, equipamiento, entre otros.

“En la organización de la investigación propuesta se consideró como recursos humanos a los docentes integrantes del proyecto, y el material y gastos de traslados fue proporcionado por el director del proyecto, financiado por un ente público”.

•••• Ejecución Consiste en llevar a la práctica lo que se planificó, e incluye las siguientes subetapas:

���� Recolección de la información: Deberá hacerse siguiendo criterios e instrucciones uniformes, y ello se consigue con la capacitación del personal o encuestadores y el uso de un instrumento común.

“En la investigación realizada para el relevamiento de la información los docentes siguieron criterios e instrucciones uniformes, previa capacitación del personal involucrado”.

���� Análisis de la calidad de la información: La información se revisará respecto a su integridad y a la existencia de errores.

“Una vez relevada la información se elaboró una base de datos, en la cual se analizó la integridad y la existencia de posibles errores”.

���� Procesamiento de la información: Se clasificarán las variables, para luego presentar la información en tablas y gráficos. El resumen de los datos mediante medidas estadísticas adecuadas permitirá efectuar descripciones y comparaciones.

���� Análisis e interpretación de los resultados: Cuando un estudio es sólo descriptivo, esta etapa consiste en la presentación de los hechos encontrados. Cuando el estudio es inferencial se debe aplicar inferencia estadística, para corroborar o no la hipótesis planteada.

"Como la investigación referida al problema de aplicación es descriptiva, en esta etapa se interpretaron los resultados obtenidos en el paso anterior".

���� Elaboración del informe estadístico: Una vez completada la subetapa de procesamiento de la Información, del análisis e interpretación de los resultados se efectúa el informe estadístico, en el cual es conveniente incluir textos, tablas, gráficos, medidas resúmenes e indicadores.

"En el informe estadístico del problema planteado se consideró textos, tablas, gráficos, medidas descriptiva e indicadores"

•••• Evaluación Esta etapa corresponde a la aplicación de indicadores para medir el alcance de las metas, es decir comparar entre lo planificado y lo ejecutado.

"Al efectuar la evaluación de la investigación planteada, se ha obtenido un indicador del 100% de actividades ejecutadas en relación a las planificadas".

Page 7: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 6 de 75

VI. CONCEPTOS BÁSICOS DE ESTADÍSTICA

Unidad Estadística o Individuo Las personas o cosas que integran la población se denominan unidades estadísticas o

unidades de observación pues es a ellas a las que hay que observar para obtener los resultados. Desde el punto de vista estadístico una unidad puede ser algo con existencia real, como una persona, planta, animal, etc. o algo abstracto como la temperatura o un intervalo de tiempo. Los elementos pueden coincidir con una unidad natural como personas o viviendas, o pueden ser creadas artificialmente al solo propósito de la investigación como por ejemplo parcelas en que puede dividirse un terreno. Las unidades pueden ser lo que ordinariamente se conoce como una entidad simple - una persona - o una entidad compleja - una familia.

La definición de la población y de las unidades que la integran es de fundamental importancia en toda investigación debiéndose dar reglas claras y precisas respecto de que unidades son incluidas en la misma. Si ello no fuera así no se sabría por una parte que unidades seleccionar en el estudio y por otra cual sería el alcance de nuestras conclusiones.

Variables Las unidades estadísticas de la población poseen ciertas propiedades, rasgos o cualidades

que denominaremos en adelante variables. Así por ejemplo las personas tienen variables tales como la estatura, la edad, el estado civil, la profesión, etc. Las plantas variables como especie a la que pertenecen, la altura, el diámetro basal del tallo, el número de hojas, el peso seco, etc.

Cada investigación estadística va dirigida a un conjunto de variables y no a todos, puesto que el número de éstos puede ser muy grande. El investigador es quien determina los variables a observar de acuerdo al propósito del estudio.

También aquí, la definición de los variables a observar es de suma importancia. Hay variables de fácil definición como el sexo de una persona por ejemplo pero otros que presentan una gran dificultad como el concepto de salud de una persona.

Otro aspecto importante de tener en cuenta es el número de variables a incluir en una investigación. Estos deben limitarse estrictamente a los imprescindibles para dar respuesta a los propósitos de la investigación pues a medida que se aumenta el número de variables a considerar, aumenta no sólo el trabajo y los costos sino también los errores inherentes a todo proceso de recolección y tratamiento de la información.

Clasificación de variables Las variables de las unidades de la población pueden dividirse en dos categorías, las

cuantitativas y las cualitativas. Las variables cualitativas o atributos son los que sólo pueden describirse mediante

palabras, como la profesión, el color de ojos, nivel de estudios alcanzados, etc. Tampoco un atributo aparece siempre de la misma forma en todas las unidades observadas. A esas distintas formas, las denominaremos modalidades del atributo.

Las variables cuantitativas son las que pueden describirse mediante números que reflejan la magnitud de esa variable como por ejemplo la estatura, el peso, etc. Tales números se obtienen de observar dichas variables cuantitativas en las unidades de la población. Estas variables no se presentan siempre con la misma intensidad, es decir, no todas las personas tienen la misma estatura o el mismo peso. En consecuencia la observación produce distintos números, que son los valores de la variable.

Dentro de las variables cuantitativas existe una importante distinción: las variables cuantitativas discretas y las variables cuantitativas continuas. Las variables cuantitativas discretas son aquellas que solo pueden tomar determinados valores dentro de un intervalo como por ejemplo el número de hojas de una planta. La variable cuantitativa continua en cambio es aquella que puede tomar cualquier valor dentro de un intervalo como el peso de una persona por ejemplo.

Page 8: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 7 de 75

Escala de medición de las variables Una vez seleccionadas las variables (cualitativas o cuantitativas), se procede a observarlas

en las unidades de la población, presentándose así el problema de cómo medir esas variables. El nivel de medición de la información indica los cálculos que se pueden realizar para

resumir y presentar los datos. Para el nivel nominal de medición, las observaciones de una variable cualitativa solo se

pueden clasificar y contar. Por ejemplo, no existe un orden para el color de ojos. Las categorías de clasificación de una variable pueden ser: mutuamente excluyentes, cada individuo se incluye a una única categoría; y exhaustivas, todos los individuos deben pertenecer si o si a una categoría.

En el nivel ordinal de medición, las unidades observadas de una variable cualitativa se pueden ordenar de acuerdo a algún criterio. Es el caso del nivel máximo de estudio alcanzado. Las categorías de esta escala de medición deben ser mutuamente excluyentes y colectivamente exhaustivas.

El nivel de intervalo de medición incluye todas las características del nivel ordinal y además el 0 es solo un punto de escala, no indica ausencia de la condición. Un ejemplo es la temperatura, 0º C no significa ausencia de temperatura, simplemente que hace frío.

El nivel de razón de medición tiene todas las características de la escala de intervalo con la diferencia que el 0 es significativo. Por ejemplo, el salario, si una persona cobra $0 significa ausencia de salario. VII. RECOLECCIÓN DE DATOS

Etapas Una vez que se seleccionan las variables involucradas en la investigación y la muestra

adecuada, las siguientes etapas consisten en recolectar los datos pertinentes. 1. Seleccionar o desarrollar un instrumento de medición: Se selecciona o elabora un

instrumento de medición, de acuerdo a los objetivos y el contexto de la investigación. Un instrumento de medición adecuado es aquel que registra datos observables que la investigación involucra; si no es así, la medición es deficiente. Desde luego, no hay medición perfecta, variables como la inteligencia, la motivación, el nivel socioeconómico y otras son bastante difíciles de representar fielmente. Existen diversos tipos de instrumentos de medición, cada uno con características diferentes, como ser: objetos, aparatos, dispositivos y cuestionarios.

2. Aplicar el instrumento de medición: Se aplica el instrumento de medición elaborado o seleccionado a los individuos que conforman la muestra.

3. Codificar los datos: Codificar los datos significa asignarles a cada categoría de respuesta de la variable en estudio un número o código, que la represente. La codificación servirá para agrupar a todas las respuestas u observaciones que sean idénticas.

Técnicas

Entre las técnicas de recolección de datos se mencionan: ���� Observación: En la investigación, la observación engloba todos los procedimientos

utilizados no solo para examinar las fuentes donde se encuentran los hechos y datos objeto de estudio, sino también para obtener y registrar éstos. La observación proporciona al investigador el material de trabajo que ha de ser después objeto, de tratamientos y estudios científicos. En muchos casos hay datos que el entrevistador recoge mediante la observación y no mediante preguntas, como por ejemplo las características de una vivienda.

���� Entrevista: Procedimiento de recopilación de datos que consiste en la obtención de la información mediante una conversación de naturaleza profesional. Por ejemplo, se puede realizar una entrevista a votantes para conocer la actitud pública hacia una emisión de bonos municipales.

���� Encuesta: La encuesta es una técnica que se utiliza para obtener la información de un determinado grupo de personas respecto de algún aspecto por medio de consultas o interrogatorios.

Page 9: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 8 de 75

Por ejemplo, un fabricante hace una encuesta de mercado a un grupo de pobladores de una región antes de introducir un nuevo producto. La diferencia entre una encuesta y un censo, es que en el ceso se estudian todos los miembros de una población, en cambio, las encuestas recogen información de una parte de la población.

Diseño de un cuestionario Un cuestionario consiste en un conjunto de preguntas en relación a una o más variables a

medir. Si el objetivo de una encuesta es obtener información de personas, entonces deben

considerarse varias fuentes potenciales de errores y se espera que éstos sean controlados por un cuidadoso diseño del cuestionario.

El tipo de preguntas que contiene un cuestionario depende del grado en que se puedan anticipar las posibles respuestas, del tiempo que se disponga para codificarlas y de si se quiere profundizar en alguna cuestión. Es conveniente iniciar con preguntas neutrales o fáciles de contestar, para que el respondiente vaya situándose en el tema. No se recomienda comenzar con preguntas difíciles o preguntas muy directas.

Además de las preguntas y categorías de respuestas, un cuestionario está formado por instrucciones que indican cómo contestar. Las instrucciones son tan importantes como las preguntas y es necesario que sean claras para los usuarios a quienes van dirigidas.

Es frecuente incluir una carátula de presentación o una carta donde se explican los propósitos del cuestionario y se garantiza que la información sea confidencial. Esto ayuda a ganar la confianza del encuestado, que responde.

No existe una regla respecto al tamaño del cuestionario, aunque según Padua (1979), si es muy corto se pierde información y si es largo puede resultar tedioso de responder. El tamaño depende del número de variables y dimensiones a medir, el interés de los respondientes y la manera cómo es administrada. Cuestionarios que duran más de 35 minutos pueden resultar tediosos.

VIII. PRESENTACIÓN DE LA INFORMACIÓN

La información estadística se puede presentar de tres formas: ���� Tablas de frecuencias: Tabla formada por las categorías o valores de una variable y

sus frecuencias correspondientes. ���� Gráficos estadísticos: es la representación de atributos o de datos numéricos en el

plano, con el objeto de mostrar un conjunto completo de información de manera ágil y de fácil comprensión

���� Texto: es la representación de los resultados de un estudio estadístico, en párrafos. IX. TABLAS DE FRECUENCIAS

Conceptos básicos que se utilizan en la construcción de tablas de frecuencias: Frecuencia: es el número de veces que se repite, en una población o muestra, cada una de las categorías de una variable cualitativa o de los valores de una variable cuantitativa. Distribución: es, en general, toda lista o tabla de datos estadísticos, ordenada según algún criterio. Distribución de frecuencias: es una tabla de datos, referentes a una variable, que contiene las diversas clases, categorías o valores de la variable junto con sus frecuencias. En ella se agrupan y disponen ordenadamente los datos contenidos en las hojas de registro de las observaciones realizadas en una investigación. Esto posibilita una mejor comprensión.

En una tabla de frecuencias se pueden distinguir los siguientes tipos de frecuencias: FRECUENCIAS NOTACIÓN DEFINICIÓN

Absoluta fa Número de veces que se repite el valor o la categoría de la variable.

Acumulada absoluta

∑=

=j

iaa ij

fF1

Frecuencia acumulada hasta el valor o categoría j de la variable.

Page 10: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 9 de 75

Relativa

n

ff a

r = Proporción de unidades observadas del valor o la

categoría de la variable.

Acumulada relativa

∑=

=j

irr ij

fF1

Proporción de unidades acumuladas hasta el valor o categoría j de la variable.

Porcentual 100% ⋅= rf Proporción de unidades observadas del valor o la categoría de la variable en función de 100.

Acumulada porcentual

∑=

=j

iij pP

1

Proporción de unidades acumuladas hasta el valor o

categoría j de la variable en función de 100.

Para construir una tabla de frecuencias se debe seguir el siguiente esquema:

Variable fa Fa fr Fr % P . . .

TOTAL n = - 1 - 100 - Dependiendo del tipo de variable se pueden construir dos clases de tablas:

Tablas de frecuencias simples Para variables cualitativas y cuantitativas discretas. Cuando la variable es cualitativa debe

codificarse para su organización. ���� Tabla para variable cualitativa nominal: En la tabla solo se utilizan las frecuencias

absoluta, relativa y porcentual. Ejemplo: 50 estudiantes de E.G.B. 1 y 2 fueron encuestados para conocer su opinión respecto de las causas de contaminación ambiental. Las respuestas se categorizaron y codificaron como se muestra en el cuadro. Los resultados de la encuesta se presentan a continuación:

3 1 4 1 1 2 1 2 1 3 1 5 1 2 1 1 1 1 3 1 1 2 1 1 2 1 3 1 2 3 1 4 4 1 3 1 4 1 4 5 1 2 3 1 1 2 1 2 5 1

La tabla de frecuencias sería la siguiente:

Causas de contaminación Cantidad de estudiantes fr %

Transporte 26 0,52 52 Calefacción 9 0,18 18

Incendios, Fertilizantes, Otros. 7 0,14 14 Desechos 5 0,1 10

Residuos domiciliarios 3 0,06 6 TOTAL 50 1 100

El 52% de los alumnos encuestados opinaron que la principal causa de contaminación ambiental es el Transporte, y solo el 10% consideran a los Desechos una de las causas. Nota: En la celda de la variable se debe indicar el nombre de la variable, como así también en la celda de frecuencia absoluta se debe indicar el nombre de la misma.

Código Causas de contaminación 1 Transporte 2 Calefacción 3 Incendios, Fertilizantes, Otros. 4 Desechos 5 Residuos domiciliarios

Page 11: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 10 de 75

���� Tabla para variable cualitativa ordinal: En la tabla se utilizan todas las frecuencias. Ejemplo: Se realizó una encuesta a 55 productores con el fin de determinar el nivel de instrucción alcanzado. Las respuestas posibles y su codificación se muestran en el cuadro. Los resultados se muestran a continuación:

1 4 4 1 2 3 2 1 3 4 3 4 1 3 1 2 1 2 1 2 1 3 3 4 1 2 3 2 1 2 3 2 1 2 1 2 1 2 1 3 1 2 1 2 1 2 3 4 1 3 4 4 1 2 3

La tabla de frecuencias sería la siguiente: Nivel de instrucción alcanzado Productores Fa fr Fr % P

Sin escolaridad 19 19 0,35 0,35 35 35 Primario 16 35 0,29 0,64 29 64

Secundario 12 47 0,22 0,86 22 86 Terciario o Universitario 8 55 0,15 1,01 15 101

TOTAL 55 - 1,01 - 101 - El 35% de los productores encuestados corresponde a la categoría “Sin instrucción”, y 85% alcanzaron el nivel secundario o uno menor.

���� Tabla para variable cuantitativa discreta: Ejemplo: Se determinó la cantidad de hojas enfermas por planta a 52 plantas florales, obteniéndose los siguientes valores:

1 5 4 7 2 3 2 3 1 2 4 3 1 4 2 6 2 3 1 2 1 3 5 3 1 8 3 5 1 3 4 7 2 2 3 1 3 1 3 2 3 2 2 5 3 2 1 3 4 6 2 3

La tabla de frecuencias sería la siguiente: Cantidad de hojas enfermas Plantas Fa fr Fr % P

1 10 10 0,19 0,19 19 19 2 13 23 0,25 0,44 25 44 3 15 38 0,29 0,73 29 73 4 5 43 0,1 0,83 10 83 5 4 47 0,08 0,91 8 91 6 2 49 0,04 0,95 4 95 7 2 51 0,04 0,99 4 99 8 1 52 0,02 1,01 2 101

TOTAL 52 - 1,01 - 101 - El 73% de las plantas florales presentan de una a tres hojas enfermas, y en el 10% se ha observado de 6 a 8 hojas en dicha condición. Tablas de frecuencias por intervalos de clases

Para variables cuantitativas continuas. Para calcular los intervalos de clases se siguen los pasos que se presentan a continuación:

1. Determinar el máximo y el mínimo valor que toma la variable (xmin, xmax)

2. Decidir la cantidad de intervalos, k: njk ≥2 donde { }jkk min=

3. Determinar el ancho o intervalo de clase, i: k

xxi minmax −

≥ . El valor de i debe tener la

misma cantidad de decimales que los valores de la variable.

Código Nivel de instrucción 1 Sin escolaridad 2 Primaria 3 Secundaria 4 Terciaria o Universitaria

Page 12: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 11 de 75

Ejemplo: El Servicio Meteorológico registró en la Capital durante el mes de Julio de 2.004, las siguientes temperaturas promedios diarias:

4,4 1,2 0,5 1 8,7 7,4 5,4 7,1 7,8 0,2 6,3 3 6,8 7,8 8,2 12,5 11,2 13,7 7,8 1,2 8,6 5,8 10 12

Determinamos 7,13;2,0 maxmin == xx .

La cantidad de temperaturas es n = 24, entonces ,...7,6,5=jk de manera que

{ } 5,...7,6,5min ==k .

Calculamos i: 7,27,25

2,07,13minmax =⇒=−=−i

k

xx

De esta manera, el primer rango comienza con el valor mínimo, y el extremo derecho es la suma 9,27,22,0min =+=+ ix . El valor inicial del próximo intervalo se toma del valor

final del anterior, 2,9, se suma la amplitud, i, y se conforma el segundo rango, 5,6. Los rangos siguientes se arman siguiendo el mismo procedimiento.

Temperaturas promedios Días Fa fr Fr % P 0,2 – 2,9 5 5 0,21 0,21 21 21 2,9 – 5 6 3 8 0,13 0,34 13 34 5,6 – 8,3 9 17 0,38 0,71 38 71 8,3 – 11 3 20 0,13 0,84 13 84 11 – 13,7 4 24 0,17 1,01 17 101

TOTAL 24 - 1,01 - 101 - En el mes de Julio de 2.004 el 71% de los 24 días analizados se registraron temperaturas inferiores a 8,3º C.

Tablas de Contingencia

A menudo es necesario examinar las respuestas de dos variables simultáneamente. Las tablas de dos direcciones de clasificación cruzada se conocen como Tablas de Contingencia.

Por ejemplo, si consideramos qué tipo de plantas florales fueron analizadas anteriormente, pero como existen pocas plantas con muchas hojas enfermas, agrupamos las cantidades 4 con 5 y 6, 7 y 8, resultando la siguiente base de datos:

Cantidad de hojas enfermas

Tipo de planta Cantidad de

hojas enfermas Tipo de planta

Cantidad de hojas enfermas

Tipo de planta

1 1 3 2 2 2 2 2 2 1 2 1 3 1 2 1 2 3 3 1 2 1 5 2 4 2 5 2 5 3 4 3 1 3 5 3 2 3 1 2 2 1 3 1 3 2 3 2 3 2 3 2 3 1 1 1 1 2 1 3 3 1 4 3 3 1 2 2 1 3 1 2 2 3 1 1 1 3 2 3 3 3 4 3 4 1 2 3 4 3 4 2 5 1 3 1 4 2 3 3 3 2 4 1

Page 13: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 12 de 75

Donde los códigos para el tipo de planta son los siguientes: Observemos que hay tres pares de la forma 1, 1; esto

significa que hay tres rosas con una hoja enferma, tres pares de la forma 1, 2; lo que significa que hay tres jazmines con una hoja enferma, cuatro pares de la forma 1, 3; es decir, que hay cuatro crisantemo con una hoja enferma. De esta manera vamos armando la tabla de contingencia, la cual terminada es la que se presenta a continuación:

Cantidad de hojas enfermas

Tipo de planta TOTAL

Rosa Jazmín Crisantemo 1 3 3 4 10 2 5 3 5 13 3 7 6 2 15 4 2 3 4 9 5 1 2 2 5

TOTAL 18 17 17 52 Se puede observar en la tabla que en la rosas sobresales 2 a 3 hojas enfermas, y en los

jazmines 3 hojas. En cambio en los crisantemos se encontró aproximadamente igual cantidad de plantas con 1, 2 y 4 hojas enfermas.

X. GRÁFICOS

Un gráfico es la representación de atributos o de datos numéricos en el plano con el objeto de mostrar la información de manera ágil y que facilite la comprensión. Con esta idea, en Estadística los gráficos son muy utilizados.

Cuando en un gráfico se representa la información de una tabla de frecuencias se denomina gráfico estadístico.

Un gráfico estadístico visualiza la frecuencia o el porcentaje de una variable, pero no demuestra el análisis estadístico efectuado a la variable en estudio.

Un correcto gráfico estadístico es: ���� Sencillo y auto explicativo: no tiene más elementos que los que a simple vista se

pueden identificar, y son los necesarios para la completa y clara presentación de toda la información.

���� Presentación fiel de los hechos: relación proporcional entre las dimensiones reales del fenómeno en estudio y las dimensiones de los elementos gráficos utilizados para representarlas.

���� Agradable a la vista: con trazos prolijos, títulos legibles, leyendas claras. Se debe tener siempre presente que en los gráficos con ejes cartesianos los valores o categorías de la variable se ubican en el eje x (abscisa) y los valores de frecuencias o porcentajes se representan en el eje y (ordenada). Elementos de un gráfico

1. Título: con claridad y precisión se incluye información acerca de la naturaleza de los datos, la situación geográfica y el periodo de tiempo. En consecuencia debe responder a las preguntas ¿qué?, ¿cómo?, ¿dónde? y ¿cuándo? Se lo ubica en la parte superior del gráfico. Cuándo se presentan varios gráficos éstos deben enumerarse.

2. Diagrama: representación de los datos que muestra la gráfica. 3. Escala numérica: indicación de las magnitudes que se utilizan en la representación. 4. Leyendas: se refiere a la forma de representar los datos. 5. Fuente: indica de dónde se obtuvieron los datos representados. Se ubica en la parte

inferior del gráfico. En caso de obtener los datos de recolección hecha por uno mismo se indica “Elaboración propia”.

CÓDIGO TIPO DE PLANTA 1 Rosa 2 Jazmín 3 Crisantemo

Page 14: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 13 de 75

Frecuencia de uso de los colores en Concurso de pintura en el Complejo

Cultural Municipal. 25 y 27 de Abril de 2.003

0

5

10

15

20

Rojo Azul Amarillo Blanco Negro

Color

fa

Pirmer día Segundo día

Título

Escala numérica Diagrama

Leyenda

Fuente

Tipos de gráficos Desde el punto de vista estadístico los gráficos deben ser seleccionados de acuerdo a la

clasificación de las variables en estudio. A modo de síntesis se presenta el siguiente esquema en el que se tiene en cuenta el tipo de variable y la escala, como así también si se grafica una o dos variables.

Variable Cualitativa Distribución de frecuencias (una variable) Comparación entre dos variables

Nominal u Ordinal

Sectores (1)

Barras Simples (2)

Barras subdividas (3)

Barras Agrupadas (4)

Para este tipo de variables, las frecuencias absolutas se representan mediante un gráfico

de barras simples (2). Los porcentajes a través de un gráfico de sectores (1), sin embargo no conviene utilizarlo cuando el número de categorías excede a cinco, ya que la representación resulta confusa, prefiriéndose el gráfico de barras simples (2).

Cuando el estudio estadístico implica la comparación de dos variables cualitativas o bien de una variable en dos poblaciones o muestras, el gráfico a realizar es el de barras subdivididas (3) o el de barras agrupadas (4).

32%

45%

23%

010203040506070

A B C D E F

0

10

20

30

40

A B C D E

0

5

10

15

20

A B C D E

Fuente: Elaboración propia

Page 15: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 14 de 75

Variable Cuantitativa

Distribución de frecuencias (una variable) Comparación entre dos variables

Discreta

Bastones (5)

Dispersión (6)

Pirámide Poblacional (7)

Para este tipo de variables cuantitativas todas las frecuencias brindan información

relevante para construir un gráfico de bastones (5). Si la frecuencia a representar es el porcentaje y la cantidad de valores que toma la variable es menor a 6, se puede utilizar un gráfico de sectores (1).

Cuando el estudio estadístico supone la asociación de dos variables cuantitativas discretas se realiza el gráfico de dispersión (6).

Para representar la comparación por sexo y edades de una población, se utiliza la pirámide poblacional (7).

Variable

Cuantitativa Distribución de frecuencias (una variable) Comparación entre dos variables

Continua

Histograma (8)

Polígono de frecuencia (9)

Ojiva (10)

Dispersión (11)

Lineal (12)

0

10

20

30

40

1 2 3 4 5 6

0

5

10

15

20

0 10 20 30

1000 500 0 500 1000

0 -10

20-30

40-50

60-70

80-90

0

5

10

15

20

0,5 1,5 2,5 3,5 4,5 5,5 6,5 7,5 8,5

0

0,05

0,10,15

0,2

0,25

0,5 1,5 2,5 3,5 4,5 5,5 6,5 7,5 8,5

020406080

100

0,5 1,5 2,5 3,5 4,5 5,5 6,5 7,5 8,5

0,00

0,05

0,10

0,15

0,20

0,25

0,00 2,00 4,00 6,00 8,00

0

0,05

0,1

0,15

0,2

0,25

1,5 2,7 3,1 3,4 4,2 4,9 5,6

Page 16: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca”Carrera: Tecnicatura Superior en Higiene y Seguridad en el TrabajoCátedra: Estadística

En el caso de las variables cuantitativas continuas, para mostrar gráficamente las frecuencias absolutas y relativas, y los porcentajes se utilizan el histograma (8) y el polígono de frecuencia (9). Mientras que para las frecuencias acumuladas se us

Cuando el estudio estadístico supone la asociación de dos variables cuantitativas continuas se realiza el gráfico de dispersión (11), si se desea gráfico lineal (12). Ejemplos: 1. Consideremos la tabla de las causas de contaminación según los estudiantes de E.G.B. 2 de

una escuela. Si queremos representar los porcentajes, utilizamos un gráfico de sectores (1), para lo cual debemos calcular el ángulo central correspondiente para cada valor de la

variable utilizando la siguiente fórmula

Causas de contaminación

Transporte Calefacción

Incendios, Fertilizantes, Otros. Desechos

Residuos domiciliarios

TOTAL 2. Consideremos la tabla de los estudios alcanzados por los productores. Como queremos

representar las frecuencias absolutas utilizamos un gráfico de barras simples (2).

Nivel de instrucción alcanzadoSin escolaridad

Primario Secundario

Terciario o Universitario TOTAL

Fuente: Encuesta de opinión de los alumnos del Nivel E.G.B. de la Escuela Fray Mamerto Esquiú

Porcentaje de causas de contaminación, según la opinión de los estudiantes del Nivel E.G.B. 2 de l a

Escuela Fray Mamerto Esquiú. Año 2.003

Transporte

Incendios, Fertilizantes, Otros.

Residuos domiciliarios

Instituto Superior “F.A.S.T.A. Catamarca” : Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso

Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 15 de 75

En el caso de las variables cuantitativas continuas, para mostrar gráficamente las frecuencias absolutas y relativas, y los porcentajes se utilizan el histograma (8) y el polígono de frecuencia (9). Mientras que para las frecuencias acumuladas se usa el ojiva (10).

Cuando el estudio estadístico supone la asociación de dos variables cuantitativas continuas se realiza el gráfico de dispersión (11), si se desea comparar dos o más variables se emplea el

bla de las causas de contaminación según los estudiantes de E.G.B. 2 de una escuela. Si queremos representar los porcentajes, utilizamos un gráfico de sectores (1), para lo cual debemos calcular el ángulo central correspondiente para cada valor de la

ble utilizando la siguiente fórmula 100

º360% ⋅=α

Cantidad de estudiantes % Ángulo central correspondiente

26 52 9 18

7 14 5 10 3 6 50 100

Consideremos la tabla de los estudios alcanzados por los productores. Como queremos representar las frecuencias absolutas utilizamos un gráfico de barras simples (2).

zado Productores 19 16 12 8 55

Fuente: Encuesta de opinión de los alumnos del Nivel E.G.B. de la Escuela Fray Mamerto Esquiú

Fuente: Elaboración propia

52%

18%

14%

10%6%

Porcentaje de causas de contaminación, según la opinión de los estudiantes del Nivel E.G.B. 2 de l a

Escuela Fray Mamerto Esquiú. Año 2.003

Transporte Calefacción

Incendios, Fertilizantes, Otros. Desechos

Residuos domiciliarios

Curso: 2° Año : Prof. Adriana Ayelén Quiroga Hahn

En el caso de las variables cuantitativas continuas, para mostrar gráficamente las frecuencias absolutas y relativas, y los porcentajes se utilizan el histograma (8) y el polígono

a el ojiva (10). Cuando el estudio estadístico supone la asociación de dos variables cuantitativas continuas

dos o más variables se emplea el

bla de las causas de contaminación según los estudiantes de E.G.B. 2 de una escuela. Si queremos representar los porcentajes, utilizamos un gráfico de sectores (1), para lo cual debemos calcular el ángulo central correspondiente para cada valor de la

Ángulo central correspondiente

187º 65º 50º 36º 22º 360º

Consideremos la tabla de los estudios alcanzados por los productores. Como queremos representar las frecuencias absolutas utilizamos un gráfico de barras simples (2).

Elaboración propia

Page 17: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca”Carrera: Tecnicatura Superior en Higiene y Seguridad en el TrabajoCátedra: Estadística 3. En el Colegio Santa Catalina se realizó un estudio en el año 2.002, para determinar la

cantidad de espacios curriculares aprobados por lPolimodal, para ello se organizaron los datos relacionando las variables “Cantidad de espacios curriculares aprobados” y “Rendimiento académico de los alumnos”, los cuales se presentan a continuación:

Cantidad de espacioscurriculares aprobados

4. Volvamos el ejemplo de las temperaturas promedios durante el mes de Julio del año 2.004.

Vamos a elaborar un Polígmedio de cada intervalo aplicando la siguiente fórmula

Temperaturas promedios

Instituto Superior “F.A.S.T.A. Catamarca” : Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso

Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 16 de 75

En el Colegio Santa Catalina se realizó un estudio en el año 2.002, para determinar la cantidad de espacios curriculares aprobados por los alumnos de tercer año del Nivel Polimodal, para ello se organizaron los datos relacionando las variables “Cantidad de espacios curriculares aprobados” y “Rendimiento académico de los alumnos”, los cuales se

Cantidad de espacios curriculares aprobados

Rendimiento académico de los alumnos

1 9 2 8 3 8 4 9 5 8 6 7 7 7 8 8 9 7 10 6 11 6

Volvamos el ejemplo de las temperaturas promedios durante el mes de Julio del año 2.004. Vamos a elaborar un Polígono de Frecuencias (9), para ello debemos calcular el punto medio de cada intervalo aplicando la siguiente fórmula �� � ���1���2

Temperaturas promedios Días Xm 0,2 – 2,9 5 1,55 2,9 – 5 6 3 4,25 5,6 – 8,3 9 6,95 8,3 – 11 3 9,65 11 – 13,7 4 12,35

TOTAL 24 -

Curso: 2° Año : Prof. Adriana Ayelén Quiroga Hahn

En el Colegio Santa Catalina se realizó un estudio en el año 2.002, para determinar la os alumnos de tercer año del Nivel

Polimodal, para ello se organizaron los datos relacionando las variables “Cantidad de espacios curriculares aprobados” y “Rendimiento académico de los alumnos”, los cuales se

Volvamos el ejemplo de las temperaturas promedios durante el mes de Julio del año 2.004. ono de Frecuencias (9), para ello debemos calcular el punto

Page 18: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca”Carrera: Tecnicatura Superior en Higiene y Seguridad en el TrabajoCátedra: Estadística

5. En una encuesta realizada a los alumnos del 3° ciclo E.G.B. de la Escuela Pública N° 26

Fray Mamerto Esquiú en el año 2.004, se les preguntó acerca de los temas que preferían leer, donde debían elegir tres temas y ordenarlos de acuerdo a su preferencia. Los resultados se presentan a continuación:

Temas de lectura

Temas de actualidadCiencia ficción

Textos científicos

Para representar los datos, al ser una variable cualitativa ordinal yvariables, utilizamos el gráfico de barras subdivididas (3), el cual se muestra a continuación:

0

1

2

3

4

5

6

7

8

9

10

0

s

Frecuencias de temperaturas promedio diaria de la Capital de

Fuente: Servicio Meteorológico Urbano dependiente de la UNCa

Instituto Superior “F.A.S.T.A. Catamarca” : Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso

Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 17 de 75

En una encuesta realizada a los alumnos del 3° ciclo E.G.B. de la Escuela Pública N° 26Fray Mamerto Esquiú en el año 2.004, se les preguntó acerca de los temas que preferían leer, donde debían elegir tres temas y ordenarlos de acuerdo a su preferencia. Los resultados se presentan a continuación:

Temas de lectura P1 P2 P3 Deportes 5 1 1

Temas de actualidad 1 0 1 Ciencia ficción 3 4 1

Religión 0 1 3 Política 1 1 0 Salud 0 3 3

Comercio 0 0 2 Música 8 2 6

Textos científicos 0 1 2 Historia 2 7 1 TOTAL 20 20 20

Para representar los datos, al ser una variable cualitativa ordinal y estar comparando tres variables, utilizamos el gráfico de barras subdivididas (3), el cual se muestra a

1,55 4,25 6,95 9,65 12,35

Temperatura (

Frecuencias de temperaturas promedio diaria de la Capital de

Catamarca. Julio de 2.004

Servicio Meteorológico Urbano dependiente de la UNCa

Curso: 2° Año : Prof. Adriana Ayelén Quiroga Hahn

En una encuesta realizada a los alumnos del 3° ciclo E.G.B. de la Escuela Pública N° 265 de Fray Mamerto Esquiú en el año 2.004, se les preguntó acerca de los temas que preferían leer, donde debían elegir tres temas y ordenarlos de acuerdo a su preferencia. Los

estar comparando tres variables, utilizamos el gráfico de barras subdivididas (3), el cual se muestra a

15,05

Temperatura (°C)

Frecuencias de temperaturas promedio diaria de la Capital de

Page 19: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 18 de 75

UNIDAD Nº 2: “PROCESAMIENTO DESCRIPTIVO DE LA INFORMACIÓN” I. INTRODUCCIÓN

En la Unidad 1 empezó nuestro estudio de la Estadística Descriptiva. Para transformar una masa de datos en bruto en una forma significativa, la organizamos en una distribución de frecuencias y la representamos de manera gráfica.

En esta unidad estudiamos dos formas numéricas de descripción de datos, las medidas de ubicación y las medidas de dispersión. El propósito de una medida de ubicación es señalar el centro de un conjunto de valores.

Usted está familiarizado con el concepto de promedio. Se trata de una medida de ubicación que muestra el valor central de la información.

Si consideramos solo las medidas de ubicación en un conjunto de datos o si comparamos varios conjuntos de datos utilizando valores centrales, es probable que lleguemos a una conclusión errónea. Además de las medidas de ubicación, debemos considerar la dispersión en los datos. Para ejemplificar, supongamos que el ingreso promedio anual de los ejecutivos de las compañías relacionadas con Internet es de $30.000, y el ingreso promedio para los ejecutivos de las empresas farmacéuticas es también de $30.000. Si observáramos solo los ingresos promedio, podríamos llegar a la conclusión errónea de que ambas distribuciones son idénticas o casi idénticas. Una revisión de los rangos salariales indica que esta conclusión no es correcta. Los salarios de los ejecutivos en las empresas de Internet varían entre $25.000 a $35.000, pero los sueldos para los ejecutivos en las compañías farmacéuticas varían de $15.000 a $45.000. De ahí que llegamos a la conclusión de que, aunque los salarios promedio son los mismos en las dos industrias, hay mucha más extensión o dispersión en los salarios para los ejecutivos farmacéuticos. Para evaluar la dispersión vamos a considerar el rango, la varianza y la desviación estándar.

Empezamos por analizar las medidas de ubicación. No hay una sola medida de ubicación; en realidad, existen varias. Consideramos la moda, la media aritmética, la mediana, los cuartiles y los percentiles. La media aritmética es la que se emplea y se reporta con mayor frecuencia.

Todas las medidas que describen una población reciben el nombre de “parámetro”, característica de una población. Si la medida es de una muestra se la identifica como “estadístico”.

II. MODA

“Es el valor de la variable de mayor frecuencia” Ejemplo: Se consideran las notas correspondientes a 15 alumnos de la asignatura Álgebra de la carrera Profesorado en Matemática, en el año 2.001.

Observando la tabla de frecuencias se establece que la moda es la categoría alumnos Promocionados. Mo=Promocionados.

Si la variable es cualitativa nominal la moda es la única medida de posición que se puede calcular. Para una variable cuantitativa continua la moda se calcula tabulando los datos en intervalos de clases de igual amplitud, mediante la fórmula:

� �� � �1�1 + �2� ∙ �

Donde: �� = �� − ����; �� = �� − ���� lj: Límite inferior del intervalo modal (intervalo de mayor frecuencia) fj-1: frecuencia absoluta del intervalo anterior al intervalo modal. fj+1: frecuencia absoluta del intervalo posterior al intervalo modal. i: amplitud del intervalo modal.

Categoría de los alumnos Frecuencias Libres 1

Regulares 3 Promocionados 11

TOTAL 15

Page 20: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 19 de 75

La moda es el valor máximo de toda la distribución, dado que se encuentra localizada en el punto de mayor concentración de los datos. Características:

� No se ve afectada por los valores extremos que puede contener la variable bajo estudio.

� De fácil localización. � La determinación de su valor exacto exige detallados cálculos. � No es susceptible de tratamiento algebraico.

III. MEDIANA “Esta medida de tendencia central divide a un conjunto de observaciones ordenadas en

dos partes.” Todos los elementos de la primera parte de la serie ordenada son menores o iguales que la

mediana, y los de la segunda parte son mayores o iguales que ella. El ordenamiento de los datos no implica que se excluyan los valores que se repiten. Para calcular la mediana de una tabla de frecuencias simple se debe seguir los siguientes

pasos: 1. Calcula �° � ��. 2. Ubicar la categoría o valor de la variable con frecuencia absoluta acumulada mayor o

igual a Me° (�� ≥ �°) 3. Luego, la mediana será la categoría o el valor con la frecuencia absoluta acumulada

calculada en 2. Ejemplo: Consideramos el ejemplo de la cantidad de hojas enfermas por planta.

1. Calculamos �° � ��� � 26

2. �� = 38 ≥ �° 3.

� = 3 hojas enfermas.

La mitad de las plantas tienen 3 hojas enfermas o menos y la otra mitad de las plantas tienen 3 hojas enfermas o más.

Para calcular la mediana cuando se tiene una tabla de frecuencias por intervalos de clases se aplican los pasos 1 y 2, luego, en el tercer paso se aplica la fórmula siguiente:

� = �� + !"2 − �#����� $ ∙ �

Donde: lj: Límite inferior del intervalo de la mediana (calculado en 2.) Faj-1: frecuencia absoluta acumulada del intervalo anterior al intervalo de la mediana. fj: frecuencia absoluta del intervalo de la mediana. i: amplitud del intervalo de la mediana. Características:

� No se ve afectada por los valores extremos que puede contener la variable bajo estudio.

� Se puede localizar si la variable es cualitativa ordinal con un número impar. � No es de fácil tratamiento algebraico.

Cantidad de hojas enfermas Plantas Fa 1 10 10 2 13 23 3 15 38 4 5 43 5 4 47 6 2 49 7 2 51 8 1 52

TOTAL 52 -

Page 21: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 20 de 75

IV. MEDIA O PROMEDIO La media aritmética o promedio es la medida de mayor uso, y la más adecuada de

tendencia central, cuando no se presentan en la serie datos extremos. Se representa con �̅ para datos muestrales, y con & para datos poblacionales. Como su nombre lo indica se calcula sumando todos los valores de la serie y dividiendo por el número total de unidades observadas. Se utiliza únicamente para variables cuantitativas.

Para calcular la media cuando trabajamos con una tabla de frecuencias simples, se utiliza la siguiente fórmula:

�̅ � ∑ �( ∙ �(�()�"

Donde: xi: i – ésimo valor de la variable. fi: frecuencia absoluta del i – ésimo valor de la variable. Ejemplo: Para calcular el promedio de la cantidad de hojas enfermas por planta aplicamos la fórmula:

�̅ � 15552 = 2,98 ≅ 3

Es decir, en promedio hay 3 hojas enfermas por planta.

Si los datos están agrupados en intervalos de clases, la fórmula sería la siguiente:

�̅ = ∑ �./ ∙ �(�()� "

Donde xmi es el punto medio del i – ésimo intervalo de clase. Ejemplo: Para calcular el promedio de las temperaturas, calculamos el punto medio y, luego aplicamos la fórmula:

�̅ = 161,424 = 6,725 ≅ 6,7

Es decir, en promedio hizo 6,7°C en los 24 días del mes de Julio de 2004.

Característica:

� El valor de la media aritmética depende de cada uno de los valores que componen la variable, hallándose afectada por los valores extremos que componen dicha variable.

� Es un promedio cuyo cálculo es susceptible de tratamiento algebraico. � Es un promedio de fácil cálculo.

V. CUARTILES

Se definió mediana como el valor central de la distribución una vez ordenados los elementos en sentido creciente o decreciente.

Una generalización a este concepto da lugar a otras medidas de posición que son: • Cuartiles: dividen a la distribución en cuatro partes iguales.

Cantidad de hojas enfermas Plantas 23 ∙ 453 1 10 10 2 13 26 3 15 45 4 5 20 5 4 20 6 2 12 7 2 14 8 1 8

TOTAL 52 155

Temperaturas promedios Días Xm 263 ∙ 453 0,2 – 2,9 5 1,55 7,75 2,9 – 5 6 3 4,25 12,75 5,6 – 8,3 9 6,95 62,55 8,3 – 11 3 9,65 28,95 11 – 13,7 4 12,35 49,4

TOTAL 24 - 161,4

Page 22: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 21 de 75

• Deciles: dividen a la distribución en 10 partes iguales. • Percentiles: dividen a la distribución en 100 partes iguales.

Nosotros vamos a estudiar únicamente los cuartiles. Su cálculo es similar al cálculo de la

mediana. Cuando se trabaja con tablas de frecuencias, para calcular el lugar de los cuartiles se

multiplica el tamaño de la muestra, n, por el ordinal del cuartil dividido en 4. Por ejemplo, para el tercer cuartil, la ubicación sería 78 ".

El segundo cuartil coincide con la mediana. Para el caso de datos agrupados en intervalos de clases, la ubicación es igual a lo visto

anteriormente y los cuartiles se calculan a partir de las siguientes fórmulas:

9� � :� � ;"4 � ������ < ∙ � 9� � :� � ;"2 − ������ < ∙ �

97 = :� + ;34 " − ������ < ∙ � Donde: fj: frecuencia absoluta del j – ésimo valor de la variable. Fi-1: frecuencia absoluta acumulada anterior al intervalo del cuartil que se calcula.

Como las medidas de posición que se pueden calcular en una serie de datos dependen del tipo de variable, a continuación se presenta un esquema de las medidas de posición adecuadas a obtener en función del tipo de variable en estudio.

(*) Cuando la variable cualitativa ordinal tiene un número par de observaciones, solo se puede calcular la mediana si las dos categorías centrales de la variable son iguales. VI. ¿POR QUÉ ESTUDIAR LA DISPERSIÓN?

Una medida de ubicación, como la media o la mediana, solo describe el centro de la información. Desde este punto de vista, es valiosa, pero no nos indica nada acerca de la extensión de los datos.

Un valor menor para una medida de dispersión nos indica que los datos están agrupados de manera estrecha, digamos, alrededor de la media aritmética. Por tanto, la media se

TIPO DE VARIABLE

CUALITATIVA CUANTITATIVA

NOMINAL ORDINAL

Moda Moda Mediana (*)

Moda Mediana Promedio

Cuartil Decil

Percentil

Page 23: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 22 de 75

considera representativa de la información. Por el contrario, una medida de dispersión alta indica que la media no es confiable.

Una segunda razón para estudiar la dispersión de un conjunto de datos es comparar la extensión en dos o más distribuciones. Por ejemplo, supongamos que analizamos los años de experiencia de los empleados de dos fábricas, Arcor y Alpargatas. En ambas, los empleados tienen en promedio 5 años y medio. En base a esto, podríamos llegar a la conclusión de que las distribuciones de los años de antigüedad son idénticas. Sin embargo, los registros de ambas empresas revelan que esta conclusión es incorrecta. La experiencia de los empleados de Arcor varía entre 3 y 6 años; mientras que en Alpargatas está entre 1 y 30 años. Por lo tanto, la antigüedad para Arcor se agrupa cerca del promedio de cinco años y medio; y en Alpargatas se encuentra más dispersa.

VII. RANGO O AMPLITUD (R) “El rango de un conjunto de observaciones se define como la diferencia entre el mayor y el

menor valor de la variable”. Es una medida de fácil cálculo y comprensión. Sin embargo, no es una buena medida de

variabilidad dado que depende únicamente de los valores extremos de la serie, y por lo tanto no tiene en cuenta la distribución de los valores intermedios.

= � �.á? � �.í�

Ejemplo: Para el caso de las temperaturas promedios �.í� � 0,2; �.á? = 13,7 ⇒ = = 13,7 − 0,2 ⇒ = = 13,5 VIII. VARIANZA

“La varianza mide el grado de dispersión de los datos respecto de la media aritmética.” Se representa con D� para datos muestrales, y con E� para datos poblacionales Esta medida toma en consideración todos los valores de la serie. Cuando los datos están dispuestos en una tabla de frecuencias simples, aplicamos una de

las siguientes fórmulas según estemos trabajando con población o muestra:

D� = ∑ F�( − �̅G� ∙ �(�()� " − 1

E� = ∑ F�( − �̅G� ∙ �(�()� "

Ejemplo: Vamos a calcular la varianza de las hojas enfermas por planta respecto del promedio.

D� = 14951 = 2,92

Si trabajamos con tablas de frecuencias por intervalos de clases se utiliza la siguiente fórmula:

Cantidad de hojas enfermas Plantas F23 − 2HG F23 − 2HGI F23 − 2HGI ∙ 453 23 ∙ 453 1 10 -2 4 40 10 2 13 -1 1 13 26 3 15 0 0 0 45 4 5 1 1 5 20 5 4 2 4 16 20 6 2 3 9 18 12 7 2 4 16 32 14 8 1 5 25 25 8

TOTAL 52 - - 149 155

Page 24: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 23 de 75

D� � ∑ J�./ � �̅K� ∙ �(�()� " � 1

E� = ∑ J�./ − �̅K� ∙ �(�()� " IX. DESVIACIÓN ESTÁNDAR

Esta es la medida de dispersión de mayor uso y se obtiene como la raíz cuadrada positiva de la varianza: D = √D� E = √E�

La varianza y la desviación estándar cuantifican la dispersión de los valores observados

con respecto a la media. La desviación estándar está medida en las mismas unidades que la variable mientras que la varianza en unidades al cuadrado. Es por ello que la desviación estándar es de más fácil interpretación.

Ejemplo: D = √2,91 = 1,71 ≅ 2

Es decir, en promedio hay 3 hojas enfermas por planta con una dispersión de 2 hojas. En el caso en que sea conveniente aplicar la mediana en lugar de la media aritmética como valor central, se puede calcular la varianza y la desviación estándar en base a la mediana; es decir, en la fórmula de la varianza reemplazamos el valor de la media por el valor de la mediana. X. COEFICIENTE DE VARIACIÓN

Las medidas de dispersión anteriores son absolutas, en el sentido de que depende de la unidad de medida de las observaciones. Para comparar la variabilidad de series de datos medidas en distintas escalas resulta necesario contar con una medida de variación relativa. El coeficiente de variación definido como el cociente entre la desviación estándar y la media aritmética (mediana) expresada en porcentajes es una de ellas.

M. O. % = Q?̅ ∙ 100 M. O. % = RS ∙ 100

Ejemplo: Supongamos que queremos comparar las dispersiones de una distribución de ingresos anuales con una distribución de ausentismo en un mismo grupo de empleados. Si comparamos las desviaciones estándar de cada una no tiene sentido pues, de la primera el desvío es de $1.200 y de la segunda, 4 días. En este caso se utiliza el coeficiente de variación. En la distribución de los ingresos anuales es de 21,63%, y en la distribución de ausentismo el coeficiente de variación es de 160%. Es decir la primera distribución es bastante más homogénea que la segunda. XI. SESGO

Otra característica de un conjunto de datos es la forma. Por lo general se observan tres formas: simétrica, con sesgo positivo y con sesgo negativo. En grupo de observaciones simétrico, la media, la mediana y la moda son iguales y los valores de los datos se encuentran dispersos de manera uniforme alrededor de estos valores. Un conjunto de valores tiene un sesgo positivo o un sesgo a la derecha si hay un solo pico y los valores se extienden más hacia a la derecha del pico que hacia la izquierda. En este caso, la media es mayor que la mediana. En una distribución con sesgo negativo o un sesgo a la izquierda hay un solo pico pero las observaciones se extienden más hacia a la izquierda del pico que hacia la derecha. En este caso, la media es menor que la mediana.

Page 25: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca”Carrera: Tecnicatura Superior en Higiene y Seguridad en el TrabajoCátedra: Estadística

Un ejemplo de distribución con sesgo positivo son los sueldos de una emprelos salarios de aquellos que trabajan en una compañía pequeña con 100 empleados más o menos. El presidente y algunos ejecutivos tienen sueldos muy elevados en relación con los demás empleados y, por lo tanto, la distribución de los salario mu

Como ejemplo de una distribución con sesgo negativo podríamos citar las calificaciones en una evaluación. Supongamos un curso de 40 alumnos donde solo unos pocos obtienen una nota baja con respecto a la mayoría que alcanzan una not

Existen varias fórmulas para calcular el sesgo. La más sencilla, desarrollada por Pearson,

es la siguiente:

Coeficiente de sesgo de Pearson

Utilizando esta relación, el coeficiente del sesgo puede variar entre

cercano a -3, como -2,57, indica un sesgo negativo considerable. Un valor como 1,63 indica un sesgo positivo moderado. Un valor de 0, que ocurreindica que la distribución es simétrica y no presenta ningún sesgo.

Instituto Superior “F.A.S.T.A. Catamarca” : Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso

Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 24 de 75

Un ejemplo de distribución con sesgo positivo son los sueldos de una emprelos salarios de aquellos que trabajan en una compañía pequeña con 100 empleados más o menos. El presidente y algunos ejecutivos tienen sueldos muy elevados en relación con los demás empleados y, por lo tanto, la distribución de los salario muestra un sesgo positivo.

Como ejemplo de una distribución con sesgo negativo podríamos citar las calificaciones en una evaluación. Supongamos un curso de 40 alumnos donde solo unos pocos obtienen una

con respecto a la mayoría que alcanzan una nota alta.

Existen varias fórmulas para calcular el sesgo. La más sencilla, desarrollada por Pearson,

Coeficiente de sesgo de Pearson: MT � 7F?̅�UVGQ

Utilizando esta relación, el coeficiente del sesgo puede variar entre 2,57, indica un sesgo negativo considerable. Un valor como 1,63 indica un

sesgo positivo moderado. Un valor de 0, que ocurre cuando la media y la medianindica que la distribución es simétrica y no presenta ningún sesgo.

Curso: 2° Año : Prof. Adriana Ayelén Quiroga Hahn

Un ejemplo de distribución con sesgo positivo son los sueldos de una empresa. Piense en los salarios de aquellos que trabajan en una compañía pequeña con 100 empleados más o menos. El presidente y algunos ejecutivos tienen sueldos muy elevados en relación con los

estra un sesgo positivo. Como ejemplo de una distribución con sesgo negativo podríamos citar las calificaciones en

una evaluación. Supongamos un curso de 40 alumnos donde solo unos pocos obtienen una

Existen varias fórmulas para calcular el sesgo. La más sencilla, desarrollada por Pearson,

Utilizando esta relación, el coeficiente del sesgo puede variar entre -3 y 3. Un valor 2,57, indica un sesgo negativo considerable. Un valor como 1,63 indica un

cuando la media y la mediana son iguales,

Page 26: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 25 de 75

UNIDAD Nº 3: “INTRODUCCIÓN A LA PROBABILIDAD”

I. ¿QUÉ ES PROBABILIDAD? Usted está familiarizado con términos como probabilidad, posibilidad y variabilidad, que a

menudo se emplean de manera indistinta. El pronóstico de tiempo anuncia que hay 70% de probabilidades de sol el domingo.

“Probabilidad es un valor entre cero y uno inclusive, que describe la posibilidad relativa de que ocurra un evento.”

Una probabilidad se expresa con un decimal. Puede asumir cualquier valor entre 0 y 1, inclusive. Cuanto más cerca de 0 esté una probabilidad, más improbable es que el evento suceda. Cuánto más cerca esté de 1, es más seguro que ocurra.

En el estudio de probabilidad se utilizan cuatro palabras claves: experimento, resultado, evento y espacio muestral. Estos términos se emplean en el lenguaje cotidiano, pero en estadística, tiene significados específicos. Experimento es un proceso que lleva a la ocurrencia de una y solo una de varias observaciones posibles.

Un experimento tiene dos o más resultados posibles, y no sabemos cuál va a ocurrir. Resultado es la consecuencia de un experimento particular. Evento es el conjunto de uno o más resultados de un experimento. Espacio muestral es el conjunto de todos los resultados posibles de un experimento.

En el siguiente cuadro se presentan dos ejemplos para explicar mejor las definiciones de los términos mencionados anteriormente.

Experimento Lanzamiento de un dado Contar el número de empleados de cada heladería Grido

Resultados posibles Observar un 1 Observar un 2 Observar un 3 Observar un 4 Observar un 5 Observar un 6

Un empleado Dos empleados

… 5 empleados

… 10 empleados

… Algunos eventos posibles Observar un número par

Observar un número mayor que 4

Observar un número 3 o menor

Más de 2 empleados 3 empleados o menos

Un número par de empleados

Clasificación de eventos Un evento se clasifica según su probabilidad en:

� Evento Nulo: es aquel evento imposible de ocurrir. Su probabilidad es 0. Por ejemplo, que al tirar un dado salga un 7.

� Evento Poco Probable: es aquel evento que tiene pocas posibilidades de ocurrir. Su probabilidad es un valor entre 0 y 0,5. Por ejemplo, que al tirar un dado salga un 1.

� Evento Probable: es aquel evento que tiene igual posibilidad de ocurrir que de no ocurrir. Su probabilidad es 0,5. Por ejemplo, que al tirar un dado salga un número par.

� Evento Muy Probable: es aquel evento que tiene muchas posibilidades de ocurrir. Su probabilidad es un valor entre 0,5 y 1. Por ejemplo, que al tirar un dado salga un número mayor que 1.

Page 27: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 26 de 75

� Evento Seguro: es aquel evento que ocurre siempre. Su probabilidad es 1. Por ejemplo, que al tirar un dado salga un número menor o igual a 6.

Un evento se clasifica según la cantidad de resultados que incluyen en:

� Evento Simple: es aquel evento que incluye un solo resultado. Por ejemplo, que al tirar un dado salga un 3.

� Evento Conjunto: es aquel evento que incluye dos o más resultados. Por ejemplo, que al tirar un dado salga un número par mayor que 3.

Dos o más eventos se clasifican en:

� Mutuamente excluyentes: la ocurrencia de un evento significa que ninguno de los otros puede ocurrir al mismo tiempo. Por ejemplo, los eventos “ser varón” y “ser mujer”.

� Colectivamente exhaustivos: por lo menos uno de los eventos debe ocurrir al realizar un experimento. Por ejemplo, los eventos “obtener un número par” y “obtener un número impar”

II. TIPOS DE PROBABILIDAD

Existen dos tipos de probabilidades: los puntos de vista objetivo y subjetivo. Nosotros solo analizaremos la probabilidad objetiva, la cual a su vez se subdivide en probabilidad clásica y probabilidad empírica. Probabilidad clásica La probabilidad clásica se basa en la suposición de que los resultados de un experimento son igualmente viables. Probabilidadde un evento� Número de resultados favorablesNúmero total de resultados posibles

Ejemplo: ¿Cuál es la probabilidad de que al tirar un dado salga un número par? Experimento: tirar un dado Evento: Obtener un número par (A) Espacio muestral: 1, 2, 3, 4, 5, 6. En el grupo de seis resultados posibles que son igualmente probables hay tres resultados “favorables” (2, 4 y 6). Por tanto: jFkG � 36 � 0,5

Respuesta: La probabilidad de que al tirar un dado salga un número par es de 0,5.

Si el conjunto de eventos es colectivamente exhaustivo y mutuamente excluyentes, la suma de las probabilidades es 1. La estrategia clásica para la probabilidad se desarrolló y aplicó durante los siglos XVII Y XVIII en los juegos de azar, como los juegos de naipes y dados. Es innecesario realizar un experimento para determinar la probabilidad de que un evento ocurra utilizando la estrategia clásica, debido a que el número total de resultados se conoce antes de hacerlo. Probabilidad empírica Otra forma de definir la probabilidad se basa en las frecuencias relativas. La probabilidad de que un evento suceda se determina al observar en qué fracción de tiempo sucedieron eventos similares en el pasado. Probabilidadde un evento� Número de veces que un evento ocurrió en el pasadoNúmero total de observaciones

Ejemplo: El 1° de Febrero de 2003, explotó el transbordador espacial Columbia. Este fue el segundo desastre en 113 misiones espaciales para la NASA. Con base en esta información, ¿cuál es la probabilidad de que una misión futura se realice con éxito?

Page 28: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 27 de 75

Experimento: misión de transbordador. Evento: Vuelo exitoso (E) Espacio muestral: vuelo exitoso, vuelo fracasado. En 113 experiencias pasadas solo dos explotaron. Por tanto: jFoG � 111113 = 0,98 Respuesta: La probabilidad de que una misión futura de la NASA se realice con éxito es de 0,98.

III. ALGUNAS REGLAS PARA CALCULAR PROBABILIDADES

Después de definir la probabilidad y describir las distintas estrategias para esta, veremos cómo calcular la probabilidad de dos o más eventos aplicando las reglas de la adición y la multiplicación. Reglas de adición Regla especial de la adición: “Si dos eventos son mutuamente excluyentes la probabilidad de que ocurra uno u otro es igual a la suma de sus probabilidades.” jFk pG = jFkG + jFpG Para tres eventos mutuamente excluyentes la regla se escribe: jFk p M G = jFkG + jFpG + jFMG Ejemplo: Una máquina automática llena bolsas de plástico con una mezcla de frijoles, brócoli y otras verduras. La mayor parte de las bolsas contienen el peso correcto, pero debido a la variación en el tamaño de los frijoles y otras verduras, un paquete puede tener mayor o menor peso. Una revisión de 4000 paquetes que se llenaron el mes pasado reveló:

Peso Evento Número de paquetes

Probabilidad de ocurrencia

Menos peso A 100 0.025 Satisfactorio B 3600 0.9

Más peso C 300 0.075 4000 1.000

¿Cuál es la probabilidad de que un paquete en particular no tenga el peso exacto? El evento que nos están pidiendo es la unión de los eventos A y C, ya que tener menos o más peso es no tener el peso exacto. Observemos que los eventos A y C son mutuamente excluyentes, lo que significa que un paquete de verduras no puede estar pasado de peso, ser satisfactorio y pesar menos al mismo tiempo. Así mismo son colectivamente exhaustivos. Por lo tanto, jFk MG = jFkG + jFMG = 0.025 + 0.075 = 0.10 Respuesta: La probabilidad de que un paquete no tenga el peso exacto es 0.10. Probabilidad conjunta: “Probabilidad que mide la posibilidad de que dos o más eventos sucedan al mismo tiempo.” jFk q pG jFk q p q MG Ejemplo: ¿Cuál es la probabilidad de que al lanzar un dado se obtenga un número par mayor de 3? Los eventos serían: A: obtener un número par. B: obtener un número mayor de 3. A y B: obtener un número par mayor de 3. jFk q pG = 26 = 0.33

Respuesta: La probabilidad de que al lanzar un dado se obtenga un número par mayor de 3 es 0.33.

Page 29: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 28 de 75

Regla general de la adición: “Si dos eventos no son mutuamente excluyentes la probabilidad de que ocurra uno u otro es igual a la suma de sus probabilidades menos la probabilidad conjunta de ambos eventos.” jFk pG � jFkG � jFpG � jFk q pG Al comparar las reglas de la adición general y especial, la diferencia que importa es determinar si los eventos son mutuamente excluyentes. Si lo son, la probabilidad conjunta jFk q pG es 0 y utilizaríamos la regla especial de la adición. De lo contrario, debemos tomar en cuenta la probabilidad conjunta y usar la regla general de la adición. Ejemplo: ¿Cuál es la probabilidad de que una carta elegida al azar de un mazo de cartas de póker sea rey o un corazón?

Carta Probabilidad Explicación Rey (R) jF=G � 0.08 4 reyes de un mazo de 52 cartas.

Corazones (C) jFMG � 0.25 13 corazones en un mazo de 52 cartas. Rey de corazones (R y C) jF= q MG = 0.02 1 rey de corazones en un mazo de 52 cartas. La probabilidad sería: jF= MG = jF=G + jFMG − jF= q MG = 0.08 + 0.25 − 0.02 jF= MG = 0.31 Regla del complemento “El complemento de un evento es el evento opuesto al dado.” Se lo denota como A’, AC, ~A. El complemento de obtener un número par es, obtener un número impar. El complemento de obtener un número mayor a 3 es, obtener un número menor o igual a 3. “La probabilidad de un evento más la probabilidad de su complemento es igual a 1.” jFkG + jFkrG = 1 Ejemplo: La probabilidad de que una bolsa de mezcla de verduras pese menos es 0.025 y la probabilidad de que pese más es 0.075. Por lo tanto, la probabilidad de que una bolsa no pese

exacto es 0.1. De esta manera, jFkrG = 0.1 ⇒ jFkG = 1 − 0.1 = 0.9. La probabilidad de que una bolsa pese satisfactorio es 0.9. Reglas de la multiplicación

Para calcular la posibilidad de que dos eventos sucedan a la vez, A y B, se aplica la regla de la multiplicación. Hay dos reglas de este tipo, las cuales depende de si los eventos son dependientes o independientes. Independencia: “La ocurrencia de un evento no tiene ningún efecto sobre la probabilidad de la ocurrencia del otro.” Ejemplo: supongamos que se lanzan dos monedas al aire. El resultado del lanzamiento de una moneda (cara o cruz) no se ve afectado por el resultado de cualquier otro lanzamiento anterior (cara o cruz). Regla especial de la multiplicación: “Si dos eventos son independientes la probabilidad de que ocurran ambos es igual al producto de sus probabilidades.” jFk q pG = jFkG ∙ jFpG Para tres eventos independientes la regla se escribe: jFk q p q M G = jFkG ∙ jFpG ∙ jFMG Ejemplo: Una encuesta realizada el año pasado reveló que 60% de sus miembros hicieron alguna reserva en una línea aérea el año pasado. Se seleccionaron dos miembros en forma aleatoria. ¿Cuál es la probabilidad de que ambos hayan hecho una reservación en una línea aérea el año pasado?

Page 30: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 29 de 75

La probabilidad de que el primer miembro haya hecho una reservación en una línea aérea, R1, el año pasado es 0,60, que se expresa jF=�G � 0,60. La probabilidad de que el segundo miembro seleccionado haya hecho una reservación, R2, es también 0,60, de modo que jF=�G � 0,60. El hecho de que el primer miembro haya realizado una reserva el año pasado no incide en que el segundo miembro haya realizado o no una reserva, de manera que los eventos son independientes. Por lo tanto podemos calcular la probabilidad de que ambos miembros hayan realizado una reserva el año pasado en una línea aérea como: jF=� q =�G � 0,60 ∙ 0,60 � 0,36 Respuesta: La probabilidad de que al seleccionar dos miembros, ambos hayan reservado en una línea aérea el año pasado es 0,36. Si dos eventos no son independientes, se conocen como dependientes. Ejemplo: Supongamos que hay 10 rollos de película en una caja y se sabe que 3 están defectuosos. Se selecciona un rollo de la caja. La probabilidad de que uno sea defectuoso es 3⁄10, y la probabilidad de elegir un rollo aceptable es 7⁄10. Luego, se selecciona un segundo rollo de la caja, sin haber regresado el primero. La probabilidad de que el segundo rollo esté defectuoso depende de si el primero estaba defectuoso o no. La probabilidad de que el segundo rollo esté defectuoso es: 2⁄9, si el primer rollo estaba defectuoso (solo hay dos rollos defectuosos en la caja que

contiene 9 rollos) 3⁄9, si el primer rollo estaba defectuoso (solo hay tres rollos defectuosos en la caja que contiene 9 rollos)

La fracción 2⁄9 (o 3⁄9) se conoce como probabilidad condicional, porque su valor está condicionado (o es dependiente) a la elección de un rollo defectuoso o uno aceptable en la primera ocasión. De esta manera,

P (el segundo rollo está defectuoso | el primer rollo está defectuoso) es 2⁄9. P (el segundo rollo está defectuoso | el primer rollo es aceptable) es 3⁄9.

Regla general de la multiplicación: “La probabilidad de que dos eventos, A y B, ocurran a la vez se calcula multiplicando la probabilidad de que el evento A suceda por la probabilidad condicional de que el evento B ocurra después de que ocurrió A.” jFk q pG = jFkG ∙ jFp|kG O bien, jFk q pG = jFpG ∙ jFk|pG Ejemplo: Volvamos al caso de los rollos y denotemos como, D1: primer rollo defectuoso; D2: segundo rollo defectuoso. Entonces, jFu�G = 310 q jFu�|u�G = 29

jFu� q u�G = jFu�G ∙ jFu�|u�G = 310 ∙ 29 = 115 ≅ 0,07

Respuesta: La probabilidad de seleccionar dos rollos defectuosos de una caja con 10 rollos, 3 defectuosos, es 0,07. Si queremos calcular la probabilidad de que al extraer dos rollos de la caja uno sea aceptable y el otro sea defectuoso, jFu� q u�′G = jFu�G ∙ jFu�′|u�G = 310 ∙ 79 = 730 ≅ 0,23

O bien, jFu�′ q u�G = jFu�′G ∙ jFu�|u�′G = 710 ∙ 39 = 730 ≅ 0,23

Respuesta: La probabilidad de seleccionar un rollo aceptable y otro defectuoso es 0,23. Ahora, si necesitamos calcular la probabilidad de que ambos sean aceptables, jFu�′ q u�′G = jFu�′G ∙ jFu�′|u�′G = 710 ∙ 69 = 715 ≅ 0,47

Respuesta: La probabilidad de seleccionar dos rollos aceptables es 0,47.

Page 31: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 30 de 75

IV. TABLAS DE CONTINGENCIAS “Una tabla de contingencias es una tabla que se utiliza para clasificar las observaciones de

las muestras de acuerdo con dos o más características.” Ejemplo: Una encuesta entre 150 adultos clasificados de acuerdo a su género y por el número de películas que vieron en el cine la semana pasada. Cada entrevistado se clasifica tomando en cuenta dos criterios: el número de películas y el género.

Películas vistas Género

Total Varón Mujer

0 20 40 60 1 o más 50 40 90 Total 70 80 150

Vamos a definir los eventos de la siguiente manera: N: No ver películas la semana pasada. V: Ser varón.

Estos datos también se pueden representar en un Diagrama de Venn: ¿Cuál es la probabilidad de que al seleccionar un entrevistado al azar: a) Sea varón? jFOG � 70150 = 0,47

Respuesta: La probabilidad de seleccionar un entrevistado al azar y sea varón es 0,47.

b) Haya visto una película al menos la semana pasada? jFw′G = 90150 = 0,6

Respuesta: La probabilidad de seleccionar un entrevistado al azar y haya visto una película al menos la semana pasada es 0,6.

c) Sea mujer y no haya visto películas la semana pasada? (Probabilidad conjunta) jFO′ q wG = 40150 = 0,27

Respuesta: La probabilidad de seleccionar un entrevistado al azar que sea mujer y no haya visto películas la semana pasada es 0,27.

d) Sea varón o haya visto películas la semana pasada? Como los eventos V y N’ no son mutuamente excluyentes utilizamos la regla de la adición general: jFO w′G = jFOG + jFw′G − jFO q w′G = 70150 + 90150 + 50150 = 110150 = 0,73

Respuesta: La probabilidad de seleccionar un entrevistado al azar que sea varón o haya visto al menos una película semana pasada es 0,73.

Page 32: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 31 de 75

Ejemplo: Se entrevistó a una muestra de ejecutivos acerca de su lealtad a la compañía. Una de las preguntas fue: “si otra empresa le ofreciera un puesto un poco mejor o igual que el que ocupa en la actualidad, ¿seguiría con la compañía o aceptaría el otro puesto?” Las respuesta de los 200 ejecutivos que participaron en la encuesta se clasificaron según el tiempo que tienen de trabajar en la empresa:

� 40 empleados con 5 años o menos de antigüedad contestaron que seguirían en la empresa.

� 80 ejecutivos no permanecerían en la compañía. � 120 empleados tienen más de 5 años trabajando en la empresa.

¿Cuál es la probabilidad de seleccionar al azar un ejecutivo que sea leal a la compañía y que tenga más de 5 años de servicio? Para poder responder la pregunta debemos organizar los datos en una tabla de contingencias, para eso vamos a denotar los eventos como:

A: Antigüedad de 5 años o menor. L: Permanecer en la empresa.

Permanecer en la empresa Antigüedad

Total 5 años o menos Más de 5 años

Si 40 80 120 No 40 40 80 Total 80 120 200

Los valores que están en negritas son los que tenemos como datos, los otros los obtenemos restando.

Ahora sí podemos calcular lo que nos preguntan: jF: q k′G � 80200 = 0,4

Respuesta: La probabilidad de seleccionar al azar un ejecutivo que sea leal a la compañía y que tenga más de 5 años de servicio es 0,4. Probabilidad Marginal

“Dados los eventos A y B, podemos calcular la probabilidad marginal del evento A como la suma de las probabilidades de los eventos A y B y A y B’.” jFkG = jFk q pG + jFk q p′G

Aplicando la regla general de la multiplicación a la fórmula anterior: jFkG = jFk|pG ∙ jFpG + jFk|p′G ∙ jFp′G V. TEOREMA DE BAYES

De la regla general de la multiplicación, igualando ambos ecuaciones: jFk q pG = jFk q pG jFkG ∙ jFp|kG = jFpG ∙ jFk|pG Despejando la probabilidad condicional: jFp|kG = jFpG ∙ jFk|pGjFkG

Además, aplicando la fórmula de probabilidad marginal jFkG = jFk|pG ∙ jFpG + jFk|p′G ∙ jFp′G: Así el Teorema de Bayes es: jFp|kG = jFpG ∙ jFk|pGjFk|pG ∙ jFpG + jFk|p′G ∙ jFp′G

Ejemplo: La probabilidad de que una persona tenga cierta enfermedad es 0,03. Se dispone de pruebas de diagnóstico médico para determinar si la persona tiene la enfermedad. Si la enfermedad está realmente presente, la probabilidad de que la prueba de un resultado positivo es 0,9. Si la enfermedad no está presente, la probabilidad de un resultado positivo es 0,02. Se desea saber:

Page 33: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 32 de 75

a) ¿Qué proporción de todas las pruebas de diagnóstico médico indican resultados positivos?

b) Si la prueba ha dado positivo, ¿cuál es la probabilidad de que la enfermedad esté presente?

Para poder organizar los datos vamos a definir los eventos: E: tener la enfermedad. R: resultado positivo.

Por lo tanto, jFoG � 0,03 jF=|oG � 0,9 jF=|o′G � 0,02

a) Aplicando la probabilidad marginal: jF=G = jF=|oG ∙ jFoG + jF=|o′G ∙ jFo′G Para calcular la probabilidad de E’ aplicamos la regla del complemento: jFo′G = 1 − jFoG = 1 − 0,03 = 0,97 jF=G = 0,9 ∙ 0,03 + 0,02 ∙ 0,97 = 0,464 Respuesta: La proporción de pruebas de diagnóstico médico que indican resultados positivos es 0,464.

b) Aplicando el Teorema de Bayes podemos calcular la probabilidad condicional de que la enfermedad esté presente sabiendo que el examen dio positivo: jFo|=G = jF=|oG ∙ jFoGjF=|oG ∙ jFoG + jF=|o′G ∙ jFo′G = 0,9 ∙ 0,030,9 ∙ 0,03 + 0,02 ∙ 0,97 = 0,582

Respuesta: La probabilidad de que la enfermedad esté presente sabiendo que el examen dio un resultado positivo es 0,582.

Page 34: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 33 de 75

UNIDAD Nº 4: “DISTRIBUCIONES DE PROBABILIDAD”

I. DEFINICIÓN “Una Distribución de Probabilidad es una lista de todos los posibles resultados de un

experimento y la probabilidad de cada uno de estos resultados.” Una distribución de probabilidad es similar a una distribución de frecuencias relativas. Sin

embargo, en lugar de describir el pasado, ésta describe la posibilidad de que se presente un evento en el fututo. ¿Cómo generar una distribución de probabilidad? Ejemplo: Supongamos que estamos interesados en el número de caras que caen al lanzar tres veces una moneda. Experimento: Lanzar una moneda tres veces. Evento: Obtener una cara. Posibles resultados: 0 caras, 1 cara, 2 caras, 3 caras.

Resultados Posibles

Lanzamiento de una moneda Número de caras

Primero Segundo Tercero 1 Ca Ca Ca 3 2 Ca Ca Ce 2 3 Ca Ce Ca 2 4 Ce Ca Ca 2 5 Ca Ce Ce 1 6 Ce Ca Ce 1 7 Ce Ce Ca 1 8 Ce Ce Ce 0

Distribución de Probabilidad

Propiedades 1) ∀�(: 0 ≤ jF�(G ≤ 1

“La probabilidad de un resultado en particular está entre 0 y 1, inclusive.” 2) ∑ jF�(G = 1�()�

“La suma de las posibilidades de todos los eventos mutuamente excluyentes es 1.”

II. VARIABLES ALEATORIAS En un experimento al azar, los resultados se presentan de manera aleatoria. Por lo tanto,

se le llama variable aleatoria. “Una Variable aleatoria es el resultado que se obtiene al azar en un experimento y que

puede asumir valores diferentes.”

0

0,2

0,4

1 2 3 4

Pro

ba

bil

ida

d

Número de caras

Distribución de Probabilidad

generada al lanzar una moneda tres

veces y contar el número de caras

obtenidas

Número de caras x

Probabilidad de resultados P(x)

0 1 8{ = 0,125

1 3 8{ = 0,375

2 3 8{ = 0,375

3 1 8{ = 0,125

TOTAL 8 8{ = 1

Page 35: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 34 de 75

Ejemplos: • Al contar el número de empleados ausentes del viernes en una determinada empresa,

los resultados pueden ser 0, 1, 2, 3,… El número de ausentes es la variable aleatoria. • Al lanzar dos monedas y contar el número de caras obtenidas, este podría ser 0, 1 o 2.

Ya que el número de caras que se obtiene de este experimento es al azar, el número de caras es la variable aleatoria.

Clasificación de Variables

Las variables aleatorias se clasifican en: � Variables Aleatorias Discretas: son aquellas que pueden asumir ciertos valores

claramente contables. En algunos casos un variable aleatoria discreta puede asumir valores decimales pero se deben poder contar.

Ejemplo: Al contar el número de cuadras recorridas, con un previo acuerdo, los posibles resultados son 1; 1,5; 2; 2,5; 3;… Dichos valores son discretos ya que existe distancia entre los números de cuadras 1,5 y 2. No se puede hablar de 1,6 o 1,75 cuadras.

� Variables Aleatorias Continuas: son aquellas que pueden asumir uno de un número infinito de valores.

Ejemplo: La variable estatura puede ser 1,60; 1,70; 1,80; como también podría ser 1,61; 1,62; 1,63; …; o bien si medimos con un instrumento más preciso, puede ser 1,611; 1,612; 1,613; … Se puede calcular la probabilidad de que la variable aleatoria tome un valor o bien, más de uno. El siguiente ejemplo ilustra los términos experimento, resultado, evento y variable aleatoria. Ejemplo: Experimento: Tirar una moneda tres veces. Resultados posibles: Ce Ce Ce Ce Ce Ca Ce Ca Ca Ca Ca Ca Ce Ca Ce Ca Ce Ca Ca Ce Ce Ca Ca Ce Evento: Salga una cara. Variable aleatoria: Cantidad de caras obtenidas.

1) ¿Cuál es la probabilidad de obtener una cara? Están pidiendo la probabilidad de que la variable aleatoria, x, sea igual a 1. Entonces: jF� � 1G = 38 = 0,375

Respuesta: La probabilidad de obtener una cara es 0,375.

2) ¿Cuál es la probabilidad de obtener menos de 2 caras? Están pidiendo la probabilidad de que la variable aleatoria, x, sea menor a 2. Entonces: jF� < 2G = 48 = 0,5

Respuesta: La probabilidad de obtener menos de dos caras es 0,5.

3) ¿Cuál es la probabilidad de obtener al menos dos caras? jF� ≥ 2G = 48 = 0,5

Respuesta: La probabilidad de obtener al menos dos caras es 0,5.

Page 36: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 35 de 75

III. MEDIA, VARIANZA Y DESVIACIÓN ESTÁNDAR Al igual que en una distribución de frecuencias, una distribución de probabilidad se

resume a través de su media, varianza y desviación estándar. Media La media de una distribución de probabilidad describe su Valor Esperado.

& � } �( ∙ jF�(�

()� G

Varianza y Desviación Estándar

E� � }F�( � &G� ∙ jF�(�

()� G E � ~E�

Ejemplo: Pedro Suárez vende automóviles en una concesionaria Ford. Por lo general, Pedro vende el mayor número de automóviles los sábados. La variable aleatoria es “número de autos vendidos”. La variable es discreta. Suárez generó su distribución de probabilidad de la siguiente manera:

Observemos que Pedro no espero vender 5 o 50 automóviles, sino un determinado número, 0, 1, 2, 3 o 4.

El valor de automóviles vendidos un sábado es & � 2,1 con una desviación estándar, E = 1,136. Conclusión: Pedro espera vender alrededor de 2 automóviles por sábado; o bien, en 10 sábados espera vender 2,1 ∙ 10 = 21 automóviles. Para saber si Pedro tiene una venta muy diferente entre sábado y sábado calculamos el coeficiente de variación. M. O. = 1,1362,1 ∙ 100% = 54%

Por lo tanto, la venta de los sábados es bastante heterogénea. IV. DISTRIBUCIÓN DE PROBABILIDAD BINOMIAL

La distribución de probabilidad binomial es una distribución de probabilidad discreta que se presenta muy a menudo. Las características son las siguientes:

1. Los resultados de cada prueba de un experimento se clasifican en una sola de las

categorías, un éxito o un fracaso. 2. La variable aleatoria cuenta el número de éxitos en el número total de pruebas. 3. La probabilidad de éxitos o fracasos permanece igual en todas las pruebas. 4. Las pruebas son independientes, es decir, el resultado de una prueba no afecta el

resultado de otra prueba. ¿Cómo se construye una distribución de probabilidad binomial?

Para crear una distribución de probabilidad binomial específica utilizamos (1) el número de pruebas y (2) la probabilidad de éxitos en cada prueba. La fórmula de la distribución binomial es la siguiente: jF�G = M?� ∙ �? ∙ F1 − �G��?

Número de automóviles Vendidos, x

Probabilidad P(x)

0 0,1 1 0,2 2 0,3 3 0,3 4 0,1

Total 1

Page 37: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 36 de 75

Donde: C denota una combinación. n es el número de pruebas. x es la variable aleatoria definida como el número de éxitos. p es la probabilidad de un éxito en cada prueba.

Ejemplo: Un examen consiste en 8 preguntas de opción múltiple, donde cada pregunta tiene cinco opciones y solo una opción es correcta. Éxito: Responder bien una pregunta. Variable aleatoria: Cantidad de preguntas bien respondidas. Probabilidad de responder bien en cada pregunta es la misma: �� � 0,20.

Las pruebas son independientes pues, la respuesta de una pregunta no afecta la respuesta de otra pregunta. " = 8; � = 0,20

� ¿Cuál es la probabilidad de no acertar ninguna pregunta? jF� = 0G = M�� ∙ 0,20� ∙ F1 − 0,20G��� = 0,17 Respuesta: La probabilidad de no contestar bien ninguna pregunta es 0,17.

� ¿Cuál es la probabilidad contestar bien exactamente 7 preguntas? jF� = 7G = M�� ∙ 0,20� ∙ F1 − 0,20G��� = 0,00008 Respuesta: La probabilidad de contestar bien exactamente siete pregunta es 0,00008. Toda la distribución de probabilidad se muestra en la siguiente tabla:

Número de preguntas bien respondidas Probabilidad

0 0,17 1 0,34 2 0,29 3 0,15 4 0,05 5 0,006 6 0,001 7 0,00008 8 0,000003

TOTAL 1,00

La media (&) y la varianza (E�) de una distribución binomial se pueden calcular de manera “abreviada” a través de: & = " ∙ � y E� = " ∙ � ∙ F1 − �G Para el ejemplo anterior el número de preguntas bien respondidas esperado es: & = 8 ∙ 0,20 = 1,6; y la varianza es: E� = 8 ∙ 0,20 ∙ F1 − 0,20G = 1,28. Tabla de distribución de probabilidad binomial

La fórmula de la distribución se puede utilizar para crear una distribución de probabilidad binomial para cualquier valor de n y de p. Sin embargo, para los valores más grandes de p, los cálculos llevan más tiempo. Para su comodidad, existen tablas que presentan el resultado de utilizar la fórmula para diferentes valores de n y de p. A continuación se presenta una parte de la tabla.

Page 38: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 37 de 75

La tabla muestra las probabilidades acumuladas, es decir, jF��G � jF� � 0G � jF� � 1G + ⋯ + jF� = �� − 1G + jF� = ��G Por lo tanto, para calcular la probabilidad exacta utilizamos la siguiente fórmula: jF� = ��G = jF��G − jF�� − 1G

Para el ejemplo anterior: jF� = 7G = jF7G − jF6G = 1,0000 − 0,9999 = 0,0001 aproximadamente.

1. ¿Cuál es la probabilidad de responder bien 5 preguntas o menos? jF� ≤ 5G = jF5G = 0,9988 Respuesta: La probabilidad de responder bien 5 preguntas o menos es 0,9988.

2. ¿Cuál es la probabilidad de responder bien menos de 5 preguntas? jF� < 5G = jF� ≤ 4G = jF4G = 0,9896 Respuesta: La probabilidad de responder bien menos de 5 preguntas es 0,9896.

3. ¿Cuál es la probabilidad de responder bien más de 5 preguntas? jF� > 5G = 1 − jF� ≤ 5G = 1 − 0,9988 = 0,0012 Respuesta: La probabilidad de responder bien más de 5 preguntas es 0,0012.

4. ¿Cuál es la probabilidad de responder bien 5 preguntas o más? jF� ≥ 5G = 1 − jF� ≤ 4G = 1 − 0,9896 = 0,0104 Respuesta: La probabilidad de responder bien 5 preguntas o más es 0,0104.

Page 39: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 38 de 75

V. DISTRIBUCIÓN DE PROBABILIDAD HIPERGEOMÉTRICA En la distribución de probabilidad binomial se considera que el muestreo se realiza con

reemplazos. Sin embargo, la mayor parte del muestreo se realiza sin reemplazos. Por lo tanto, si la población es pequeña, la probabilidad de cada observación cambiará. Por ejemplo, si la población consta de 20 elementos, la probabilidad de seleccionar un elemento de esa población es de 1 20{ . Si el muestreo se realiza sin reemplazos, después de la primera selección solo existen 19 elementos restantes; la probabilidad de seleccionar un elemento particular en la segunda selección es solo de 1 19{ . Para la tercera selección, la probabilidad es de 1 18{ , y así sucesivamente. Esto supone que la población es finita, es decir, se conoce el número de elementos de la población y es relativamente pequeño en cantidad.

Recordemos que una de las características de la distribución binomial es que la

probabilidad de éxito permanezca igual en todas las pruebas. Ya que la probabilidad de éxito no es la misma en todas las pruebas cuando se realiza un muestreo en una población relativamente pequeña sin reemplazos, la distribución binomial no es adecuada. En este caso, se aplica la distribución de probabilidad hipergeométrica.

Las características de la distribución de probabilidad hipergeométrica son las siguientes:

1. Los resultados en cada prueba de un experimento se clasifican en un de dos categorías exclusivas: un éxito o un fracaso.

2. La variable aleatoria es el número de éxitos en un número fijo de pruebas. 3. Las pruebas no son independientes. 4. Las muestras se realizan con una población finita sin reemplazos.

La fórmula de una distribución hipergeométrica es la siguiente:

jF�G = M?� ∙ M��?���M��

Donde: C denota una combinación. N es el tamaño de la población. n es el tamaño de la muestra. S es el número de éxitos en la población. x es el número de éxitos en la muestra. p es la probabilidad de un éxito y � = ��.

Ejemplo: La fábrica de Alpargatas emplea a cincuenta personas en el Departamento de Ensamblaje. Cuarenta de los empleados pertenecen a un sindicato y diez no. Se seleccionan cinco empleados al azar para formar un comité que va a hablar con la gerencia acerca de los horarios en que inician los turnos. ¿Cuál es la probabilidad de que cuatro de los cinco empleados seleccionados para el comité pertenezcan a un sindicato? Experimento: Seleccionar cinco empleados de cincuenta para formar un comité. Evento: Contar la cantidad de empleados del comité sindicalizados. Variable aleatoria: Cantidad de empleados sindicalizados que pertenecen al comité. En este caso, la población son los 50 empleados del Departamento. Un empleado puede ser seleccionado para el comité solo una vez. De ahí que el muestreo se realice sin reemplazos. Por lo tanto, la probabilidad de seleccionar un empleado sindicalizado, cambia de un ensayo a otro. La distribución de probabilidad hipergeométrica es adecuada para determinar la probabilidad. w = 50; T = 40; " = 5; � = 4

Page 40: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 39 de 75

jF�G � M88� ∙ M��8���8�M��� � 0,431

Respuesta: La probabilidad de que cuatro de los cinco empleados seleccionados para el comité pertenezcan a un sindicato es 0,431. La probabilidad de que un empleado esté sindicalizado es � = 8��� = 0,80.

Toda la distribución de probabilidad se muestra en la siguiente tabla:

Miembros del sindicato Probabilidad

0 0,000 1 0,004 2 0,044 3 0,210 4 0,431 5 0,311

TOTAL 1,000

La media (&) y la varianza (E�) de una distribución hipergeométrica se pueden calcular de manera “abreviada” a través de: & = " ∙ � y E� = " ∙ � ∙ F1 − �G ∙ ������

Para el ejemplo anterior el número de miembros sindicalizados esperado es: & = 5 ∙ 0,80 = 4;

y la varianza es: E� = 5 ∙ 0,80 ∙ F1 − 0,80G ∙ �������� = 0,73.

VI. DISTRIBUCIÓN DE PROBABILIDAD DE POISSON La distribución de probabilidad de Poisson describe el número de veces que ocurre un

evento durante un intervalo específico. El intervalo puede ser tiempo, distancia, área o volumen.

Las características de la distribución de Poisson son las siguientes: 1. La variable aleatoria es el número de veces que ocurre un evento durante un intervalo

definido. 2. La probabilidad de un evento es proporcional al tamaño del intervalo. 3. Los intervalos no se superponen y son independientes.

Es decir, mientras más largo sea el intervalo mayor será la probabilidad, y el número de ocurrencias en un intervalo no afecta a los otros intervalos. La distribución es una forma limitante de la distribución binomial cuando la probabilidad de un éxito es muy pequeña y n es grande. Por lo general se llama “ley de eventos improbables”, lo cual significa que la probabilidad, p, de que ocurra un evento en particular es muy pequeña.

La fórmula de la distribución de probabilidad de Poisson es la siguiente:

jF�G = &? ∙ ��S�!

Donde: & es el número de éxitos de la medida en un intervalo particular y & = " ∙ �. e es la constante 2,71828. x es el número de éxitos. n es el tamaño de la muestra. p es la probabilidad de un éxito.

Page 41: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 40 de 75

Ejemplo: En un determinado aeropuerto la probabilidad de que se pierda una valija es de 0,0003. ¿Cuál es la probabilidad de que se pierda una valija en un avión que transporta 1.000 valijas? Éxitos: Que se pierda una valija. Variable aleatoria: Cantidad de valijas perdidas. � � 0,0003; " � 1000 ⇒ & � 0,3

jF� � 1G = 0,3� ∙ ���,71! = 0,2223

Respuesta: La probabilidad de que se pierda una valija en un avión que transporta 1000 valijas es 0,2223. Ejemplo: El promedio de cheques rebotados en un banco es 3 por día. ¿Cuál es la probabilidad de que reboten 2 cheques? Éxito: Que se rebote un cheque. Variable aleatoria: Cantidad de cheques rebotados.

& = 2 ⇒ jF� � 2G = 3� ∙ ��72! = 0,2241

Respuesta: La probabilidad de que un banco rebote 2 cheques por día es 0,2241.

La media (&) y la varianza (E�) de una distribución de Poisson se pueden calcular de manera “abreviada” a través de: & = " ∙ � y E� = " ∙ �

Para la distribución de probabilidad de Poisson también existen tablas con las probabilidad acumuladas calculas. Para utilizarlas se procede de igual manera que en la distribución binomial.

VII. DISTRIBUCIÓN DE PROBABILIDAD NORMAL Hasta ahora estudiamos tres distribuciones de probabilidad para variables aleatorias

discretas, continuamos nuestro estudio analizando una distribución de probabilidad para variables aleatorias continuas.

La distribución de probabilidad Normal se describe por su media y su desviación

estándar. Supongamos que la vida útil de una pila tamaño A sigue una distribución normal con una media de 45 horas y una desviación estándar de 10 horas cuando se utiliza en un juguete en particular. Podemos determinar la posibilidad de que la pila dure más de 50 horas, entre 35 horas y 62 horas, o menos de 39 horas. La vida útil de la pila se mide en una escala continua.

La fórmula de la distribución de probabilidad normal es la siguiente:

jF�G = 1E√2� �� F?�SG��R� �

Donde: & es la media. E es la desviación estándar. � y e son constantes matemáticas. � es el valor de una variable aleatoria continua. Sin embargo, no necesitará realizar ningún cálculo con la fórmula. En lugar de ello,

utilizará una tabla para buscar las diversas probabilidades.

Page 42: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 41 de 75

Las características de una distribución de probabilidad normal son las siguientes: 1. Tiene forma de campana y tiene una sola cima en el centro de la distribución. La media

aritmética, la mediana y la moda son iguales y están ubicadas en el centro de la distribución. Como consecuencia, la mitad del área bajo la curva normal está a la derecha de su punto central y la otra mitad se encuentra a la izquierda de éste.

2. Es simétrica con respecto a la media. Si cortamos en sentido vertical la curva normal en el valor central, las dos mitades serán imágenes espejo.

3. Cae ligeramente fuera en cualquier sentido con respecto al valor central. Es decir la distribución es asintótica: la curva se acerca cada vez más al eje x pero nunca lo toca. Dicho de otro modo, los extremos de la curva se extiende de manera indefinida en ambos sentidos.

4. La ubicación de una distribución normal se determina a través de la media, &. La dispersión por medio de la desviación estándar, E.

No hay solo una distribución de probabilidad normal, sino una “familia” de ellas. En la siguiente pueden compararse las distribuciones de probabilidad del tiempo de servicio de los empleados en tres plantas distintas. Observe que las medias son las mismas pero las desviaciones estándar son distintas.

La gráfica que se presenta a continuación ilustra la distribución de los pesos de las cajas de tres cereales diferentes. Los pesos siguen una distribución normal con medias distintas pero desviaciones estándar idénticas.

Con una distribución de probabilidad normal, las áreas bajo la curva definen

probabilidades. lñ área total por debajo de la curva normal es 1,0. Esto corresponde a todos los resultados posibles. Como una distribución de probabilidad normal es simétrica, el área por debajo de la curva a la izquierda de la media es 0,5 y el área por debajo de la curva a la derecha de la media es 0,5. También es posible determinar, por ejemplo en el caso de la primera curva del peso de cereales, la probabilidad de que una caja pese entre 280 y 286 gramos. Sin embargo, para determinar esta probabilidad necesitamos estudiar la distribución de probabilidad normal estándar.

Page 43: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 42 de 75

Distribución de probabilidad normal estándar El número de distribuciones normales es ilimitado, cada una tendrá una media (&) y una

desviación estándar (E) distintas o ambas. Por esta razón es imposible proporcionar tablas para cada distribución normal. Para salvar este inconveniente se utiliza un miembro de la familia para determinar las probabilidades de todas las distribuciones normales. Se la conoce como distribución normal estándar, y es única porque tiene una media de 0 y una desviación estándar de 1.

Cualquier distribución normal puede convertirse en una distribución normal estándar, proceso llamado estandarizar la variable, aplicando la siguiente fórmula: � � � � &E

Una vez estandarizadas las observaciones normalmente distribuidas, los valores z tienen una distribución normal con una media de 0 y una desviación estándar de 1. Luego de realizar este procedimiento se puede utilizar la tabla de la distribución normal estándar.

Para utilizar la tabla tomemos como ejemplo el valor � � 1,52. Desplácese hacia abajo en

la primera columna de la tabla hasta llegar a 1,5. Luego, desplácese en forma horizontal hacia la derecha lea la probabilidad que aparece bajo la columna denominada 0,05. Es 0,935745. Esto significa que el área debajo de la curva para todos los valores menores de 1,52 es 0,935745. ¿Cómo encontrar áreas por debajo de la curva normal?

Tomemos como ejemplo la distribución de probabilidad del tiempo de servicio de los empleados de una empresa, la cual es normal, cuya media es 20 años y su desviación estándar es 3,1 años. Calculemos la probabilidad de que al elegir un empleado al azar tenga una antigüedad:

� Menor a 23 años? jF� ≤ 23G = j �� − 203,1 ≤ 23 − 203,1 � = jF� ≤ 0,97G = 0,834

Respuesta: La probabilidad de que un empleado tenga una antigüedad menor a 23 años es 0,834.

� Mayor a 30 años? jF� ≥ 30G = j �� − 203,1 ≥ 30 − 203,1 � = jF� ≥ 3,23G = 1 − jF� ≤ 3,23G = 1 − 0,9994 = 0,0006

Respuesta: La probabilidad de que un empleado tenga una antigüedad mayor a 30 años es 0,0006.

� Entre 21 y 25 años? jF21 ≤ � ≤ 25G = j �21 − 203,1 ≤ � − 203,1 ≤ 25 − 203,1 � = jF0,32 ≤ � ≤ 1,61G = jF� ≤ 1,6129G − jF� ≤ 0,3226G = 0,9463 − 0,6255 = 0,3208

Respuesta: La probabilidad de que un empleado tenga una antigüedad entre 21 y 25 años es 0,3208.

Page 44: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 43 de 75

� Menor a 18 años? jF� ≤ 18G = j �� − 203,1 ≤ 18 − 203,1 � = jF� ≤ −0,65G = jF� ≥ 0,65G = 1 − jF� ≤ 0,65G = 1 − 0,7422 = 0,2578

Respuesta: La probabilidad de que un empleado tenga una antigüedad menor a 18 años es 0,2578.

� Mayor a 17 años y medio? jF� ≥ 17,5G = j �� − 203,1 ≥ 17,5 − 203,1 � = jF� ≥ −0,81G = jF� ≤ 0,81G = 0,791

Respuesta: La probabilidad de que un empleado tenga una antigüedad mayor a 17 años y medio es 0,791.

� Igual a 25 años? jF� = 25G = j �� − 203,1 = 25 − 203,1 � = jF� = 1,61G = jF� ≤ 1,61G − jF� ≤ 1,60G

= 0,9463 − 0,9452 = 0,0011

Respuesta: La probabilidad de que un empleado tenga una antigüedad igual a 25 años es 0,0011.

Page 45: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 44 de 75

UNIDAD Nº 5: “TEORÍA DE MUESTREO Y ESTIMACIÓN”

I. INTRODUCCIÓN En casi todas las situaciones, la población es numerosa o es difícil identificar a todos sus

miembros, de modo que necesitamos manejar una muestra. En otras palabras, no conocemos el parámetro (media, desviación o proporción) poblacional y, por lo tanto, queremos estimar el valor de un estadístico de la muestra. Ejemplos:

� El turismo es una fuente importante de ingreso de muchas provincias del país, como Córdoba. La Oficina de Turismo de Córdoba quiere estimar la cantidad media que gastan los turistas que visitan la provincia. Para eso se seleccionan 500 turistas al azar en el momento en que salen de la provincia y se les pregunta los gastos que hicieron durante su estadía. La cantidad media que gasta la muestra de 500 turistas, �̅, es un estimado de la media (parámetro) poblacional, & .

� El rector del Instituto Superior F.A.S.T.A. Catamarca del Nivel Superior reporta que 80% de sus graduados entran en el mercado laboral en un puesto relacionado con su área de estudio.

II. ESTIMADOR PUNTUAL E INTERVALO DE CONFIANZA Estimador Puntual: “Estadístico que se calcula a partir de la información de la muestra y se utiliza para estimar el parámetro de la población.” Sin embargo, un estimador puntual indica solo una parte de la historia. Aunque esperamos

que el estimador puntual se aproxime al parámetro poblacional, queremos medir qué tanto se acerca realmente. Un intervalo de confianza sirve para ello.

Intervalo de Confianza: “Rango de valores creado a partir de los datos de la muestra de modo que el parámetro poblacional es probable que ocurra dentro de ese rango en una probabilidad específica. Esta última se denomina Nivel de Confianza.”

III. MEDIA POBLACIONAL Un intervalo de confianza para la media poblacional se calcula aplicando la siguiente

fórmula: �̅ � � ∙ D√" ≤ & ≤ �̅ � � ∙ D√"

Donde: �̅ es la media muestral. s es la desviación muestral. n es el tamaño de la muestra. & es la media poblacional. z es un valor que depende del nivel de confianza.

Ejemplo: Suponga que la Oficina de Turismo de Córdoba después de analizar la muestra obtiene que el gasto promedio de los 500 turistas es de $1.000 y la desviación estándar de la muestra es de $150.Obtenga el intervalo de confianza para la media poblacional con un nivel de confianza del 99%. En este caso, �̅ � $1.000; D = $150; " = 500; � = 2,58

Page 46: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 45 de 75

$1000 − 2,58 ∙ $150√500 ≤ & ≤ $1000 + 2,58 ∙ $150√500

$982,69 ≤ & ≤ $1017,31 Es decir, en promedio los turistas que visitan la Provincia de Córdoba gastan entre $982,69 y $1017,31.

Recordemos que la media se calcula únicamente para variables cuantitativas. Entonces,

¿cómo podríamos obtener información de la población cuando la variable es cualitativa? IV. PROPORCIÓN

El ejemplo del Instituto Superior F.A.S.T.A. Catamarca es una variable cualitativa. En este caso, una observación se clasifica en dos grupos mutuamente excluyentes, el mercado laboral al que entran está o no está relacionado con el área de estudio de cada graduado. Proporción: “Fracción, razón o porcentaje que indica la parte de la muestra o la población que tiene un rasgo de interés en particular.” Para calcular la proporción se utiliza la siguiente fórmula: � = �("

Donde: p es la proporción muestral. �( es el número de éxitos. n es el tamaño de la muestra.

Ejemplo: La proporción de graduados que entran al mercado laboral relacionado con su área de estudio es de 80 100{ ; o, 0,80; o bien, 80%.

Un intervalo de confianza para la proporción poblacional se calcula aplicando la siguiente fórmula:

� − � ∙ �� ∙ F1 − �G" ≤ � ≤ � + � ∙ �� ∙ F1 − �G"

donde: p es la proporción muestral. z es un valor que depende del nivel de confianza. n es el tamaño muestral. � es la proporción poblacional.

Ejemplo: Suponga que el rector del Instituto encuestó a 50 graduados y obtuvo que el 80% de ellos trabajan en un puesto relacionado con su área de estudio. Obtenga el intervalo de confianza para la proporción poblacional con un nivel de confianza del 93%. En este caso, � = 80100 = 0,80; " = 50; � = 1,81

0,80 − 1,81 ∙ �0,80 ∙ F1 − 0,80G50 ≤ � ≤ 0,80 + 1,81 ∙ �0,80 ∙ F1 − 0,80G50

0,698 ≤ � ≤ 0,902

Es decir, entre el 69,8% y el 90,2% de los graduados del Instituto Superior F.A.S.T.A. Catamarca entran en el mercado laboral en un puesto relacionado con su área de estudio.

Page 47: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 46 de 75

UNIDAD Nº6: “REGRESIÓN Y CORRELACIÓN LINEAL”

Hasta este momento todo el estudio se basó en una sola variable. Ahora enfatizaremos el estudio de dos variables. Estudiaremos si existe relación entre ellas, si esta es fuerte o débil, directa o inversa. También desarrollaremos una ecuación para expresar esa relación. Por ejemplo:

� ¿Existe alguna relación entre el número de horas que los alumnos estudiaron para el examen y la calificación que obtuvieron?

� ¿Hay relación alguna entre el promedio con el que se recibió una persona y el éxito laboral?

I. ANÁLISIS DE CORRELACIÓN Definición: “Es un grupo de técnicas para medir la asociación entre dos variables” Ejemplo: El técnico en higiene y seguridad de la fábrica Alpargatas sospecha que existe una relación entre la edad del empleado y la gravedad de cada accidente causado por las máquinas; y por otro lado, entre la antigüedad del empleado y la gravedad del accidente sufrido. Para verificar su hipótesis hace un relevamiento de los accidentes del último año y obtiene la siguiente información:

Accidente Edad del empleado (años) Antigüedad (años) Gravedad 1 40 15 1.5 2 35 1 9 3 50 3 8.2 4 25 7 5.3 5 37 6 6 6 43 6 7.2 7 27 13 2 8 35 14 3.5 9 29 3 8.5 10 49 17 3 11 32 2 9.7 12 41 5 7

Donde consideramos como: Accidente Leve de 1 a 3.9 Accidente Moderado de 4 a 7.9 Accidente Grave de 8 a 10

Vamos a realizar un estudio de la relación antigüedad – gravedad del accidente. Al revisar los datos, observamos que parece existir una relación entre la antigüedad del

empleado y la gravedad del accidente. Es decir, los empleados con mayor antigüedad sufrieron accidentes más leves. Sin embargo, la relación no es “perfecta” o exacta. Por ejemplo, en el décimo accidente el empleado tiene 17 años de antigüedad y la gravedad del accidente es 3.

Para poder analizar con mayor precisión vamos realizar el análisis de correlación. 1. Lo primero que debemos reconocer es la variable independiente y la variable dependiente.

Recordemos que: Variable Independiente: Es una variable que proporciona las bases para el cálculo. También se la denomina variable de predicción (a partir de ella se puede predecir el valor de la variable dependiente) Variable Dependiente: Es la variable que se predice o calcula a partir de la variable independiente.

Page 48: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 47 de 75

Por tanto, en nuestro ejemplo, la variable independiente es la edad del empleado y la variable dependiente es la gravedad del accidente, pues la edad varía independientemente de cómo haya sufrido el accidente el trabajador. 2. Como segundo paso tenemos que graficar los datos en un sistema de coordenadas, llamado Diagrama de Dispersión, recordando que la variable independiente se ubica en el eje horizontal y la dependiente en el eje vertical.

El diagrama de dispersión ilustra gráficamente que los empleados con mayor antigüedad sufrieron accidentes más leves. Observe que aún cuando parece existir una relación negativa entre ambas variables (a medida que aumenta la antigüedad disminuye la gravedad del accidente), no todos los puntos se encuentran en una línea. En el siguiente paso medimos la fuerza y la dirección de esta relación. 3. El tercer paso es calcular el Coeficiente de Correlación el cual es una medida de la

magnitud de la relación entre las dos variables. El coeficiente de correlación se representa con la letra r y se lo conoce como coeficiente de correlación producto – momento de Pearson. Puede asumir cualquier valor de – 1.00 a 1.00, inclusive. Un coeficiente de correlación de – 1.00 o 1.00 indica una correlación perfecta. Por ejemplo un coeficiente de correlación para el ejemplo con el que estamos trabajando, en caso de ser – 1.00, indicaría que la antigüedad del empleado y la gravedad del accidente tienen una relación perfecta en un sentido lineal negativo. Los siguientes gráficos ilustran ambas relaciones perfectas: Si no hay relación entre dos variables, la r de Pearson es cero. Un coeficiente de correlación r cercano a 0 indica que la relación lineal es muy débil. Los coeficientes cercanos a – 1.00 y 1.00 indican una relación fuerte.

Gravedad del accidente en función de la antigüedad del empleado

0123456789

10

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Antigüedad (años)

Gra

veda

d

Page 49: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 48 de 75

En el siguiente gráfico se muestra la fuerza de la dirección del coeficiente de correlación: Para calcularlo se utiliza la siguiente formula: Donde ix : son los valores de la variable independiente,

iy : son los valores de la variable dependiente,

x : es la media aritmética de la variable independiente, y : es la media aritmética de la variable dependiente,

xs : es la desviación estándar de la variable independiente,

ys : es la desviación estándar de la variable dependiente.

Calcularemos el coeficiente de correlación de nuestro ejemplo donde:

12;83,2;58,5;91,5;67,7 ===== nssyx yx

Antigüedad (años) Gravedad xxi − yyi − ( ) ( )yyxx ii −⋅−

15 1.5 7,33 -4,41 -32,33 1 9 -6,67 3,09 -20,61 3 8.2 -4,67 2,29 -10,69 7 5.3 -0,67 -0,61 0,41 6 6 -1,67 0,09 -0,15 6 7.2 -1,67 1,29 -2,15 13 2 5,33 -3,91 -20,84 14 3.5 6,33 -2,41 -15,25 3 8.5 -4,67 2,59 -12,09 17 3 9,33 -2,91 -27,14 2 9.7 -5,67 3,79 -21,49 5 7 -2,67 1,09 -2,91

TOTAL -165,27

( ) ( )( ) ( ) ( ) ( ) ⇒

−=⋅⋅−

−=⋅⋅−

−⋅−=∑

=

76,173

27,165

83,258,5112

27,165

11

yx

i

n

ii

ssn

yyxxr

95,0−=r

( ) ( )( ) yx

i

n

ii

ssn

yyxxr

⋅⋅−

−⋅−=∑

=

11

Page 50: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 49 de 75

¿Cómo interpretamos la correlación de – 0,95? Primero, al ser negativo, es decir que hay una relación inversa entre la antigüedad del empleado y la gravedad del accidente. Esto confirma el razonamiento que hicimos con el gráfico de dispersión. Además el valor – 0,95 es muy cercano a – 1,00, por lo que podemos concluir que la asociación es muy fuerte. Conclusión: Un incremento en la antigüedad del empleado significará menor gravedad del accidente en caso de sufrir uno. II. COEFICIENTE DE DETERMINACIÓN

En el ejemplo anterior el coeficiente de correlación, – 0,95, se interpretó como “muy

fuerte”. Sin embargo, los términos débil, moderado y fuerte no tienen un significado preciso. Una medida que tiene un significado que se interpreta con mayor facilidad es el coeficiente

de determinación, %2r , el cual se calcula aplicando la siguiente fórmula:

Definición: “Es el porcentaje de la variación total de la variable dependiente que se explica, o contabiliza, por la variación en la variable independiente”

Ejemplo: ( ) ⇒⋅=⋅−= 10090,010095,0% 22r

Podemos concluir, entonces, que el 90% de las variaciones en la gravedad del accidente se explica por la variación en la cantidad de años de antigüedad que tiene el empleado que sufrió el incidente. Es decir, de todos los accidentes ocurridos en Alpargatas, el 90% de los mismos se explican con la antigüedad del empleado en la fábrica. ADVERTENCIA CON RELACIÓN A LA INTERPRETACIÓN DEL ANÁLISIS DE CORRELACIÓN Si existe una relación fuerte entre dos variables, nos vemos tentados a suponer que un incremento o una reducción en una variable causa un cambio en la otra. Por ejemplo, podemos demostrar que el consumo de maní y el consumo de un analgésico tienen una correlación fuerte. Sin embargo, esto no indica que un incremento en el consumo de maní causó el incremento en el consumo de analgésicos. De modo similar, los ingresos de los profesores y el número de internados en hospitales han aumentado en forma proporcional. Además, conforme se reduce la población de burros, ha habido un incremento en el número de doctorados otorgados. Las relaciones de este tipo se conocen como correlaciones espurias. La conclusión a la que podemos llegar cuando encontramos dos variables con una fuerte correlación es que existe una relación o asociación entre las dos variables, no que un cambio en una causa un cambio en la otra. III. ANÁLISIS DE REGRESIÓN Hasta aquí desarrollamos medidas para expresar la fuerza y la dirección de la relación entre dos variables. Ahora, vamos a desarrollar una ecuación para expresar la relación lineal entre dos variables. Además, queremos estimar el valor de la variable dependiente, y, en base a un valor seleccionado de la variable independiente, x. Definición: “Es una técnica que se utiliza para, desarrollar la ecuación que expresa la relación lineal entre dos variables, y para proporcionar los estimados”

100% 22 ⋅= rr

%90%2 =r

Page 51: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 50 de 75

Método de los Mínimos Cuadrados El diagrama de dispersión se reproduce en la gráfica 1, con una línea trazada con regla a través de los puntos, a fin de ilustrar que una línea recta se ajusta quizá a los datos. Sin embargo, la línea trazada con una regla tiene una desventaja: su posición se basa en parte en el juicio de la persona que la traza. Las líneas que se hicieron a mano en el gráfico 2 representan las opiniones de cuatro personas. Todas, excepto la línea A, parecen ser razonables. No obstante, cada una daría como resultado un estimado diferente de la gravedad del accidente en relación con la antigüedad del empleado que lo sufrió.

Gráfica 1 Gráfica 2 El juicio subjetivo se elimina al determinar la recta de regresión utilizando un método matemático llamado método de los mínimos cuadrados. Este método calcula lo que comúnmente se conoce como la recta del “mejor ajuste”. Definición: “El método de los mínimos cuadrados determina la ecuación de la recta de regresión minimizando la suma de los cuadrados de las distancias verticales entre los valores reales de y y los valores pronosticados”. ECUACIÓN DE REGRESIÓN LINEAL: Donde: y’ es el valor que se predice de la variable y para un valor x específico,

a es el valor de y cuando x = 0, b es la pendiente de la recta, x es cualquier valor de la variable independiente que se seleccione.

Las fórmulas para a y b son: Ejemplo: Vamos a utilizar el método de los mínimos cuadrados para determinar una ecuación de la recta a fin de expresar la relación entre la antigüedad del empleado y la gravedad del accidente sufrido. Los cálculos necesarios para determinar la ecuación de la recta de regresión son:

( ) 61,967,748,091,5

48,058,5

83,295,0

=⋅−−=⋅−=

−=⋅−==

xbya

s

srb

x

y

Recta de regresión:

bxay +='

xbyas

srb

x

y ⋅−==

xy ⋅−= 48,061,9'

Page 52: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 51 de 75

Supongamos, ahora, que necesitamos calcular la gravedad del accidente, en caso de sufrir uno, que tendrá un empleado con 10 años de antigüedad en la fábrica. Es decir, 8,41048,061,9'10 =⋅−=⇒= yx .

Este valor de y’ significa que si un empleado de 10 años de antigüedad sufre un accidente, la gravedad de éste será de 4,8 puntos (moderado) ¿Cómo trazar la línea de la recta regresión? La ecuación obtenida por el método de los mínimos cuadrados, xy ⋅−= 48,061,9' , se puede

trazar en el diagrama de dispersión. En el primer accidente de la muestra el empleado tiene una antigüedad de 15 años. Su gravedad de accidente estimado es 4,21548,061,9' =⋅−=y . El trazo 4,2y15 == yx se encuentra al moverse hasta 15 en el eje x y luego en sentido

vertical hasta 2,4. Lo mismo hacemos con otro accidente, por ejemplo, para el accidente 5: 7,6y 6 == yx .

Page 53: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 52 de 75

FÓRMULAS Unidad N° 1

1. Cantidad de intervalos, k: njk ≥2 donde { }jkk min=

2. Amplitud de los intervalos, i: k

xxi minmax −

Unidad N° 2

3. Moda: � �� � � �������� ∙ �, donde �� � �� � ����; �� � �� � ���� 4. Mediana: � � �� � ���������� � ∙ � 5. Media: & � ∑ ?/∙�/�/���

6. Cuartiles:

9� � :� � ;"4 � ������ < ∙ � 9� � :� � ;"2 − ������ < ∙ � 97 = :� + ;34 " − ������ < ∙ �

7. Percentil k:

j� = :� + ;" ∙ �100 − ������ < ∙ � 8. Rango: = = �.á? − �.í�

9. Varianza: E� = ∑ F?/�SG�∙�/�/�� �

10. Desviación estándar: E = √E� 11. Coeficiente de variación: M. O. % = RS ∙ 100

12. Coeficiente de sesgo: MT = 7FS�UVGR

Unidad N°3

13. Regla de la adición: jFk pG = jFkG + jFpG si los eventos son mutuamente excluyentes. jFk pG = jFkG + jFpG − jFk q pG si los eventos no son mutuamente excluyentes.

14. Regla del complemento: jFkG + jFkrG = 1 jFk|pG + jFkr|pG = 1

15. Regla de la multiplicación: jFk q pG = jFkG ∙ jFpG si los eventos son independientes. jFk q pG = jFkG ∙ jFp|kG = jFpG ∙ jFk|pG si los eventos son dependientes.

16. Probabilidad marginal: jFkG = jFk|pG ∙ jFpG + jFk|p′G ∙ jFp′G 17. Probabilidad condicional: jFp|kG = �F�G∙�F�|�G�F�G

18. Teorema de Bayes: jFp|kG = �F�G∙�F�|�G�F�|�G∙�F�G��F�|�rG∙�F�rG

Page 54: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 53 de 75

Unidad N°4

19. Distribución Binomial: jF�G � M?� ∙ �? ∙ F1 − �G��? & = " ∙ � E� = " ∙ � ∙ F1 − �G 20. Distribución Hipergeométrica:

jF�G = M?� ∙ M��?���M��

& = " ∙ �

E� = " ∙ � ∙ F1 − �G ∙ w − "w − 1

21. Distribución de Poisson:

jF�G = &? ∙ ��S�!

& = " ∙ � E� = " ∙ �

Unidad N°5

22. Intervalo de confianza para la media de la población:

�̅ − � ∙ D√" ≤ & ≤ �̅ + � ∙ D√"

23. Intervalo de confianza para la proporción de la población:

� − � ∙ �� ∙ F1 − �G" ≤ � ≤ � + � ∙ �� ∙ F1 − �G"

Unidad N°6

24. Coeficiente de correlación: � = ∑ F?/�?̅G∙F�/�� G�/��F���G∙Q¡∙Q¢

25. Coeficiente de determinación: ��% = �� ∙ 100

26. Recta de regresión: q′ = # + £� donde £ = � Q¢Q¡ # = q  − £ ∙ �̅

Page 55: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 54 de 75

Trabajo Práctico N° 1

1. Determine la unidad de medida de cada una de las siguientes variables. Luego, clasifíquelas e indique el nivel de medición:

a. Peso de niños al nacer. b. Ingresos del jefe de hogar. c. Cigarrillos fumados por día. d. Nivel de educación. e. Estado civil. f. Palabras escritas por minuto. g. Llamadas telefónicas por hora. h. Número de errores topográficos en una página. i. Cantidad de estudiantes en una clase. j. Porcentaje de azúcar en un jugo de frutas.

2. En cada uno de los siguientes casos indique: I. Población objeto de estudio.

II. Muestra. III. Variable. IV. Unidad de medida. V. Clasificación de la variable.

VI. Escala de medición de la variable.

a. Un economista desea investigar la proporción de desempleados en la ciudad Capital de la provincia de Catamarca, durante el primer semestre del 2.005, para ello selecciona una muestra de 1.000 habitantes de dicha región.

b. Un agrónomo estudia la eficacia de un nuevo fertilizante a fin de decidir si aplicarlo o no

a 120 ha. con zapallo de la Finca Don Matías en la localidad de Balcozna, al cabo de un mes de la aplicación del nuevo fertilizante a 120 plantas, se mide el crecimiento alcanzado.

c. Un bioquímico desea estudiar el grupo sanguíneo predominante en el departamento

Andalgalá de la provincia Catamarca, para ello considera una muestra de 50 habitantes con la finalidad de hacer los análisis correspondientes.

d. Un sociólogo quiere analizar el nivel de educación de las mujeres entre 20 a 30 años en

zonas marginales de la ciudad San Fernando Del Valle de Catamarca, con motivos de implementar acciones pertinentes. Para ello realiza una encuesta a 40 mujeres entre 20 a 30 años de dichas zonas.

e. Se pregunta a 28 propietarios de automóviles con chapa D, la marca correspondiente al auto de su propiedad.

f. Para 46 familias seleccionadas de los registros de EDECAT, se conoce la cantidad de energía consumida en el primer bimestre de 2.005.

g. El productor de TV desea conocer el grado de popularidad de su programa en

comparación con los otros que se transmiten a la misma hora. Para ello una organización especializada se compromete a realizar una encuesta a 500 televidentes a la hora que se transmite el programa y así poder evaluar la proporción de individuos que lo prefiere.

Page 56: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 55 de 75

3. En cada uno de los siguientes puntos determinar si el grupo es una MUESTRA o una

POBLACIÓN: a) Los participantes de un estudio de un nuevo medicamento para la diabetes. b) Todos los automovilistas que fueron multados por exceso de velocidad en la ciudad de

San Nicolás el mes pasado. c) Todos los que reciben asistencia social en San Nicolás.

4. Construya una tabla de frecuencia y el gráfico indicado en cada caso para los datos obtenidos en las investigaciones presentadas a continuación:

a) Números de habitantes por viviendas; de un grupo de 15 viviendas: Barras

1 – 2 – 5 – 3 – 4 – 6 – 2 – 1 – 4 – 3 – 3 – 6 – 2 – 3 – 4 Calcule el porcentaje de viviendas que tienen 3 habitantes, hasta 3 habitantes y 4 habitantes o más.

b) Temperatura máxima en 47 años en el país x: Polígono de frecuencias

18 – 22 – 23 – 21 – 23 – 24 – 25 – 26 – 25 – 24,5 – 25,5 – 23,8 -25,6 – 27,2 – 28,1 – 27 – 28 – 29 – 28,5 – 29,3 – 27,5 – 28 – 27,2 – 29,1 – 28,8 – 27,6 – 28,5 – 29 – 30 – 31 – 32 – 31,5 – 32,3 – 30,8 – 29,8 – 31,8 – 31,6 – 32 – 30 – 30,9 – 33 – 34 – 35 – 33,5 – 34,8 – 36 – 37,5

c) Peso en kg de toros de la raza Holando –Argentina: Ojiva

587- 1000 – 1150 – 1076 – 1050 – 1000 – 836 – 457 – 729 - 575- 525 – 678 – 632 – 962 – 930 – 680 – 897 – 895 – 956 – 954 – 950 – 998 – 973 – 975 – 945 – 939 – 980 – 1100 – 850 – 735 – 980 – 865 – 968 – 920 – 910 – 970 – 1190 – 890 – 940 – 876 – 1150 – 910 – 970 – 930 – 945 – 825

d) Veinte alumnos ingresantes a la carrera de Ingeniería en Informática, en el año

2.000 dieron sus respectivas localidades de origen, resultando las siguiente información: Sectores

Localidad Capital Valle Viejo Fray Mamerto Esquiú Tinogasta Código 1 2 3 4

1 – 1 – 4 – 3 – 3 – 2 – 2 – 1 – 2 – 1 – 1 – 3 – 4 – 4 – 1 – 2 – 4 – 1 – 2 – 2 e) La cantidad de accidentes laborales por año registrados en una empresa de los

últimos 30 años son los siguientes: Bastones 20 – 15 – 16 – 15 – 15 – 20 – 18 – 18 – 17 – 20 – 18 – 13 – 15 – 18 – 16 20 – 10 – 12 – 10 – 10 – 20 – 16 – 16 – 14 – 20 – 10 – 10 – 10 – 16 – 12

Responda: I) ¿Cuál es la menor cantidad de accidentes por año? ¿Cuántos años se dieron? II) ¿Qué porcentaje representan la mayor cantidad de accidentes sucedidos por año?

f) Se escogieron 30 pollos de una criadero en la Localidad de Capayán en octubre de 2.004 y se los pesó, obteniéndose los siguientes resultados: Histograma

1,3 – 3,0 – 3,2 – 2,1 – 1,5 – 2,6 – 4,3 – 1,9 – 3,7 – 2,3 – 2,7 – 4,4 – 1,6 – 3,2 – 3,9 – 2,1 – 2,8 – 3,9 – 4,2 – 4,0 - 3,9 – 2,2 – 2,1 – 4,0 – 3,5 – 2,0 – 3,9 – 2,5 – 3,9 – 2,2

Si se considera que un pollo con peso menor a 2 kg no debería estar a la venta, ¿qué porcentaje de pollos no cumplen con lo establecido?

Page 57: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 56 de 75

g) La siguiente tabla relaciona las ausencias al trabajo de 50 obreras, durante el mes de

octubre, en la fabrica de confecciones "la hilacha": Sectores 1 0 2 1 3 1 4 3 2 5 3 2 4 2 0 3 1 2 0 2 1 1 0 1 0 0 1 2 1 3 4 0 2 3 2 0 0 2 5 2 2 4 2 1 3 1 2 2 1 0

h) Años de experiencia de las 50 operarias de la fabrica de confecciones "la hilacha":

Bastones

4 6 5 6 4 6 5 5 6 5 5 5 8 8 8 6 9 6 5 7 7 9 3 2 7 4 5 7 7 3 6 7 7 7 8 3 6 6 7 6 4 6 8 5 6 6 7 5 7 4

Ordene la Información y responda:

I. ¿Qué porcentaje de las obreras tiene experiencia inferior a 5 años? II. ¿Que porcentaje tiene experiencia entre 4 y 7 años (incluyendo los extremos)?

1. Calificaciones Obtenidas por 130 Estudiantes en un Examen de Estadística: Histograma

5. Los datos de la siguiente tabla registran el puntaje obtenido por 40 estudiantes en dos exámenes para ingresar a la carrera de Ingeniería de la UNCa., en el año 1996. Los estudiantes están clasificados según la escuela secundaria de la que egresaron (1: Escuela Fray Mamerto Esquiú; 2: Escuela Clara J. Amstrong; 3: Colegio del Carmen y San José; 4: Colegio Quintana; 5: Instituto Superior FASTA) y por sexo.

27 36 36 20 43 26 41 27 32 36 36 14 30 36 16 48 36 44 36 22 45 32 37 28 37 36 37 49 29 31 22 33 33 41 32 39 17 38 31 21 23 31 26 28 45 27 36 41 22 26 42 36 28 31 42 42 12 31 41 22 32 39 36 37 31 31 35 24 33 42 13 33 26 42 26 41 26 37 25 26 37 37 29 46 31 25 31 38 25 32 33 17 34 23 26 18 19 31 27 33 26 38 38 31 20 41 32 27 40 31 27 41 31 36 15 16 36 22 21 27 40 21 32 27 21 32 32 42 32 31

Escuela/Colegio Sexo Examen 1 Examen 2 1 M 79 50 3 V 88 60 1 M 62 76 2 V 58 19 2 V 56 42 3 M 90 54 1 M 88 90 5 V 90 65 3 M 86 78 3 V 100 60 1 V 57 42 2 M 40 80 2 V 58 100

Page 58: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 57 de 75

i. Realice una tabla de frecuencias y la tabla dinámica según corresponda: a) Sexo. b) Escuela. c) Puntaje del examen 1 por escuelas. d) La frecuencia de mujeres para el puntaje del examen 1. e) La frecuencia de varones para el puntaje del examen 2. f) Puntaje del examen 1 según sexo. g) Sexo por escuela secundaria de la que egresaron.

ii. Construya el gráfico que considere apropiado para representar la información de las

tablas estadísticas realizadas en los incisos f) y g).

2 V 59 68 3 M 49 97 4 V 57 23 4 M 54 72 3 V 25 80 3 M 80 90 5 V 39 66 3 M 88 80 2 M 74 90 3 V 91 90 5 V 32 60 4 V 21 73 4 V 59 25 2 M 17 54 1 V 60 63 4 M 54 100 5 V 43 65 5 M 18 53 5 V 41 73 4 M 50 90 1 M 65 29 1 M 76 50 2 V 67 73 5 V 66 65 2 M 57 61 1 V 68 73 4 M 41 55

Page 59: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 58 de 75

Trabajo Práctico N° 2 1. Una fábrica de aparatos electrónicos ha comenzado un estudio para mejorar su eficiencia.

Para ello efectuó un relevamiento en la sección de armado de televisores durante 9 días sucesivos. La cantidad de televisores armados diariamente fueron:

30-20-50-80-40-50-60-30-70 Calcula la mediana de la variable cantidad de televisores armados diariamente.

2. Un centro de Salud Infantil desea llevar a cabo una campaña de prevención de la hepatitis A. Uno de los requerimientos más importantes será establecer la distribución de los casos detectados en la Provincia por edad. Los registros ofrecidos por la correspondiente Oficina de Estadística fueron:

Calcula la mediana y la moda correspondiente a la variable “edad del paciente infectado con hepatitis A”.

3. La siguiente tabla muestra las edades de 100 jefes de hogar: Edad Frecuencia 10-19 10 20-29 15 30-39 25 40-49 20 50-59 18 60-69 12

a) Las edades de los jefes de hogar entrevistados oscilan entre _________ años y

__________ años. b) El ________ % de los jefes de hogar tienen menos de 40 años. c) Los jefes de hogar con más de 30 años son ________ y representan el ________ % del

total. d) El intervalo de edad más frecuente es el que abarca las edades de ________ a

________ años. e) El promedio de edad de los jefes de hogar es de ________ años. ¿Es el promedio

mayor a la mediana? _______. f) De acuerdo a las medidas de tendencia central calculadas en el punto anterior, se

puede decir que la distribución de la edad es (simétrica, asimétrica derecha/izquierda) _____________________.

g) Construye el histograma de frecuencias y comente acerca de su forma ___________________________________.

Page 60: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 59 de 75

4. El Jefe de Ventas de una compañía desea evaluar el desempeño de su personal a través de su habilidad para encontrar nuevos clientes. Por ello elige al azar a 6 vendedores que tienen entre 1 y 3 años de servicio en la empresa, otros 6 con 4 a 5 años de antigüedad y otros 6 con más de 6 años de servicio. Luego, evalúa su actividad considerando la cantidad de nuevos clientes aportados durante un período de 1 año. Los resultados registrados para cada vendedor fueron los siguientes:

Grupo 1: 40 - 32 - 25 - 35 - 30 - 36 Grupo 2: 32 - 31 - 20 - 27 - 28 - 30 Grupo 3: 41 - 38 - 34 - 40 - 36 - 39

Calcula el promedio de clientes nuevos en cada grupo seleccionado y analiza la variabilidad de cada grupo.

5. Dos profesores, A y B, de una misma asignatura, utilizan la puntuación 50 como mínimo para aprobar su asignatura. En determinada convocatoria los 300 alumnos de cada profesor se distribuyeron del siguiente modo:

Puntuación fA fB

0 – 14 15 18

14 – 28 20 22

28 – 42 65 55

42 – 56 125 85

56 – 70 31 70

70 – 84 25 35

84 – 98 19 15

a) Calcula los porcentajes de los alumnos de cada profesor que aprueban en esta

convocatoria. b) ¿Qué puntuación es superada por el 75% de los alumnos en cada clase?

6. A una prueba de selección, para ocupar 15 plazas de auxiliar administrativo, se presentan 60 personas. Los resultados obtenidos aparecen a continuación:

Intervalos de clase Frecuencias

70 – 74 7

74 – 78 8

78 – 82 8

82 – 86 17

86 – 90 9

90 – 94 11

a) ¿Qué puntuación mínima se necesita para aprobar? b) Calcular la puntuación que deja por encima 30 sujetos. c) Obtener la puntuación que separa al 70% mejor del resto de los sujetos.

Page 61: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 60 de 75

7. Se analiza el rendimiento de 2 alumnos a lo largo de todo el año lectivo, en base a las notas obtenidas.

Alumno 1 : Daniela Alumno 2: Raúl Nota Cant. de notas Nota Cant. de notas

2 1 2 0 4 2 4 8 5 1 5 5 6 4 6 4 7 6 7 2 8 4 8 1 9 2 9 0 10 2 10 0

Si bien Daniela tiene mejor promedio, la profesora felicitó a Raúl por haber mantenido su rendimiento más homogéneo. ¿Cómo se explica esto? 8. En una empresa trabajan 120 personas, aglutinadas en distintas categorías.

Sueldo promedio Alta Dirección 5 $2.500

Administrativos 20 $900 Operarios 95 $550

¿Cuál es el sueldo promedio de toda la empresa? 9. Las edades de los empleados de una determinada empresa se presentan a continuación:

Edades Cant. de empleados [20; 25) 2 [25; 30) 3 [30; 35) 4 [35; 40) 20 [40; 45) 5 [45; 50] 1

Calcule la media aritmética, mediana, modo, varianza, la desviación estándar y el coeficiente de variación. 10. La variación en los ingresos anuales de los ejecutivos de una empresa se desea comparar

con la variación en los ingresos de los empleados no calificados. Para una muestra de ejecutivos el promedio de los ingresos es $500.000 y la varianza es $2.500.000.000. Para una muestra de empleados no calificados, el promedio es $32.000 y la desviación estándar, $3.200.

11. En los siguientes casos indicar, qué medida de tendencia central convendría aplicar y por qué:

a) Pacientes internados clasificados según servicio:

Servicio Pacientes

Clínica Cirugía

Maternidad Pediatría

35 27 43 29

Page 62: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 61 de 75

b) Defunciones del departamento Andalgalá, clasificadas según edad en el año 1.993:

Edad Defunciones

0 – 5 5 – 10 10 – 15 15 – 20 20 – 25 25 – 30 30 – 35

423 23 43 61 487 500 687

Total 2.224

c) Edad de 5 pacientes: 15 – 14 – 12 – 10 - 57

Page 63: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 62 de 75

Trabajo Práctico N° 3 1. Para cada uno de los siguientes casos, diga si los eventos que se citan son i) mutuamente

excluyentes, ii) colectivamente exhaustivos. a) A los votantes registrados se les preguntó si era peronistas o radicales. b) Los encuestados se clasificaron como propietarios de automóviles con chapa A, B, C, D,

E, F, G o ninguno. c) A las personas que se encontraban en un restaurante se les preguntó: “¿Actualmente

vive en i) un departamento, ii) una casa?” 2. Una encuesta entre 34 estudiantes de una Facultad de Ciencias Económicas mostró que

tienen las siguientes especializaciones: Contabilidad 10 Finanzas 5 Sistemas de información 3 Administración 6 Mercadotecnia 10

Si se selecciona un alumno: a) ¿Cuál es la probabilidad de que esté especializado en Administración? b) ¿Qué concepto de probabilidad utilizó para hacer este cálculo?

3. Una compañía grande que debe contratar un nuevo presidente prepara una lista final de

cinco candidatos. Dos de ellos son miembros de un grupo minoritario. Para evitar tendencias en la selección del candidato, la compañía decide elegir al presidente mediante un sorteo. a) ¿Cuál es la probabilidad de que uno de los candidatos que pertenece al grupo

minoritario quede contratado? b) ¿Qué concepto de probabilidad utilizó para hacer este cálculo?

4. En cada uno de los siguientes casos, indique si se utilizó la probabilidad clásica o empírica:

a) Un jugador de básquet comete 30 de 50 faltas. La probabilidad de que cometa la siguiente falta es de 0,6.

b) Se toma un comité de estudiantes con siete miembros para estudiar los problemas del ambiente. ¿Cuál es la probabilidad de que cualquiera de los siete sea elegido del vocero?

c) Usted compra uno de los cinco millones de boletos del Loto. ¿Cuál es la probabilidad de que gane el premio acumulado de un millón de pesos?

d) La probabilidad de que ocurra un terremoto en el norte de California durante los próximos seis años es 0,8.

5. Una muestra de 2.000 conductores con licencia reveló el siguiente número de violaciones del límite de velocidad.

Número de violaciones Número de conductores 0 1.910 1 46 2 18 3 12 4 9

5 o más 5 Total 2.000

a) ¿Cuál es el experimento? b) Mencione un evento posible. c) ¿Cuál es la probabilidad de que un conductor en particular haya cometido exactamente

dos violaciones al límite de velocidad? d) ¿Qué concepto de probabilidad ilustra lo anterior?

Page 64: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 63 de 75

6. Se seleccionó una muestra de 40 ejecutivos en la industria petrolera para que contestaran un cuestionario. Una pregunta sobre los problemas del ambiente requería de una respuesta de sí o no. a) ¿Cuál es el experimento? b) Mencione un evento posible. c) Diez de los 40 ejecutivos respondieron que “sí”. En base a estas respuestas, ¿cuál es la

probabilidad de que un ejecutivo de la industria petrolera respondiera que “sí”? d) ¿Qué concepto de probabilidad ilustra lo anterior? e) ¿Cada uno de los resultados posibles son igualmente probables? ¿Y mutuamente

excluyentes?

7. Los eventos A y B son mutuamente excluyentes. Si jFkG � 0,3 y jFpG � 0,2. ¿Cuál es la probabilidad de que ocurra A o B? ¿Cuál es la probabilidad de que no ocurra A?

8. Un estudio de 200 cadenas de supermercados reveló estos ingresos sin impuestos: Ingresos sin impuestos Número de empresas

Menos de $1.000.000 102 $1.000.000 a $20.000.000 61

$20.000.000 o más 37 a) ¿Cuál es la probabilidad de que una cadena particular tenga menos de $1.000.000 en

ingresos? b) ¿Cuál es la probabilidad de que una cadena seleccionada en forma aleatoria tenga un

ingreso entre $1.000.000 y $20.000.000, o un ingreso de $20.000.000 o más? ¿Qué regla de probabilidad se aplicó?

9. El presidente de la junta de directores dice: “Hay una probabilidad de 0,5 de que esta compañía obtenga una ganancia, de 0,3 de que quede igual y de 0,2 de que pierda dinero durante el próximo trimestre. a) Utilice la regla de la adición para calcular la probabilidad de que no pierdan dinero el

próximo trimestre. b) Utilice la regla del complemento para calcular la probabilidad de que no pierdan dinero

el próximo trimestre.

10. Se lanzan al aire dos monedas. Si A es el evento “dos caras” y B es el evento “dos cruces”, ¿A y B son mutuamente excluyentes? ¿Son complementarios?

11. Las probabilidades de los eventos A y B son 0,3 y 0,2 respectivamente. La probabilidad de que ocurran A y B es 0,15. ¿Cuál es la probabilidad de que ocurra A o B?

12. Se utiliza un mazo de póker para jugar. Se mezcla toda la baraja completamente y usted

recibe las dos primeras cartas de la baraja sin reemplazo: a) ¿Cuál es la probabilidad que ambas cartas sean reinas? b) ¿Cuál es la probabilidad que la primera carta sea un 10 y la segunda sea un 5 o 6? c) Si estuviéramos muestreando con reemplazo, ¿cuál sería la respuesta en la parte a)?

13. Una caja de nueve guantes de arquero contiene dos guantes izquierdos y siete guantes derechos: a) Si se seleccionan dos guantes aleatoriamente de la caja sin reemplazo, ¿cuál es la

probabilidad de que: i) ambos guantes seleccionados sean derechos?; ii) se seleccione un guante derecho y uno izquierdo? ; iii) se seleccionen dos guantes de la misma mano?

b) Si se seleccionan tres guantes, ¿cuál es la probabilidad que los tres sean izquierdos?

14. La primera carta seleccionada de una baraja de 52 cartas fue un rey. a) Si se regresa al mazo, ¿cuál es la probabilidad de que salga un rey en la segunda

selección?

Page 65: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 64 de 75

b) Si el rey no se devuelve, ¿cuál es la probabilidad de que salga un rey en la segunda selección?

c) ¿Cuál es la probabilidad de que se elijan dos reyes?

15. La probabilidad de que un alumno apruebe Historia es 0,6, y de que apruebe Matemática es 0,7. Sabiendo que la probabilidad de que apruebe ambas materias es 0,5, ¿cuál es la probabilidad de que apruebe al menos una de las dos materias?

16. Una encuesta reveló que 65% de los empresarios leen el diario El Ancasti, 20% La Unión. Además 10% leen ambos diarios. a) ¿Cuál es la probabilidad de que un empresario en particular lea al menos un diario? b) ¿Los eventos son mutuamente excluyentes? Explique su respuesta.

17. Un estudio realizado por la Dirección de Turismo de Córdoba reveló que 50% de los turistas van a Carlos Paz, 40% visitan las Altas Cumbres y 35% van a ambos lugares. a) ¿Cuál es la probabilidad de un turista visite por lo menos una de estas dos atracciones? b) ¿Los eventos son mutuamente excluyentes?

18. Un banco local reporta que 80% de sus clientes tiene una cuenta de cheques, 60% tienen

una cuenta de ahorros y 50% tienen ambos tipos de cuenta. Si elegimos un cliente al azar. a) ¿Cuál es la probabilidad de que tenga una cuenta de cheques o de ahorro? b) ¿Cuál es la probabilidad de que el cliente no tenga ni cuenta de cheques ni de ahorro?

19. Una fábrica de cepillos de dientes envió por accidente tres cepillos de dientes eléctricos

defectuosos a una farmacia, con 17 cepillos que no estaban defectuosos. a) ¿Cuál es la probabilidad de que la farmacia devuelva los primeros dos cepillos que se

vendan por estar defectuosos? b) ¿Cuál es la probabilidad de que los dos primeros cepillos de dientes vendidos no estén

defectuosos?

20. En los últimos años, las compañías de tarjetas de crédito han hecho un esfuerzo agresivo para atraer nuevas cuentas de estudiantes universitarios. Suponga que una muestra de 200 estudiantes apuntó la siguiente información en términos de si el estudiante poseía una tarjeta de crédito y/o una tarjeta de débito: a) Dé un ejemplo de evento simple. b) Dé un ejemplo de evento conjunto. c) ¿Cuál es el complemento de tener una tarjeta

de crédito? d) Construya en diagrama de Venn.

¿Cuál es la probabilidad de que: e) El estudiante tenga una tarjeta de crédito? f) El estudiante no tenga una tarjeta de débito? g) No tenga una tarjeta de crédito y tenga una tarjeta de débito? h) No tenga una tarjeta de crédito ni una tarjeta de débito? i) Tenga una tarjeta de crédito o no tenga una tarjeta de crédito? j) ¿Son los eventos, tener una tarjeta de crédito y tener una tarjeta de débito,

estadísticamente independientes? 21. Se han llevado a cabo numerosos estudios intensivos de la planeación de los consumidores

para la compra de bienes duraderos como televisores, heladeras, lavarropas, estufas y automóviles. En uno de estos estudios, se le preguntó a 1.000 individuos de una muestra aleatoriamente seleccionada si estaban planeando comprar un nuevo televisor en los siguientes 12 meses. Un año después se entrevisto a las misma personas para ver si realmente compraron un nuevo televisor. La respuestas de ambas entrevistas se tabula en la siguiente tabla:

Tarjeta de crédito Tarjeta de débito

Si No Si 60 60 No 15 65

Page 66: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 65 de 75

a) ¿Cuál es el complemento de planear comprar? b) Construya en diagrama de Venn.

¿Cuál es la probabilidad de que en el último año: c) Haya planeado comprar una nueva televisión? d) No haya comprado un nuevo televisor? e) Haya planeado comprar y realmente haya comprado un nuevo televisor? f) Haya planeado comprar y no haya comprado un nuevo televisor? g) No haya planeado comprar o realmente no haya comprado un nuevo televisor? h) Si el encuestado planeó comprara un nuevo televisor, ¿cuál es la probabilidad que

realmente haya comprado un nuevo televisor? i) Determine si planear comprar un nuevo televisor y realmente comprar uno son

estadísticamente independientes. 22. En la provincia de Catamarca se seleccionó una muestra de 500 encuestados para

determinar información respecto al comportamiento de los consumidores. Entre las preguntas formuladas estaba “¿disfruta comprar ropa?” De 240 hombres, 136 respondieron que sí. De las 260 mujeres, 244 respondieron que sí. a) Construya una tabla de 2 × 2 o un diagrama de Venn.

¿Cuál es la probabilidad que un encuestado elegido aleatoriamente: b) Disfrute comprar ropa? c) Sea mujer? d) Sea hombre y disfrute comprar ropa? e) Sea un hombre o no disfrute comprar ropa? f) Suponga que el encuestado elegido disfruta comprar ropa, ¿cuál es, entonces, la

probabilidad que sea hombre?

23. Una compañía ha puesto a disposición de sus empleados (sin costo) amplias instalaciones de un club deportivo que pueden usarse antes del trabajo, durante la hora del almuerzo, después del trabajo y durante los fines de semana. Los registros del último año indican que de 250 empleados, 110 usaron las instalaciones en algún momento. De los 170 hombres empleados por la compañía, 65 usaron las instalaciones. a) Ordene los datos.

¿Cuál es la probabilidad que un encuestado elegido aleatoriamente: b) Sea mujer? c) No haya utilizado las instalaciones del club? d) Sea mujer y haya utilizado las instalaciones del club? e) Sea mujer o hay utilizado las instalaciones del club?

24. Una profesora ha enseñado Estadística Básica durante varios años. Sabe que 80% de los

estudiantes terminan los problemas asignados. También determinó que entre aquellos que hacen las tareas, 90% aprueban la materia. Entre los alumnos que no hacen su tarea, 30% aprueban. El semestre pasado Javier Molina cursó la materia con esta profesora y obtuvo una calificación aprobatoria. ¿Qué probabilidad hay de que haya terminado sus tareas?

25. En un programa de empleados que reciben capacitación administrativa, 80% de los alumnos son mujeres. De las mujeres, 90% y 78% de los hombres asistieron a la Universidad. a) Se selecciona a un alumno al azar, ¿cuál es la probabilidad de que la persona elegida

sea una mujer que asistió a la Universidad? b) ¿Cuál es la probabilidad de que un alumno seleccionado sea mujer sabiendo que asistió

a la universidad?

Compradores No compradores Totales Planeaban comprar 200 50 250

No planeaban comprar 100 650 750 Totales 300 700 1.000

Page 67: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 66 de 75

26. Un ejecutivo de publicidad está estudiando los hábitos de mujeres y hombres casados de ver televisión durante un cierto horario. Basándose en registros anteriores, ha determinado que durante ese horario los esposos ven televisión 60% de ese tiempo. También se ha determinado que cuando el esposo está viendo televisión, 40% del tiempo también lo hace la esposa. Cuando el esposo no está viendo televisión, 30% del tiempo la esposa si lo hace. Encuentre la probabilidad que: a) Si la esposa esté viendo televisión, el esposo también lo esté haciendo. b) La esposa esté viendo televisión durante ese cierto horario. c) La esposa no esté viendo televisión durante ese cierto horario.

27. El gerente de comercialización de una compañía fabricante de juguetes está planeando

introducir un nuevo juguete en el mercado. En el pasado, 40% de los juguetes introducidos por la compañía han tenido éxito y 60% no lo han tenido. Antes de que se comercialice el juguete, se lleva a cabo un estudio de mercado y se compila un informe, ya sea favorable o desfavorable. Anteriormente, 80% de los juguetes exitosos recibieron informes favorables y 30% de los juguetes no exitosos también han recibido informes favorables. a) Suponga que el estudio de mercado da un informe favorable sobre un nuevo juguete,

¿cuál es la probabilidad de que un nuevo juguete tenga éxito? b) ¿Qué proporción de los juguetes nuevos reciben informes desfavorables de estudios de

mercado? 28. El estudio de una compañía de seguros indica que le 47% de los productores rurales de un

departamento sufrió pérdidas por granizo en el año pasado, de estos un 40% volvió a sufrir pérdidas este año. De aquellos que el año pasado no tuvieron problemas con el graniza el 65% este año los tuvieron. a) ¿Qué porcentaje no sufrió pérdidas el año pasado? b) ¿Qué porcentaje no sufrió pérdidas este año? c) ¿Qué porcentaje no sufrió pérdidas? d) ¿Cuál es la probabilidad que un productor que se ha visto perjudicado este año, haya

sufrido pérdidas el año pasado?

29. En una casa hay tres llaveros A, B y C; el primero con cinco llaves, el segundo con siete y el tercero con ocho, de las que sólo una de cada llavero abre la puerta del garaje. a) ¿Cuál es la probabilidad de que se acierte con la llave? b) ¿Cuál es la probabilidad de que el llavero escogido sea el tercero y la llave no abra? c) Si la llave escogida es la correcta ¿cuál es la probabilidad de que pertenezca al llavero A?

29. Un servicio de tasación de bonos municipales tiene tres categorías de tasación (A, B, y C). Suponga que el año pasado, de los bonos municipales emitidos a lo largo del país, 70% fueron tasados como A, 20% fueron tasados como B y 10% fueron tasados como C. De los bonos municipales tasados como A, 50% fueron emitidos por ciudades, 40% por suburbios y 10% por áreas rurales. De los bonos municipales tasados como B, 60% fueron emitidos por ciudades, 20% por suburbios y 20% por áreas rurales. De los bonos municipales tasados como C, 90% fueron emitidos por ciudades, 5% por suburbios y 5% por áreas rurales. a) Si una ciudad ha de emitir un nuevo bono municipal, ¿cuál es la probabilidad de que este

reciba una tasación A? b) ¿Qué proporción de los bonos municipales son emitidos por ciudades? c) ¿Qué proporción de los bonos municipales son emitidos por suburbios?

Page 68: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 67 de 75

Trabajo Práctico N° 4

1. Supongamos que se planifica un estudio de las familias que tiene tres hijos. Registramos, en consecuencia, el sexo de cada hijo por orden de nacimiento. a) Realice una lista con los posibles resultados siendo V = varón y M = mujer. b) Suponiendo que todos los resultados posibles tienen la misma probabilidad de ocurrir, y

definiendo la variable aleatoria como X = cantidad de hijas mujeres por familia, determine los valores posibles que asume la variable aleatoria X.

c) Calcule la función de probabilidad de X. d) Calcule la esperanza matemática, la varianza y la desviación estándar de la variable

aleatoria X.

2. Un operador económico ha realizado un estudio del comportamiento en el mercado, de dos acciones muy importantes a las que denominó P y Q. La posible evolución en el futuro de cada una de esas acciones fue clasificada por el operador como: � Baje más del 1% (en esta situación pierde $10) � Se mantenga sin variantes (no pierde ni gana) � Suba más del 1% (gana $50) Las correspondientes funciones de probabilidad calculadas fueron:

Teniendo en cuenta la función práctica de la esperanza matemática como valor esperado de la variable, ¿con cuál de las dos acciones el operador económico espera obtener, en promedio, una mayor ganancia?

3. Sabemos que el número de unidades producidas por una fábrica es una variable aleatoria

que presenta la siguiente función de distribución:

a) Verifique si p(x) es una distribución de probabilidad.

b) Determine la esperanza matemática y la varianza.

c) Obtenga )5( ≤xp .

4. Dada la siguiente función:

=

=

valorotrotodopara

xparakxp

x

;0

5,4,3,2,12

1)(

a) Obtenga el valor de k para que la función sea una distribución de probabilidad. b) Grafique. c) Obtenga:

i. )53( ≤≤ xp

ii. )3( >xp

5. Dada la función:

=−

=valorotrotodopara

xparax

xp;0

7,6,5,410

3)(

Acción Q

ix )( ixp

-10 ½ 0 ¼ 50 ¼ Total 1

Acción P

ix )( ixp

-10 ¼ 0 ½ 50 ¼

Total 1

==

valorotrotodopara

xparaxxp

;0

6,5,46215,1

)(

Page 69: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 68 de 75

Responda: a) ¿Es una distribución de probabilidad? b) Grafique. c) Calcule la esperanza matemática, la varianza y la desviación estándar. d) Calcule: )75( <≤ xP ; )84( ≤< xP ; )93( ≤≤ xP .

6. La siguiente tabla ilustra la distribución de probabilidad para los premios en efectivo de

un sorteo: Si usted compra un solo cartón, ¿cuál es la probabilidad de que gane: a) exactamente $100? b) por lo menos $10? c) no más de $100? d) Calcule la esperanza matemática y la desviación

estándar.

7. El director técnico del equipo de fútbol América sabe, por experiencia, que su delantero estrella, el chileno Iván Zamorano, anota aproximadamente cuatro de cada cinco tiros de penales que ejecuta.

a) ¿Cuál es la probabilidad de que falle como máximo dos de cinco penales? b) ¿Qué es más probable: que falle como máximo dos de cinco penales, o que falle como

máximo cuatro de diez penales? c) ¿Cuál es la probabilidad de que falle sólo un penal en una serie de cinco tiros?

8. Suponga que aproximadamente 1/3 de los legisladores de México (diputados y

senadores) terminaron la educación primaria. Halle la probabilidad de que de cuatro legisladores mexicanos elegidos al azar los cuatro hayan concluido la educación primaria.

9. Una población consta de diez elementos, de los cuales seis están defectuosos. En una muestra de tres elementos, ¿cuál es la probabilidad de que exactamente dos estén defectuosos? Suponga que las muestras no se reponen.

10. Una población consta de 15 elementos, de los cuales 4 son aceptables. En una muestra

de 4 elementos, ¿cuál es la probabilidad de que exactamente 3 sean aceptables? 11. Una casa de electrodomésticos acaba de recibir un cargamento con diez reproductores de

DVD. Poco después de recibirlo, el fabricante llamó para comunicar que por error enviaron tres unidades defectuosas. La propietaria del negocio, decidió probar dos de los diez reproductores de DVD que recibió. ¿Cuál es la probabilidad de que ninguno de los dos reproductores de DVD probados estén defectuosos? Suponga que las muestras son sin reemplazo.

12. Suponga que un futbolista brasileño anota un promedio de 1.2 goles por partido

jugado. Determine la probabilidad de que en un partido cualquiera, este futbolista anote: a) dos goles. b) por lo menos un gol.

13. El número promedio de camiones que llegan en un día cualquiera a una terminal, en

cierta ciudad, es de 12. Si las llegadas de camiones son aleatorias e independientes, ¿cuál es la probabilidad de que en un día dado lleguen menos de nueve camiones a ese paradero?

14. El Departamento de Computación tiene 8 profesores, de los cuales 6 están ocupados. La

presidenta decide formar un comité de 3 profesores del departamento para que revisen el plan de estudio. Si selecciona el comité al azar: a) ¿Cuál es la probabilidad de que todos los miembros del comité estén ocupados?

Premio ($) Probabilidad 0 0,45 10 0,30 100 0,20 500 0,05

Page 70: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 69 de 75

b) ¿Cuál es la probabilidad de que al menos uno no esté ocupado?

15. Un estudio realizado en una universidad reveló que aproximadamente el 40% de los alumnos de maestría están casados. Si X es el número de alumnos de maestría casados, para una muestra aleatoria de 100 estudiantes de maestría obtenga la media y la desviación estándar de X.

16. Un ingeniero en seguridad automotriz afirma que uno de cada diez accidentes

automovilísticos son causados por fatiga del conductor. Calcule la probabilidad de que al menos tres de cinco accidentes automovilísticos sean causados por fatiga del conductor.

17. Noventa por ciento de los árboles plantados por una empresa de jardinería sobreviven.

¿Cuál es la probabilidad de que sobrevivan ocho o más de los 10 árboles que acaban de ser plantados?

18. La empresa IVESS tiene 15 camiones de entrega, de estos 6 tiene problemas con los

frenos. Se selecciona al azar una muestra de 5 camiones, ¿cuál es la probabilidad de que dos de estos camiones probados tengan frenos defectuosos?

19. El profesor Hammer tiene un conjunto de 15 preguntas de opción múltiple relacionadas

con las distribuciones de probabilidad. Cuatro de estas preguntas se relacionan con la distribución hipergeométrica. ¿Cuál es la probabilidad de que por lo menos una de estas preguntas sobre distribución hipergeométrica aparezca en un examen de cinco preguntas en el próximo examen?

20. A un seminario sobre enzimas asistieron siete científicos, de los cuales tres son químicos

y cuatro biólogos. Se desea escoger un comité de cinco al azar, para visitar unos laboratorios. Determine la probabilidad de que vayan los cuatro biólogos.

21. Si la probabilidad de que una computadora se infecte con un virus cibernético es de

0.001, determine la probabilidad de que de un total de 2000 computadoras de una empresa, exactamente tres se infecten.

22. El promedio de visitas que recibe en su oficina el gerente de una empresa es de 6 al día.

Calcule la probabilidad de que en un día cualquiera, dicho gerente reciba en su oficina: a) a lo sumo cuatro visitas b) entre cinco y diez visitas inclusive

23. Cada año 0.06% niños de un país reciben una beca al obtener excelentes calificaciones. En total son 3000 niños los que optan por este beneficio. Calcule la probabilidad de que se otorguen más de tres becas en un año dado.

24. Dada una variable aleatoria continua Z, con distribución normal estándar, encuentre las siguientes probabilidades, usando la tabla: a) ( )2−≤ZP

b) ( )2−<ZP

c) ( )17,1−<ZP

d) ( )81,2≥ZP e) ( )62,191,1 ≤<− ZP

25. Si X es una variable aleatoria con distribución N(25,25), encuentre: a) el área bajo la curva normal a la izquierda de x =20 b) el área bajo la curva normal a la derecha de x =15 c) el área bajo la curva normal comprendida entre x =12 y x = 24.6

26. El porcentaje de grasa de cierta marca de queso es una variable aleatoria que sigue una

distribución normal con media µ = 4.35% y desviación estándar σ = 0.59%. Para una porción de este queso, elegida al azar, calcule la probabilidad de que el contenido de grasa sea de por lo menos 5.5%.

Page 71: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 70 de 75

27. Una distribución normal tiene una media 50 y una desviación estándar de 4. a) Calcule la probabilidad de un valor entre 44.0 y 55.0. b) Calcule la probabilidad de un valor mayor que 55.0. c) Calcule la probabilidad de un valor entre 52.0 y 55.

28. Una población normal tiene una media de 80.0 y una desviación estándar de 14. a) Calcule la probabilidad de un valor entre 75.0 y 90.0. b) Calcule la probabilidad de un valor de 75.0 o menos. c) Calcule la probabilidad de un valor entre 55.0 y 70.0.

29. Una máquina expendedora de bebidas de coca cola está ajustada para servir un promedio

de 250 ml por vaso. La desviación estándar es 10 ml. La distribución de cantidades servidas sigue una distribución normal. a) ¿Cuál es la probabilidad de que la máquina sirva entre 260 y 275 ml de bebida? b) ¿Cuál es la probabilidad de que la máquina sirva 275 ml o más? c) ¿Cuál es la probabilidad de que la máquina sirva entre 230 y 260 ml de bebida?

30. Los montos de dinero que se piden en las solicitudes de préstamos caseros siguen la

distribución normal con una media de $100 000 y una desviación estándar de $ 20.000. Esta mañana se recibió una solicitud de préstamo. ¿Cuál es la probabilidad: a) de que el monto solicitado sea $110 000 o más? b) de que el monto solicitado esté entre $80 000 y $90 000? c) de que el monto solicitado sea $80 000 o más?

31. Una estación de AM totalmente dedicada a transmitir noticias, encuentra que la dis-

tribución del tiempo que los oyentes sintonizan la estación sigue una distribución normal con media de 15 minutos y una desviación estándar de 3,5 minutos. ¿Cuál es la probabilidad de que un oyente en particular sintonice la estación en: a) más de 20 minutos? b) por 20 minutos o menos? c) entre 10 y 12 minutos?

Page 72: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 71 de 75

TRABAJO PRÁCTICO Nº 5: INTERVALOS DE CONFIANZA

1. Para llegar a una negociación sindical adecuada se requiere un estimador preciso del salario actual de los empleados sindicalizados. Un agente laboral tomó una muestra de 60 elevadoristas sindicalizados. En esta muestra se encontró una media y una desviación estándar del salario semanal de los elevadoritas muestreados de $147.45 y $ 11.60 respectivamente. Determine un intervalo de confianza del 95% para el salario semanal promedio de todos los elevadorcitas sindicalizados.

2. Una liga nacional de sindicatos obreros necesita estimar la proporción de obreros no

sindicalizados que estaría a favor de una huelga nacional. Sesenta de 200 obreros entrevistados en centros laborales no sindicalizados se encontraron a favor de la huelga. Estime la proporción de obreros no sindicalizados que están a favor de la huelga con un intervalo de confianza del 80%.

3. La utilidad por cada auto nuevo vendido por un vendedor varía de auto a auto. La utilidad

promedio por venta registrada en la semana pasada fue (en cientos de dólares). 2,1 3,0 1,2 6,2 4,5 5,1 Calcule un intervalo de confianza del 90% para la utilidad promedio por venta. 4. Un estudio de 50 ejecutivos a los que se despidió de su trabajo anterior reveló que

tardaron una media de 26 semanas en encontrar otro empleo. La desviación estándar de la muestra fue de 6,2 semanas. Construya un intervalo de confianza del 92% para la media de la población. ¿Sería razonable que la media de la población es 28 semanas? Justifique su respuesta.

5. Se planea realizar una encuesta para saber qué proporción de la fuerza laboral tiene dos o

más empleos. Una encuesta piloto revela que 5 de cada 50 participantes de la muestra tiene dos o más empleos. Con un nivel de confianza del 95 %, elabore el intervalo de confianza para la proporción de la población.

6. Un nutricionista de animales desea estimar el contenido vitamínico de un alimento. Se

toma una muestra de 49 y se encuentra que el contenido promedio en 100 gramos de alimento es de 12 mg de vitaminas. Se estima que la desviación estándar es de 2 mg. Encontrar un intervalo de confianza del 99% para el promedio de vitamina.

7. Un organismo de control ambiental, con motivo de denuncias reiteradas presentadas por

vecinos de una fábrica, decide investigar el ruido que producen camiones pesados que circulan por una determinada calle. Para ello se toma una muestra de 20 camiones registrando sus respectivos niveles de ruido (en decibeles). Los resultados obtenidos fueron los siguientes:

85.4 86.8 86.1 85.3 84.8 86.0 85.9 86.0 85.2 83.9 87.0 84.8 86.2 86.8 86.0 85.7 85.9 84.3 85.6 86.1

Estime a partir de estos resultados muestrales, el verdadero promedio de ruido de la población objetivo determinada.

Page 73: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 72 de 75

TRABAJO PRÁCTICO Nº 6: CORRELACIÓN Y REGRESIÓN LINEAL 1. Las siguientes observaciones en una muestra se seleccionaron al azar:

X 4 5 3 6 10 Y 4 6 5 7 7

a) Determine el coeficiente de correlación y el coeficiente de determinación. Interprete sus resultados.

b) Determine la ecuación de la recta de regresión. c) Determine el valor de Y’ cuando X es 7.

2. Las siguientes observaciones en una muestra se seleccionaron al azar:

X 5 3 6 3 4 4 6 8 Y 13 15 7 12 13 11 9 5

a) Determine el coeficiente de correlación y el coeficiente de determinación. Interprete la asociación entre X e Y.

b) Determine la ecuación de la recta de regresión. c) Determine el valor de Y’ cuando X es 7.

3. El departamento de producción de una fábrica de electrodomésticos quiere investigar la

relación entre el número de empleados que arman una pieza de subensamblaje y el número producido. Como experimento, a dos empleados se le asigna la tarea de armar piezas de subensamblaje. Produjeron 15 durante un período de una hora. Luego, las armaron 4 empleados, y produjeron 25 en una hora. A continuación se muestra el conjunto total de observaciones por pares:

Número de ensambladores Producción de una hora (unidades) 2 15 4 25 1 10 5 40 3 30

a) ¿Cuál es la variable dependiente y cuál la independiente? b) Elabore un diagrama de dispersión. c) Con base en el diagrama de dispersión, ¿parece existir alguna relación entre le número

de empleados y la producción? Explique su respuesta. d) Evalúe la fuerza de la relación calculando el coeficiente de determinación. e) Determine la recta de regresión. f) Calcule el número de unidades producidas si la cantidad de ensambladores fueran 10.

4. Se está considerando aumentar el número de policías en la ciudad de Pine Bluffs (Estados Unidos) en un esfuerzo por reducir el asalto a mano armada. Antes de tomar una decisión definitiva, se le pide al jefe de la policía que realice una encuesta entre otras ciudades de tamaño similar para determinar la relación entre el número de policías y el número de asaltos. El jefe recopiló la siguiente información sobre la muestra:

Ciudad Policías Nº de asaltos Oxford 15 17

Starksville 17 13 Danville 25 5 Athens 27 7 Holgate 17 7 Carey 12 21

Whistler 11 19 Woodville 22 6

Page 74: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 73 de 75

a) Si queremos calcular el número de asaltos con base al número de policías, ¿qué variable es la dependiente y cuál la independiente?

b) Elabore un diagrama de dispersión. c) Determine el coeficiente de correlación y el de determinación. d) Interprete las medidas calculadas en el inciso anteriores. ¿Le sorprende que la relación

sea inversa? e) Determine la ecuación de regresión. f) En una ciudad con 30 policías, ¿cuántos asaltos a mano armada se espera que ocurran? g) Si en una ciudad ocurrieron 15 asaltos, ¿con cuántos policías contará?

5. El dueño de una fábrica quiere estudiar la relación entre la edad de sus empleados y su rendimiento. Para eso mide la cantidad de productos elaborados por hora por cada empleado. A continuación se presenta una muestra aleatoria de 12 empleados.

Edad Productos elaborados

35 8 37 6 40 3 39 4 45 5 25 10 32 7 41 8 39 8 27 6 30 8 45 8

a) Si se quiere calcular la producción con base a la edad del empleado, ¿qué variable es la

dependiente y cuál la independiente? b) Elabore un diagrama de dispersión. c) Determine el coeficiente de determinación. d) Determine la ecuación de la recta de regresión y grafíquela en el mismo eje de

coordenadas del inciso b). e) Para un empleado de 28 años, ¿cuál será su producción por hora? ¿Y para uno de 38

años? f) Si el gerente está por tomar un nuevo empleado y se presentaron 5 personas de las

siguientes edades: 22 – 27 – 30 – 45 – 32, ¿cuál le conviene tomar? g) Para un empleado de 42 años, ¿cuál será su producción en 2 horas de trabajo?

Page 75: Apunte de Estadística 2014

Instituto Superior “F.A.S.T.A. Catamarca” Carrera: Tecnicatura Superior en Higiene y Seguridad en el Trabajo Curso: 2° Año Cátedra: Estadística Docente: Prof. Adriana Ayelén Quiroga Hahn

Página Nº 74 de 75

BIBLIOGRAFÍA • Douglas Lind, William Marchal, Samuel Wathen: “Estadística Aplicada a los Negocios y a la

Economía”. Editorial Mc Graw Hill, 2.005.

• Norma Rodriguez, Lucía Cuello, Marcelo Sosa, Ilda Rojas: “Estadística Descriptiva con

Microsoft Excel”. Editorial Sarquís, 2.006.

• Instituto Nacional de Estadística y Censo: “La salud a través de las encuestas a hogares en

la Argentina”. INDEC, 2.003

• Berenson Mark L., Krehbiel Timothy C., Levine David M.: “Estadística para Administración”.

Editorial PEARSON EDUCACIÓN, 2001.

• José Roberto Toraglio: “Estadística y Biometría”. Apuntes Teóricos de clase, 2.009.

• Julián De La Horra Navarro: “Estadística Aplicada”. Editorial Díaz de Santos, 2003.