00/01 - Introduccion al curso y a la estadística descriptiva

download 00/01 - Introduccion al curso y a la estadística descriptiva

If you can't read please download the document

description

Qué es la estadística?Qué es la teoría de probabilidades?Qué es la estadística descriptiva?Qué es la estadística inferencial------------------------------------------------------------Definiciones básicasMedidas de tendencia no centralMedidas de tendencia centralMedidas de dispersiónMomentosRepresentación gráfica de la informaciónHistogramas

Transcript of 00/01 - Introduccion al curso y a la estadística descriptiva

  • 1. 00 Introduccin a la estadstica y teora de probabilidades
      • Diego Andrs Alvarez Marn
    • Profesor Asistente
    • Universidad Nacional de Colombia
    • Sede Manizales

2. Contenido

  • Qu es la estadstica?
  • Qu es la teora de probabilidades?
  • Qu es la estadstica descriptiva?
  • Qu es la estadstica inferencial

3. Estadstica

  • Es la rama matemtica relacionada con la coleccin, el anlisis, la interpretacin (o explicacin) y la representacin de datos.

4. Teora de probabilidades vs Estadstica

  • Lateora de probabilidadeses la rama de la matemtica relacionada con el anlisis de fenmenos aleatorios; esta se desarroll como un modelo abstracto y sus conclusiones y deducciones estn basados enaxiomas .
  • Laestadsticase basa en la aplicacin de la teora de probabilidad a problemas reales y sus conclusiones son inferencias basadas enobservaciones .

5. Ramas de la estadstica

    • La estadstica se divide en dos ramas:
    • Estadstica descriptiva
    • Estadstica inferencial

6. Estadstica descriptiva

    • La estadstica descriptiva se dedica a los mtodos de recoleccin, descripcin, visualizacin y resumen de datos originados a partir de los fenmenos en estudio. Los datos pueden ser resumidos en forma numrica y/o grfica.

7. Estadstica inferencial

    • Esta comprende los mtodos y procedimientos para deducir propiedades (hacer inferencias) de una poblacin, a partir de una pequea parte de la misma (muestra). Se usa para modelar patrones en los datos y extraer inferencias acerca de la poblacin bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hiptesis), estimaciones de caractersticas numricas (estimacin), pronsticos de futuras observaciones, descripciones de asociacin (correlacin) o modelamiento de relaciones entre variables (anlisis de regresin).

8. Estadstica descriptiva vs. Estadstica inferencial

    • La diferencia entre la estadstica descriptiva y la estadstica inferencial es que la primera intenta resumir los datos de forma cuantitativa mientras que la segunda se usa para sustentar afirmaciones sobre la poblacin que est representada por los datos recopilados.

9. 01 Estadstica descriptiva

    • Diego Andrs Alvarez Marn
    • Profesor Asistente
    • Universidad Nacional de Colombia
    • Sede Manizales

10. Contenido

  • Definiciones bsicas
  • Medidas de tendencia no central
  • Medidas de tendencia central
  • Medidas de dispersin
  • Momentos
  • Representacin grfica de la informacin
    • Histogramas

11. Definiciones

  • Se quiere estudiar unapoblacin . Sin embargo por razones prcticas se analiza unamuestrade la poblacin. Los datos se coleccionan mediante unmuestreooexperimento . Las observaciones de la muestra aleatoria se usan para calcular ciertas caractersticas de la muestra llamadasestadsticas .

12.

  • Poblacin:es el conjunto de elementos de referencia sobre el que se realizan todas las observaciones. La poblacin es la coleccin de toda la informacin que caracteriza un fenmeno.
  • Muestra estadstica (o aleatoria):es un subconjunto representativo de individuos de la poblacin
  • Muestreo:es la tcnica por la cual se selecciona una muestra a partir de una poblacin
  • Unaestadsticaes el resultado de aplicar una funcin a un conjunto de datos.

13. Informacin bsica de un conjunto de datos

  • Mnimo y mximo
  • Percentil
  • Tendencia central
  • Dispersin
  • Momentos

14. Mnimo y mximo (con MATLAB) 15. Mnimo y mximo (con MS EXCEL) 16. Medidas de posicin no central

    • Unpercentiles el valor de una variable bajo el cual un cierto porcentaje de las observaciones caen. De este modo el percentil 20 es el valor bajo el cual el 20% de las observaciones pueden ser encontradas.
    • Algunos tipos de percentiles importantes son:
    • Loscuartiles : percentil 25, 50 (mediana) y 75
    • Losquintiles : percentil 20, 40, 60 y 80
    • Losdeciles : percentiles 10, 20, ..., 90

17. Definiciones de percentil 18. Ejemplo usando la definicin 1

    • Calcule el percentil 70 de los datos
    • 1200, 11, 23, 27, 25, 29
    • Primero que todo se deben organizar los datos en orden ascendente
    • 11, 23, 25, 27, 29, 1200
    • Por lo tanto el percentil 70 es 29

19. Percentiles con MATLAB Observe que MS EXCEL y MATLAB calculan los percentilescon diferentes algoritmos 20. Percentiles con MS EXCEL Observe que MS EXCEL y MATLAB calculan los percentilescon diferentes algoritmos 21. Medidas de tendencia central

  • Las medidas de tendencia central miden la localizacin del centro de los datos
  • Media aritmtica (o promedio)
  • Mediana
  • Moda
  • Media geomtrica
  • Media armnica
  • Media acotada (o media truncada)

22. Media aritmtica (o promedio) 23. Mediana 24. Mediana 25. Mediana 26. Media geomtrica 27. Media geomtrica

    • La media geomtrica es relevante cuando varias cantidades son multiplicadas para producir un total, o cuando los nmeros son de naturaleza exponencial, como por ejemplo el crecimiento de la poblacin mundial o las tasas de inters de una inversin financiera.
    • La media geomtrica es menos sensible que la media aritmtica a los valores extremos.

28. Ejemplo 29. Propiedades de la media geomtrica 30. Media armnica 31. Ejemplo 32. Ejemplo 33. Media armnica 34. Moda 35. Media acotada (o media truncada) 36. Medidas de tendencia central en MS EXCEL Observe que MATLAB y MS EXCEL utilizan diferentes algoritmos para calcular la moda 37. MEDIA.ACOTADA(datos;porcentaje)

    • Calcula la media de un conjunto dedatosdespus de eliminar el porcentaje de los extremos inferior y superior de los puntos de datos. Puede utilizar esta funcin cuando desee excluir del anlisis los valores extremos.
    • porcentajees el nmero fraccionario de puntos de datos que se excluyen del clculo. Por ejemplo, si porcentaje = 0,2, se eliminarn cuatro puntos de un conjunto de datos de 20 puntos (20 x 0,2), dos de la parte superior y dos de la parte inferior.

38. Medidas de tendencia central en MATLAB Observe que MATLAB y MS EXCEL utilizan diferentes algoritmos para calcular la moda 39. Otras medidas de tendencia central

  • Media generalizada
    • http://en.wikipedia.org/wiki/Generalized_mean
  • Media ponderada
    • http://en.wikipedia.org/wiki/Weighted_mean
  • Punto medio
    • http://en.wikipedia.org/wiki/Midrange
  • Root mean square (RMS)
    • http://en.wikipedia.org/wiki/Root_mean_square

40. Notas varias

  • La media armnica es siempre inferior a la media geomtrica, que a su vez es siempre inferior a la media aritmtica.
  • Ver:
  • http://en.wikipedia.org/wiki/Inequality_of_arithmetic_and_geometric_means
  • http://en.wikipedia.org/wiki/Pythagorean_means

41. Medidas de dispersin

    • La dispersin de los datos se puede atribuir a pequeas diferencias de construccin, a mano de obra deficiente, errores humanos, variabilidad inherente al material, as como a errores en las observaciones y en las mediadas.
    • Las medida de dispersin miden la variabilidad de un conjunto de datos. Una medida de dispersin es un nmero real no negativo, que es cero si todos los dtos son idnticos, y se incrementa a medida que las observaciones son ms diversas.

42. Medidas de dispersin

  • Varianza
  • Desviacin estndar
  • Desviacin media
  • Desviacin mediana
  • Rango (o recorrido)
  • Rango (o recorrido) intercuartil
  • Rango (o recorrido) interdecil

43. Varianza y desviacin estndar muestral Use siempre estas frmulas para calcular la varianza y la desviacin estndar, a menos que se indique lo contrario. Ver:http://en.wikipedia.org/wiki/Variance http://en.wikipedia.org/wiki/Standard_deviation 44. Varianza y desviacin estndar poblacional 45. Correccin de Bessel

    • Aunque intuitivamente la frmula de la desviacin estndar (varianza)poblacionales la que se debe usar (denominadorn ),SIEMPREque se quieren hacer inferencias acerca de una poblacin, se debe utilizar la desviacin estndar (varianza)muestral(denominadorn -1). Las razones de esto se entendern en el Captulo ***.

46. Recorrido o rango 47. Recorrido interdecil e intercuartil 48. Desviacin media (mean absolute deviation - MAD) Desviacin mediana (median absolute deviation) 49. Coeficiente de variacin(coefficient of variation - C.O.V.) No confundir con la covarianza! 50. Nota final

    • A pesar que lamedia aritmticay ladesviacin estndarhan sido empleadas de manera extensa como medidas de tendencia central y dispersin respectivamente, estas no son siempre las medidas ms deseables. Su uso es popular por su varias propiedades tericas que las hacen muy manipulables desde el punto de vista matemtico.

51. Otras medidas de dispersin

  • Momento central de cualquier orden
    • http://en.wikipedia.org/wiki/Moment_(mathematics )
  • Diferencia media
    • http://en.wikipedia.org/wiki/Mean_difference
  • Desviacin estndar geomtrica
    • http://en.wikipedia.org/wiki/Geometric_standard_deviation

52. Medidas de dispersin en MS EXCEL 53.

    • Como la funcin para calcular la desviacin mediana no existe en MS EXCEL 2007, debemos crear la funcin usandoVisual Basic for Applications (VBA)

Haga Alt+F11 para ingresar el cdigo Insertar-> Mdulo Copy+Paste cdigo Grabar como .xlsm 54. Medidas de dispersin en MATLAB 55. Valor atpico (outlier)

    • Un valor atpico es una observacin que es numricamente distante del resto de los datos. Las estadsticas derivadas de los conjuntos de datos que incluyen valores atpicos sern frecuentemente engaosas. Por ejemplo, en el clculo de la temperatura media de 10 objetos en una habitacin, si la mayora tienen entre 20 y 25C, pero hay un horno a 350C, la mediana de los datos puede ser 23, pero la temperatura media ser 55. En este caso, la mediana refleja mejor la temperatura de la muestra al azar de un objeto que la media.

56. Valor atpico (outlier)

    • Los valores atpicos pueden ser indicativos de datos que pertenecen a una poblacin diferente del resto de la muestra establecida.
    • No existe una definicin matemtica de lo que constituye un valor atpico; este es un ejercicio subjetivo.

57. Sensibilidad de las medidas de tendencia central a valores atpicos 58. Sensibilidad de las medidas de dispersin a los valores atpicos 59. Momentos

  • Coeficiente de asimetra
    • Ver:http://en.wikipedia.org/wiki/Skewness
  • Curtosis
    • Ver:http://en.wikipedia.org/wiki/Kurtosis

60. Curtosis y coeficiente de asimetra en MS EXCEL 61. Curtosis y coeficiente de asimetra en MATLAB MATLAB y MS EXCEL utilizan diferentes algoritmos para calcular estos parmetros 62. Histogramas

    • Un histograma es una representacin grfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables.

63. Datos

    • Suponga que los siguientes nmeros representan el consumo en m3 de agua por da de una poblacin (observe que estn ordenados ascendentemente). Elabore el histograma de dichos datos.

64. 1. Determine el rango de los datos

  • Rango es igual al dato mayor menos el dato menor. Rango = 5535 - 2298 = 3237

65. 2. Obtener el nmero de clases

    • Una clase (bin) es ...
    • Supongamos por el momento que
    • Entonces
    • Formaremos por lo tanto 7 clases/intervalos

66. 3. Establecer la longitud de las clases/intervalos (bins)

    • Establecer la longitud de clase: es igual al rango dividido entre el nmero de clases
    • Lngitud de la clase = 3237/7 = 462.4

67. 4. Construir los intervalos de las clases

    • Los intervalos resultan de dividir el rango de los datos en relacin al resultado del paso 3 en intervalos iguales.

68. 4. Graficar el histograma de conteo 69. 4. Graficar el histograma de conteo Consultar la ayuda de la funcin FRECUENCIA de MS EXCEL para entender su uso 70. Tenga en cuenta...

  • La normalizacin del histograma
  • La frecuencia relativa refleja la proporcin de la observaciones contenidas en una clase
  • Cuando los intervalos de clase son idnticos, el rea de los rectngulos representa las frecuencias. Sin embargo, cuando la longitud de los intervalos es diferente, las reas no representan la frecuencia. Por lo tanto se debe ajustar la altura de los rectngulos para que sus reas sean proporcionales a la frecuencia.

71. 5. Graficar el histograma de frecuencias relativas El eje Y tiene unidades de frecuencia por m 3 /da 72. Histograma de frecuencia de clase con MATLAB 73. Histograma de frecuencia de clase con MATLAB El eje Y tiene unidades de frecuencia por m 3 /da 74. Histogramas con MS EXCEL MS EXCEL 2003: http://www.bloggpro.com/creating-histograms-in-excel/ MS EXCEL 2007: http://www.bloggpro.com/creating-a-simple-histogram-in-excel-2007/ or just GOOGLE IT! http://www.google.com/search?q=histograms+excel+2007 75. 6. Graficar la distribucin de frecuencia relativa acumulada

  • Se obtiene graficando en el eje vertical la frecuencia relativa acumulada de una clase contra el lmite inferior de la siguiente clase sobre el eje horizontal y uniendo todos los puntos consecutivos.

76. Percentil 80 El eje Y tiene unidades de frecuencia nicamente 77. Nmero de clases

  • No existe una forma nica de escoger el nmero de intervalos. Esto por lo tanto se deja a criterio del analista. Sin embargo, existen algunas recomendaciones (las cuales generalmente hacen suposiciones sobre la forma de los datos):
  • El nmero de clases depende del nmero total de observaciones

78. Nmero de intervalos (k)

  • k nmero de intervalos (clases)
  • h ancho del intervalo
  • Mi recomendacin:

79.

  • Frmula de Sturges (1926): su rendimiento es pobre si n