ESTADISTICA DESCRIPTIVA

56
en esta maravillosa vida es 100% seguro. En oque hacemos, siempre estamos estimandolos es de resultados exitosos: en los negocios, ina, en el clima y principalmente en los jue ar. el estudiode las leyes formales de loaleator robabilidad

description

CONCEPTOS BÁSICOS SOBRE ESTADISTICA

Transcript of ESTADISTICA DESCRIPTIVA

Slide 1

Nada en esta maravillosa vida es 100% seguro. Entodoloque hacemos, siempre estamos estimandoloschances de resultados exitosos: en los negocios, en lamedicina, en el clima y principalmente en los juegosde azar.As el estudiode las leyes formales de loaleatorioesla Probabilidad

Estadstica es la ciencia,pura y aplicada, de creacin,desarrollo y de aplicacin detcnicas tales que laincertidumbre de lainferencia inductiva puedaser evaluada

Tomar decisiones es una granresponsabilidad.Para tomar decisiones se requiereINFORMACIN disponible,esperanzadamente confiable y til.Generalmente se necesita una porcinde la base de datos o muestra pararevelar un patrn lgico o realizar unanlisis estadstico.

PoblacinMuestraEstadsticaProbabilidad

Objetivo de la Estadstica DescriptivaConocer la informacin que se tienepara poder identificar e interpretaraspectos relevantes de una muestra.

Utilizar esta informacin para obtenerresultados, planear o hacer inferenciaacerca de la poblacin bajo estudio.

73260476528381 295 1 78 0 57 38 94Los datos son la materia prima del estadstico. Usalos nmeros para interpretar la realidad.Todos los problemas estadsticos involucran olarecolecta, la descripcin y el anlisis de los datos, opensar cmorecolectar, describir y hacer el anlisisde los datos.2

35473 5

043

69581 3

Descr ipcinrePoblacinMuestra

TransformacinSumarizacinIlustracinInfenciaAnlisisEstimacinHiptesis

73260476528381 295 1 78 0 57 38 94Tengoun 98% de probabilidadde hacer algoque tenga sentidocon estos nmeros.2

35473 5

043

69581 3

El conjunto de datos que describen unfenmeno (nuestro objetivo) constituyen loque se llama PoblacinUna Muestra es un subconjunto de lapoblacin sobre la cual vamos a realizarlas medidas sobre una o mascaractersticas de inters

Por qu muestreamos?- Poblaciones muy grandes

- Respuesta rpida- Destruccin de la muestramuestreo ...

Una caracterstica importante de unamuestra es que sea Representativade la poblacin de inters.Cualquiera que sea nuestro objetivo:describir a la poblacin, analizar opronosticar el comportamiento de lapoblacin, la muestra, al serrepresentativa, ser Confiablemuestreo ...

MuestreoAleatorio- Cada unidad tiene la mismaoportunidad de ser elegida

- La seleccin de una unidadno tiene influencia sobre laeleccin de otra unidadmuestreo ...

MuestreoEstratificado

- Divide a la poblacin engrupos homogneos

- Se extrae una muestraaleatoria simple de cadagrupo o estratomuestreo ...

MuestreoporConglomerado

- Divide a la poblacin engrupos

-Se extrae una muestraaleatoria simple de los grupos

-Se muestrean todos loselementos del gruposeleccionado

MuestreoSistemtico

- Se elige aleatoriamente auna unidad

- A partir de sta se seleccionacada k-sima unidad que seencuentra despus de laelegida

MuestreoOportunista

-Se muestrean los n primeroselementos que se presentanmuestreo ...

un aspecto de la muestra X, S, n, XUn parmetro es una medida numrica deun aspecto de la poblacin Una estadstica es una medida numrica deUna estadstica consiste de un conjunto demediciones de dicha caracterstica que varade una observacin (unidad experimental) aotra, y a estas mediciones las llamaremosvariable~

No todas las variables son numricasentonces podemos clasificarlas de acuerdo asu tipo en:Cualitativas: Son variables que denotan unacualidad o atributo y solo pueden serclasificadas en categoras o clasesmutuamente excluyentes y exhaustivasCuantitativas: Son aquellas variables que seobtuvieron de un proceso de conteo(discretas) o medicin (contnuas)

Clasificacin de las variablesCualitativas de acuerdo a su escala demedicin:Nominal: Son clasificadas en categoras, sinimportar el orden. No tiene sentido haceroperaciones aritmticas con ellas (gnero, gruposanguneo, Fuma (si/no))Ordinal: Las categoras se pueden arreglar enorden, pero las distancias entre las clases no soniguales (intensidad del dolor, escolaridad, nivelsocioeconmico)

Clasificacin de las variablesCuantitativas de acuerdo a su escala demedicin:Intervalo: Son medidas en las que las distanciasentre los valores es significativa pero no existe uncero absoluto (el cero no es ausencia de atributo) . Notiene sentido hacer cociente o producto (temperatura,usos horarios)Razn: Las proporciones y razones tienen sentidoal determinar cunto mas tiene una unidad que otra dealguna caracterstica. (peso, ingreso, rendimiento)

El anlisis de cada variable se hace deacuerdo a su escala de medicinPodemoshacerdiagramas,tablas yresmenesnumricosde los datosrecopilados

observacionesfinpi Cmo presentar los datos?

La frecuencia absoluta fi para una claseparticular es el nmero de observacionesque caen en cada clase.

La frecuencia relativa o porcentaje parauna clase particular es su frecuenciaabsoluta entre el nmero total de

FrecuenciaEsta frecuencia ayuda a sumarizar en formaordenada la informacin contenida en lamuestra tanto en tablas como en grficas.tabla de distribucin defrecuenciasdiagrama de barrasgnerofrecuencia porcentaje01Total1911300.630.371Histograma0.50

0.25

0.000.75MFGnero

edadfrecuenciaporcentaje3830.103930.104060.204110.034230.104320.074440.134530.104640.134700.004800.004910.03Total301.00FrecuenciaSi las variables son cuantitativas discretas lastablas de frecuencias se realizan con la creacinde diferentes clases en base a los datos quetoma la variable.Histogramade Frecuencias para Edad7654321038 39 40 41 42 43 44 45 46 47 48 49Edad

tiempofrecuenciaporcentaje9331-993110.039931-1053110.0310531-1113130.1011131-1173160.2011731-1233150.1712331-1293150.1712931-1353160.2013531-1413130.10Total301.00FrecuenciaF recu en cia113131313131351353935311172329-9-1 01 -11 -11 -11 -11 -193313153137393991011111233121 -14131H is togHistogramaSi las variables son cuantitativas continuaslas tablas de frecuencias se realizan con lacreacin de intervalos numricos que formarnlas diferentes clases.0.250.200.150.100.050.000.30

0.20

0.10

0.00ra m a

9631 10231 10831 11431 12031 12631 13231 13831Tiempo

T ie m p o

tiempo(seg)frecuenciaporcentajeFrec.Acum.963110.0330.0331023110.0330.0671083130.1000.1 671143160.2000.3671203150.1670.5331263150.1670.7001323160.2000.9001383130.1001.000Total301.00F recu en ciaH96311023110831114311203112631132ie ma) qu frecuencia de individuos tuvieron un tiempo menor T a p o11,431 seg?b) qu porcentaje de individuos tuvieron un tiempo mayor o iguala 12,631 seg?c) qu tiempo mximo es el que al menos el 50% de las personastuvieron?Podemos completar esta tabla de frecuencias con unacolumna que nos de las Frecuencias Acumuladas quuso tienen?

a) 0.167 is togra m a

c) 46.7%

e) 12,031 seg

Otros diagramas de utilidad:diagrama de tallo y hojaspara la variable edad 38|0= 38.00 00 00 0 0 0 0361213383940410000000000

0 000 0(3)141285111424344454647484900000

0-se usa con pocos valores

-los datos estn ordenados-encontramos fcilmentemnimo y mximo

-encontramos fcilmente losporcentiles

-da una visin grfica de ladistribucin de los datos

Porcentaje AcumuladoFrecuencia..::.:.:: : : . : : : : : .+---------+---------+---------+---------+---------+-------Edad38.0 40.0 42.0 44.0 46.0 48.0

Diagrama de puntos. til para cuando tenemospocos datos discretosPolgono de Frecuencias

Polgono de Frecuencia8

6

4

2

090001000011000120001300014000TiempoOjiva

Ojiva1.00

0.75

0.50

0.25

0.0090001000011000120001300014000Tiempo

772 73226 0676 0606 0777 0600777 0466667333673763 722 723223744 44 43454555 55558 238 28 22 36 3335828 26 2 363263 3 93 93 1911 95 9 3 3 3 9 1 595 107 1 355 1338 98 17 5 2 15 98 7 325 12 5 5 813 1 0559107 37 155310 10 85 83830 07 55 23 28 7 2 5259 31 304 853388 07 3 2 81 318 09 9 75834 3043 3 8 758 3 218 9 9 31 75 73 4 0 3 4 218 589 89 9 7 98 8 43 7 854 043 4 2 044 899 77 8558 5 9 685 3 4 2 054645 6 732756 66 5446641

78

50

43547 74Mtodos Numricos(vlidos solo para datos cuantitativos)

Si pudiramos escoger entre dos nmeros que nosayuden a construir una imagen mental burda de ladistribucin de un bonche de datos Culesescogeramos?

-un nmero que estlocalizado cerca del centro48 8 8299 3 32 37 7 34 844

2de la distribucin

-un nmero que mida ladispersin de ladistribucin

Frecuencia90001000011000120001300014000Tiempo

Medidas de DispersinSon nmeros que indican qu tan separados estn losdatos entre si: rango, desviacin estndar, rangointercuartilMedidas de Tendencia CentralSon nmeros que se localizan cerca del centro o cercade donde se encuentran los datos con mayor frecuencia:media, mediana, moda

Polgono de Frecuencia8

6

4

2

0

tiempo(seg)frecuenciaporcentajeFrec.Acum.963110.030.031023110.030.071083130.100.171143160.200.371203150.170.531263150.170.701323160.200.901383130.101.00Total301F recu en ciaMedidas de tendencia centralxiX ni11n9631102311083111431120311263113231T ie m p oen el caso en que los datos estn agrupados:

k n

His togra m amedia13831(0.10)10831(0.10)12,187

mediana

se localiza el valor centralel valor que toma~l361213(3)143839404142430000000 00 00 0 0 0 0

0 000000000 000 012851444546471148490~lX 30115.52el valor quetoma lavariablees 42.0 aosmedidas de tendencia central ...

X n1 y se observa2

tiempofrec.porc.FrecAcum9331-993110.0330.0339931-1053110.0330.06710531-1113130.1000.16711131-1173160.2000.36711731-1233150.1670.53312331-1293150.1670.70012931-1353160.2000.90013531-1413130.1001.000Total301F re c u e n c ia311111931293121-13113733393051111-9-11-1-1-1231315393993313731-10111112135531~ pm0 5T ie m p omedidas de tendencia central ...

para datos agrupados se estima como

X a A 0 .5Pm1B A

donde A y B son los lmites inferior y superior de la clase quecontiene a la mediana, Pm-1 es la frecuencia acumulada hasta laclase anterior a la que contien la mediana y pm es la frecuenciarelativa de la clase que contiene a la mediana

mX .2a 0 0.1670 .2 0 00 .1 5 00 .1 0 00 .0 5 00 .0 0 0

donde A y B son los lmites inferior y superiorde la clase modal, d1= fmo fmo-1 y d2= fmo fmo+1B AMo Ad1d1d2medidas de tendencia central ...modaes el valor con la frecuencia mas alta.La distribucin puede ser unimodar, multimodal

cuando los datos estn agrupadospodemos hablar de una clase modal oestimar la moda:

Medidas de Dispersinrango se define como la diferencia entre el valormximo y el mnimo:Rango = max - minEs una medida sensible a valores extremos y no es muyinformativa ya que es insensible a datos intermediosamplitud intercuartlica es la distancia entreel porcentil 75 y el porcentil 25:AI = P75 - P25Nos da una idea de la distancia entre los valores quedeterminan el 50% de los datos centrales

X i X X X2i12n1S 2ni1un problema de la varianza es que tiene las unidades alcuadrado y su interpretacin no es fcil, por lo que usamossu raiz:desviacin estndarS nin1es sensible a valores extremos.Si los datos estn agrupados en k intervalos, la varianza seestima como:2Ski1fimi X an12a2para nuestro ejemplo qu valor toma Sa ?medidas de dispersin...Varianza es una variacin promedio alrededor dela media, definida como

x100SXCV por su falta de dimensiones es muy til paracomparar variacin entre diferentes poblaciones,que a simple vista seran difciles de comparar.medidas de dispersin...

Hay algunas formas de poner juntos a la desviacinestndar y a la media muestrales

Coeficiente de Variacin: es una medida devariacin relativa y expresa la desviacin estndarcomo un porcentaje de la media aritmtica. Seobtiene como

Creacin de Intervalos:con S y X se pueden formar intervalos de la formaX kS y obtener el nmero deobservaciones que caen dentro de ese intervalo.

Si nuestra distribucin muestral tiene una forma mas o menossimtrica y acampanada podemos usar la regla emprica:

alrededor del 69% de las observaciones cae dentro de unadesviacin estndar de la media

alrededor del 95% de las observaciones cae dentro de dosdesviaciones estndar de la media

alrededor del 97.7% de las observaciones cae dentro de tresdesviaciones estndar de la mediamedidas de dispersin...

Frecuencia25

20

15

10

5

0131119219s13s7

2s15

2s5

3s17

3sXXX

X3ss

2s(7.57 , 15.75)

(3.48 , 19.84)(-0.61 , 23.93)n = 372X = 11.66s = 4.089264 obs.

353 obs.70.96%

94.89%372 obs. 100.00%Monxido de Carbono enel humo de los cigarros

Intervalosalrededorde la mediamedidas de dispersin...

Medidas de Posicin RelativaSon medidas descriptivas que localizan laposicin de una medicin en relacin a otrasmediciones.Una medida que expresa esta posicin entrminos de un porcentaje es llamadoporcentilEl porcentil de orden (P ) es el valor de lavariable por debajo del cual se encuentra unafrecuencia acumulada .

El porcetil 70, es decir,P70= 0.525 deja a suizquierda el 70% de lasobservacionesmedidas de posicin relativa...

El porcetil 25 o primercuartil Q1= - 0.675 deja asu izquierda el 25% delas observaciones

l(P ) 0 00 00 0 0 0 0

0 000 0 00 00 0 0361213(3)141285111383940414243444546474849000000000

0los porcentiles nonecesariamente sonnmeros observados-los datos se ordenan de menor amayor

-se encuentra la localizacin de losporcentiles:

(n)100-se lee el valor de dicha observacin

-si la localizacin es fraccionaria setoma el promedio del valor en lalocalizacin anterior y posteriormedidas de posicin relativa...

El diagrama de tallo y hojas, nos ayuda alocalizarlos rpidamente

13611(5)149591010111112121362607060371706293819338293383

4l(Q1) = (25/100)31 = 7.75

Q1= P25 = 11.05l(Q3) = (75/100)31 = 23.25 Q3= P75 = 12.65

l(Q2) = (50/100)31 = 15.5 Q2= P50 = 11.8Los cuartiles Q1 y Q3 son muy tiles paraconstruir lo que llamamos diagrama decaja y brazos.medidas de posicin relativa...

Tiempo25000

20000

15000

10000Diagrama de Caja y Brazos

Nos permite ver la distribucin de los datos, elmximo, el mnimo, la localizacin de losCuartiles, y la dispersin por cuartiles. Nospermitir ver si existe un sesgo as comopuntos extremos.

Para hacer estadstica diferente a la descriptiva,podemos usar todas las tcnicas hasta ahoraaprendidas y hacer algn anlisis comparativo oasociativo.El problema de comparacin consiste encontrastar las distribuciones de frecuencia deuna variable de inters para dos o massubpoblaciones basndose en los datos de lamuestra.Anlisis Exploratorio de Datos

Hay alguna diferencia en las distribucionespoblacionales?Cul es la naturaleza de esas diferencias?

Qu tan grandes son esas diferencias?En el problema de comparacin surgenalgunas preguntas:El anlisis exploratorio nos ayudar a darnos unaidea de las respuestas a estas preguntas

HbitosdetabaquismoGneroNuncahafumadoDejdefumarFumaactualmenteTotalMasculino15425185364Femenino1271138176Total28136223540las frecuencias pueden ser realtivas o absolutas y nos dan una idea dequ tan frecuente se presentan simultneamente ambos atributos enuna poblacincomparacin...La comparacin de las distribuciones defrecuencia entre subpoblaciones cuando lavariable de inters es cualitativa se hace conuna tabla de contingencias o tabulacincruzada

Hbitosdetabaquismo(%)GneroNuncahafumadoDejdefumarFumaactualmenteTotalMasculino28.54.634.367.4Femenino23.52.17.032.6Total52.06.741.3100El objetivo de la comparacin es ver si unacaracterstica determinada vara relativo aalguna subclase, por lo que se calculan lasfrecuencias relativas condicionales fij/ fi pij/ pi (de sta manera compensamos pordiferencias de tamaos) ...comparacin...

Hbitosdetabaquismocondicionadasagnero(%)GneroNuncahafumadoDejdefumarFumaactualmenteTotalMasculino42.36.850.9100Femenino72.16.521.5100Total52.06.741.3100Gnero80.060.040.020.00.0NuncahafumadoDejdefumarFumaactualmenteMasculinoFemeninoFrecuenciael hbito detabaquismodifiere si se eshombre omujer?comparacin...... y calculamos las frecuencias relativascondicionadas a gnero

30.00

15.00

0.0045.00Distribucin de Edad por GneroMasculinoFemeninoGneroMasculinoFemeninoTotal3910.5336.3620.004021.0518.1820.004142.1118.1833.334226.3227.2726.67Total100100100comparacin...Si la variable a analizar es discreta se puedetratar como si fuera cualitativa.

Edad en aos condicionada a gnero (%)39404142hay algunadiferencia entregneros conrespecto a laedad?

OrdenllegadaFM30000

20000

10000

0GneroTiempos por Gnerocomparacin...

En el caso de que la variable a analizar seacontnua podemos estar interesados encomparar tanto la localizacin como ladispersin entre las distribuciones defrecuencia de las subpoblaciones. Unamanera de hacerlo es por medio de undiagrama esquemticoQuin tienetiempos msaltos?quin tienemayordispersin?

Muchas veces es importante saber si unavariable influye sobre el comportaminto de otravariable. Con ello estudiamos el problema deasociacin.Ambas Variables OrdinalesEl uso de la tabla de contingencia y sucorrespondiente diagrama de barras es de granutilidad para asociar variables cualitativas enescala ordinal.sta tabla se presenta con las frecuenciasrelativas condicionadas a las clases de una delas variables

PosicinrespectoalhorariodeveranoDesacuerdoIndiferenteAcuerdoTotalNivelSocioeconmicoBajoMedioAlto23.9047.0220.6949.0231.9336.2127.0721.0543.10100.00100.00100.00Posicin respecto al horario de verano60.00

45.00

30.00

15.00

0.00BajoMedioAltoDesacuerdoIndiferenteAcuerdoA mayor nivelsocioeconmico,mayor aceptacin?asociacin ...

asociacin ...Una Variable Ordinal y otra CuantitativaUna manera de evidenciar la posible asociacinentre las variables es a travs del diagramaesquemtico.ste diagrama nos da una idea de cmodependen la variable cuantitativa, no solo enlocalizacin sino tambin en dispersin conrespecto al aumento o disminucin en escala dela variable cualitativa ordinal.

Habilidad de LenguajeMaternal6835145173190225340123228Kinder II425370380476410358338373377467388Grado EscolarKinder I255202317327247100448412228192297Kinder IIKinder IMaternal500

400300

200

1000Qu nos diceeste diagramaesquemtico?asociacin ...

X XYi Y/(n1)i1 i1Xi X /(n1) i1Yi Y /(n1)asociacin...Ambas Variables Cuantitativas

Para este caso el diagrama de dispersin es muyusado para asociar variables cuantitativas.

Consiste en graficar parejas de valores ( xi, yi)correapondientes a un solo individuo, sobre unplano cartesiano.

Una medida de asociacin que complementa estediagrama es el coeficiente de correlacin (medidade relacin lineal entre las variables) obtenidocomoniSxySxS yn 2 n 2r(x, y)

30140150160170180190200100908070605040301401501601701801902000807060504030201014015016017018019020030330

280

230

180

130

80140150160170180190200r = 0.8r = 0.1r = 0.99r = - 0.7Se puede decir que si r es cero, las variables son independientes?asociacin ...

100

90

80

70

60

50

40

EdadEdad versus Tiempo75

60

45

30

15

0010000200003000040000Tiempor = 0.130Existe alguna relacin linealentre el tiempo que tomcorrer el maratn y la edad delos participantes? Confirmael valor de r esta relacin?asociacin ...