Tema 5 Estadistica

49
Estadística Descriptiva I n t r o d u c c i ó n Podemos definir la Estadística como la ciencia que nos facilita los métodos precisos para la obtención y descripción de datos, así como los métodos de análisis, inter- pretación y obtención de conclusiones a partir de la información recogida. Estas dos vertientes dan lugar a dos partes bien diferenciadas de la Estadística: 1. La Estadística descriptiva o d e d u c t i v a , que tiene por objeto la recogida, ordenación, análisis y representación de los datos obtenidos por las observaciones. En esta parte de la Estadística no se hace uso del cálculo de probabilidades y se limita a realizar deducciones directamente a partir de los datos y parámetros obtenidos. 2. La Estadística inferencial o i n d u c t i v a , que tiene por objeto conocer y analizar un colectivo a partir del estudio de una parte del mismo, llamado muestra. Esta parte de la Estadística se apoya fuertemente en el cálculo de probabilidades. Llamaremos población a cualquier colectivo de individuos u objetos de cualquier índole a los que se puede asociar una o varias características comunes. Cada ele- mento de la población se denomina individuo o unidad estadística. Es frecuente que el número de individuos de una población (lo que se denomina tamaño de la misma) sea muy grande (posiblemente infinito), lo que aconseja tomar una parte representa- tiva de tamaño manejable, denominada muestra. A la elección de muestras se le denomina muestreo y existen muchos criterios para realizar dicha selección. No vamos a entrar en este tema, sino sólo digamos que cualquier individuo de la población debe tener la misma probabilidad de estar en la muestra, que es mucho más importante la representatividad de la muestra que su tamaño y que su composición debe estar en proporción con la composición de la población. Se denomina variable estadística a una característica, aspecto, fenómeno, rasgo o cualidad que presenta cada individuo de la población y que puede tomar distintos valores (si se expresan numéricamente) o modalidades (en caso contrario). Se deno- tan por letras mayúsculas X , Y , Z,…, mientras que los valores que puede tomar la variable estadística X se denotan con letras minúsculas x 1 , x 2 , x 3 ,…. El conjunto de los valores o modalidades que puede tomar una variable estadística se llama dominio de dicha variable. Atendiendo a su dominio, las variables estadísticas se clasifican en: Variables estadísticas cualitativas: su dominio son valores no numéricos, es decir, que no se pueden medir; por ejemplo, la profesión de una persona, su estado civil, el idioma elegido, etc. Variables estadísticas cuantitativas: su dominio son valores numéricos que sí se pueden medir; por ejemplo, la altura de una persona, el diámetro de una pieza de precisión, el cociente intelectual de un alumno, etc. Si la variable cuantitativa sólo puede tomar un número finito de valores distintos, se denomina variable cuantitativa

Transcript of Tema 5 Estadistica

Page 1: Tema 5 Estadistica

Estadística Descriptiva

IntroducciónPodemos definir la Estadística como la ciencia que nos facilita los métodos precisospara la obtención y descripción de datos, así como los métodos de análisis, inter-pretación y obtención de conclusiones a partir de la información recogida. Estas dosvertientes dan lugar a dos partes bien diferenciadas de la Estadística:

1. La Estadística descriptiva o deductiva, que tiene por objeto la recogida, ordenación,análisis y representación de los datos obtenidos por las observaciones. En estaparte de la Estadística no se hace uso del cálculo de probabilidades y se limita arealizar deducciones directamente a partir de los datos y parámetros obtenidos.

2. La Estadística inferencial o inductiva, que tiene por objeto conocer y analizar uncolectivo a partir del estudio de una parte del mismo, llamado muestra. Esta parte dela Estadística se apoya fuertemente en el cálculo de probabilidades.

Llamaremos población a cualquier colectivo de individuos u objetos de cualquieríndole a los que se puede asociar una o varias características comunes. Cada ele-mento de la población se denomina individuo o unidad estadística. Es frecuente queel número de individuos de una población (lo que se denomina tamaño de la misma)sea muy grande (posiblemente infinito), lo que aconseja tomar una parte representa-tiva de tamaño manejable, denominada muestra. A la elección de muestras se ledenomina muestreo y existen muchos criterios para realizar dicha selección. No vamosa entrar en este tema, sino sólo digamos que cualquier individuo de la población debetener la misma probabilidad de estar en la muestra, que es mucho más importante larepresentatividad de la muestra que su tamaño y que su composición debe estar enproporción con la composición de la población.

Se denomina variable estadística a una característica, aspecto, fenómeno, rasgo ocualidad que presenta cada individuo de la población y que puede tomar distintosvalores (si se expresan numéricamente) o modalidades (en caso contrario). Se deno-tan por letras mayúsculas X , Y , Z, …, mientras que los valores que puede tomar lavariable estadística X se denotan con letras minúsculas x1, x2, x3, …. El conjunto delos valores o modalidades que puede tomar una variable estadística se llama dominiode dicha variable. Atendiendo a su dominio, las variables estadísticas se clasifican en:

Variables estadísticas cualitativas: su dominio son valores no numéricos, es decir,que no se pueden medir; por ejemplo, la profesión de una persona, su estado civil, elidioma elegido, etc.

Variables estadísticas cuantitativas: su dominio son valores numéricos que sí sepueden medir; por ejemplo, la altura de una persona, el diámetro de una pieza deprecisión, el cociente intelectual de un alumno, etc. Si la variable cuantitativa sólopuede tomar un número finito de valores distintos, se denomina variable cuantitativa

Page 2: Tema 5 Estadistica

discreta (por ejemplo, la edad de los alumnos de una clase), mientras que en casocontrario se denomina variable cuantitativa continua (por ejemplo, la presiónsanguínea de los enfermos de un determinado hospital). Normalmente, si unavariable discreta puede tomar un elevado número de valores distintos, se consideracomo si fuese también una variable conitinua.

En este tema vamos a considerar sólo variables estadísticas unidimensionales, conlas que se analiza un único carácter de los individuos de la población, y variablesestadísticas bidimensionales, con las que se analiza la relación existente entre doscaracteres de los individuos de la población.

Dado que Mathematica dispone de un gran número de comandos estadísticos, utilizartodos los que necesitamos en este tema puede ser una tarea larga y tediosa. Por esemotivo, hemos creado algunos comandos nuevos de Mathematica que simplifiquen loscálculos estadísticos, cuyas definiciones se muestran a continuación; dado que no soncomandos del propio programa, habrá que copiar y pegar dichas líneas en uncuaderno de Mathematica y ejecutarlas antes de poder usarlos.

IfNameQ"estaDescrip", AttributesestaDescrip ;

estaDescripvar_, opt_List: : ModulelocVal, lcVar, lcMed,

IfLengthvar 1, locVal var1,

locVal

FlattenTableTablevar1, i, j, 1, var2, i,

i, 1, Lengthvar1;

PrintStyle"Medidas de Centralización", Red, Bold, 16;

lcMed MeanlocVal;

PrintStyle"Media: ", Bold, lcMed;

PrintStyle"Mediana: ", Bold, MedianlocVal;

PrintStyle"Moda: ", Bold, CommonestlocVal;

IfLengthopt 0, Print;

PrintStyle"Medidas de Posición", Red, Bold, 16;

Fori 1, i Lengthopt,

i, PrintStyle"Percentil ", Bold,

Styleopti, Bold, Style": ", Bold,

QuantilelocVal, opti100;

Print;

PrintStyle"Medidas de Dispersión", Red, Bold, 16;

PrintStyle"Recorrido: ", Bold, MaxlocVal MinlocVal;

PrintStyle"Desviación media: ", Bold,

MeanDeviationlocVal;

lcVar CentralMomentlocVal, 2;

PrintStyle"Desviación típica: ", Bold, SqrtlcVar;

PrintStyle"Varianza: ", Bold, lcVar;

PrintStyle"Coeficiente de variación: ", Bold,

2 Tema 5 Estadistica.nb

Page 3: Tema 5 Estadistica

SqrtlcVarlcMed;

Print;

PrintStyle"Medidas de Forma", Red, Bold, 16;

PrintStyle"Coeficiente de sesgo: ", Bold,

SkewnesslocVal;

PrintStyle"Coeficiente de curtosis: ", Bold,

KurtosislocVal 3;

Print;

estaDescrip::usage "estaDescripvar,percen calcula los

parámetros estadísticos de la variable cuyos valores están

definidos en la lista 'var'. Si el argumento 'percen' está

presente calcula también los percentiles que se pasen en

dicha lista.

estaDescripvar,frec,percen calcula los parámetros

estadísticos de la variable cuyos valores están definidos en

la lista 'var' con frecuencias absolutas definidas en la lista

'frec'. Si el argumento 'percen' está presente calcula también

los percentiles que se pasen en dicha lista.";

ProtectestaDescrip;

IfNameQ"diagDispersion", AttributesdiagDispersion ;

diagDispersionvar_, frec_List: : ModulenSize,

nSize Lengthfrec;

IfnSize 0,

ListPlotvar, PlotStyle Black, PointSizeMedium,

ListPlotTableTooltipvari, freci, i, 1, nSize,

PlotStyle Black, PointSizeMedium

diagDispersion::usage "diagDispersionvar,frec representa

gráficamente el diagrama

de dispersión de la variable estadística

'var'. Si el segundo argumento, opcional,

está presente, representa

las frecuencias absolutas de dicha variable,

las cuales se muestran

en el diagrama como pequeñas ventanas emergentes.";

ProtectdiagDispersion;

IfNameQ"estaBidim", AttributesestaBidim ;

estaBidimvar_, frec_List: : ModulelcVal1, lcVal2, lcMed1, lcMed2, nSize, lcCov, lcCorr,

Tema 5 Estadistica.nb 3

Page 4: Tema 5 Estadistica

lcRegYX, lcRegXY,

nSize Lengthfrec;

IfnSize 0, lcVal1 varAll, 1, lcVal2 varAll, 2,

lcVal1

FlattenTableTablevari, 1, j, 1, freci,

i, 1, nSize, lcVal2

FlattenTableTablevari, 2,

j, 1, freci, i, 1, nSize;

lcMed1 MeanlcVal1;

lcMed2 MeanlcVal2;

lcCov

TotallcVal1 lcMed1lcVal2 lcMed2LengthlcVal1;

PrintStyle"Covarianza: ", Bold, 14, lcCov;

lcCorr lcCovSqrtCentralMomentlcVal1, 2CentralMomentlcVal2, 2;

PrintStyle"Coeficiente de correlación: ", Bold, 14, lcCorr;

lcRegYXx_ MeanlcVal2 lcCovCentralMomentlcVal1, 2x MeanlcVal1;

PrintStyle"Recta de regresión de Y sobre X: ", Bold, 14,

"y ", SimplifylcRegYXx;

lcRegXYy_ MeanlcVal1 lcCovCentralMomentlcVal2, 2

y MeanlcVal2;

PrintStyle"Recta de regresión de X sobre Y: ", Bold, 14,

"x ", SimplifylcRegXYy;

estaBidim::usage "estaBidimvar,frec calcula los parámetros

estadísticos covarianza, coeficiente de correlación y rectas

de regresión de la variable estadística bidimensional 'var'.

Si el segundo argumento, opcional, está presente, representa

las frecuencias absolutas de dicha variable.";

ProtectestaBidim;

Print"Definidos los nuevos comandos relativos a Estadística

Descriptiva:";

PrintStyle"estaDescrip diagDispersion estaBidim",

Bold, 14;

Definidos los nuevos comandos relativos a EstadísticaDescriptiva:

estaDescrip diagDispersion estaBidim

4 Tema 5 Estadistica.nb

Page 5: Tema 5 Estadistica

Variables estadísticas unidimensionalesEl gran número de datos y el desorden con el que éstos se obtienen hacen necesariasu organización y presentación en tablas y gráficos, así como el cálculo de diferentesparámetros que permitan resumir la información que nos facilita el conjunto de datos.Comenzamos esta sección estableciendo la terminología básica de la disciplina quenos ocupa, para, a continuación, exponer dos vías diferentes de organizar y represen-tar el conjunto de datos: las tablas de frecuencias y las representaciones gráficas.Por último, estudiaremos diferentes parámetros estadísticos que resumen laspropiedades de la variable.

Definición y presentación de datos

Dada una variable estadística cuantitativa discreta X , se llama frecuencia absolutadel valor xk, y se representa por fk, al número de veces que aparece en una deter-minda muestra. Se llama frecuencia relativa del valor xk, y se representa por hk, al

cociente hk =fkn

, siendo n el número de individuos de la muestra. También podemos

indicar la frecuencia relativa en términos de porcentajes; se llama porcentaje del valorxk, y se representa por pk, a pk = 100 ÿ hk.

Si ordenamos los valores de la variable discreta X de menor a mayor, obtenemos unasucesión de valores x1 < x2 <∫ < xm , siendo m el número de valores distintos que

toma dicha variable. En ese caso, se llama frecuencia absoluta acumulada del valorxk, y se representa por Fk, a Fk = f1 + f2 +∫fk. De igual forma, se llama frecuencia

relativa acumulada del valor xk, y se representa por Hk, a Hk = h1 + h2 +∫+ hk =Fk

n.

La tabla o distribución de frecuencias de una variable estadística discreta estáformada por cinco columnas: valores, frecuencias absolutas, frecuencias relativas (oporcentajes), frecuencias absolutas acumuladas y frecuencias relativas acumuladas.

En caso de que la variable X sea continua (o bien discreta pero con un número muygrande de posibles valores) es muy conveniente agrupar los datos en clases. Unaclase es un intervalo a, b, de forma que un valor xk pertenece a dicha clase sia § xk < b (obsérvese que toda clase es un intervalo cerrado por la izquierda y abiertopor la derecha). Los extremos a, b del intervalo se denominan límites de clase, y el

punto medio a+b

2 se denomina marca de clase.

Con el fin de que la clasificación esté bien hecha, los intervalos se deben construir dela misma amplitud y de forma que el límite superior de una clase coincida con el límiteinferior de la siguiente. Ahora bien, ¿cuál es el número idóneo de clases que debemosescoger a la hora de agrupar? No existe una respuesta tajante a esta pregunta; uno delos criterios más sencillos establece que el número de clases debe ser aproximada-mente igual a la raíz cuadrada positiva del número de datos.

Veamos ahora cómo podemos definir los valores xk de una variable estadística X conMathematica, calcular sus frecuencias absolutas fk y representar gráficamente éstas.Estudiaremos por separado los casos de variable discreta y de variable continua.

Variable estadística discreta

Tema 5 Estadistica.nb 5

Page 6: Tema 5 Estadistica

Consideremos primero una variable discreta; por ejemplo, supongamos que las notasde matemáticas de 30 alumnos sean las siguientes :

5 3 4 1 2 8 9 8 7 6

6 7 9 8 7 7 1 0 1 5

9 9 8 0 8 8 8 9 5 7

Los valores de esta variable discreta se definen en Mathematica como una lista, esdecir, separados por comas y encerrados entre sendas llaves:

notas 5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5,

9, 9, 8, 0, 8, 8, 8, 9, 5, 7

5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9,8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7

Obsérvese que en este ejemplo hemos introducido los datos por filas, pero podríamoshaberlos introducido también por columnas. A la hora de definir la variable el orden enque introduzcamos sus valores es indiferente. Sin embargo, conviene definirla reorde-nando los datos de menor a mayor; para ello, usamos el comando Sort[var]:

notas Sort5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0,

1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7

0, 0, 1, 1, 1, 2, 3, 4, 5, 5, 5, 6, 6,7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9

Para obtener la distribución de frecuencias absolutas de una variable var podemosusar el comando Tally[var]. Téngase presente que antes de aplicar este comando esrecomendable que la variable esté ordenada. Este comando devuelve una matriz condos columnas; la primera contiene los valores que toma la variable y la segunda susrespectivas frecuencias absolutas; para visualizar el resultado como una matriz hemosde emplear el comando MatrixForm[mat]:

6 Tema 5 Estadistica.nb

Page 7: Tema 5 Estadistica

notas2 TallynotasMatrixFormnotas2

0, 2, 1, 3, 2, 1, 3, 1,4, 1, 5, 3, 6, 2, 7, 5, 8, 7, 9, 5

0 21 32 13 14 15 36 27 58 79 5

Es decir, hay 2 alumnos con un 0, 3 alumnos con un 1, y así sucesivamente. Podemosdefinir por separado los valores de la variable y sus frecuencias absolutas en sendasvariables, extrayendo la primera y segunda columna, respectivamente; para ello,usamos el comando A[[All,k]], el cual extre la columna k-ésima de la matriz A.

notasValores notas2All, 1notasFrecAbs notas2All, 2

0, 1, 2, 3, 4, 5, 6, 7, 8, 9

2, 3, 1, 1, 1, 3, 2, 5, 7, 5La distribución de frecuencias acumuladas se puede obtener aplicando el comandoAccumulate[frec] , donde frec representa la lista que contiene las frecuenciasabsolutas:

notasFrecAbsAcum AccumulatenotasFrecAbs

2, 5, 6, 7, 8, 11, 13, 18, 25, 30Y la distribución de frecuencias relativas se obtiene dividiendo (cuando se aplica unaoperación aritmética a una lista, se realiza dicha operación a cada elemento de ella)las frecuencias absolutas por el número total de elementos de la muestra, el cual sepuede obtener con el comando Length[var]:

Tema 5 Estadistica.nb 7

Page 8: Tema 5 Estadistica

n LengthnotasnotasFrecRel notasFrecAbsn

NnotasFrecRel

30

1

15,

1

10,

1

30,

1

30,

1

30,

1

10,

1

15,

1

6,

7

30,

1

6

0.06666666667, 0.1, 0.03333333333,0.03333333333, 0.03333333333, 0.1, 0.06666666667,0.1666666667, 0.2333333333, 0.1666666667

donde hemos empleado el comando N[expr] para obtener una aproximación decimalde las frecuencias relativas.

Aun cuando la distribución de frecuencias de una variable estadística discreta contienetoda la información, a veces es más conveniente expresarla mediante un gráfico, conel fin de hacerla más clara y evidente. Para comparar datos cuantitativos de tipo dis-creto son muy útiles los denominados diagramas de barras. Para trazarlos se repre-sentan sobre el eje de abscisas los valores de la variable discreta y sobre el eje deordenadas las frecuencias absolutas. A continuación, por los puntos marcados en eleje de abscisas se levantan trazos gruesos o barras de longitud igual a la frecuenciacorrespondiente. Para visualizar un diagrama de barras con Mathematica podemosusar el comando BarChart[frec], siendo frec la lista que contiene las frecuenciasabsolutas de la variable dada:

BarChartnotasFrecAbs

Si queremos colocar en el eje de abscisas los valores de la variable correspondientesa cada barra debemos usar la opción ChartLabels->var:

8 Tema 5 Estadistica.nb

Page 9: Tema 5 Estadistica

BarChartnotasFrecAbs, ChartLabels notasValores

Obsérvese que al pasar el cursor por encima de una barra se muestra el valor corre-spondiente de la frecuencia absoluta que representa dicha barra. Para conocer másopciones gráficas de este comando podemos acudir a la ayuda de Mathematica.

También podemos representar gráficamente las frecuencias absolutas acumuladas:

BarChartnotasFrecAbsAcum, ChartLabels notasValores

Hay ocasiones en las que los datos de que disponemos son las frecuencias absolutasde los valores que toma una variable discreta; en estos casos, podemos definir directa-mente las dos listas, correspondientes a sus valores y a sus frecuencias absolutasasociadas. Por ejemplo, supongamos que en un muestreo realizado por una empresacon el fin de estudiar el número de hijos por familia española se han encontrado lossiguientes resultados:

Número de hijos 0 1 2 3 4 5

Número de familias 10 16 20 18 12 12

Entonces, la variable queda definida mediante las siguientes dos listas (es necesarioescribir ambas en el mismo orden, de manera que podamos asociar cada valor con sufrecuencia absoluta):

Tema 5 Estadistica.nb 9

Page 10: Tema 5 Estadistica

nHijos 0, 1, 2, 3, 4, 5nFamilias 10, 16, 20, 18, 12, 12

0, 1, 2, 3, 4, 5

10, 16, 20, 18, 12, 12En este caso, para saber el número total de individuos de la muestra hemos de sumartodas las frecuencias absolutas, lo cual podemos hacer mediante el comandoTotal[lista]:

nFamTotal TotalnFamilias

88

A partir de aquí las distribuciones de frecuencias acumuladas y relativas se calculanigual que antes, así como los respectivos diagramas de barras.

Variable estadística continua

Consideremos ahora una variable continua. Por ejemplo, supongamos que las edadesde las personas que acuden a un logopeda son las que se reflejan en la siguiente tabla:

3 2 11 13 4 3 2 4 5 6 7 3

4 5 3 2 5 6 27 15 4 21 12 4

3 6 29 13 6 17 6 13 6 5 12 26

Consideremos esta variable como una variable continua, dada la gran diversidad devalores que puede tomar. En Mathematica, los valores que toma una variable continuase pueden definir como si fuese una variable discreta; es decir:

edadLogo

Sort3, 2, 11, 13, 4, 3, 2, 4, 5, 6, 7, 3, 4, 5, 3, 2, 5, 6, 27,

15, 4, 21, 12, 4, 3, 6, 29, 13, 6, 17, 6, 13, 6, 5, 12, 26

2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6,6, 6, 6, 7, 11, 12, 12, 13, 13, 13, 15, 17, 21, 26, 27, 29

El número de datos de los que disponemos nos lo da, como vimos antes, el comandoLength[var]:

edadNum LengthedadLogo

36

En el caso de una variable continua no tiene sentido hallar las frecuencias absolutasde sus valores, pues lo más problabe es que dicha frecuencia sea 0 o bien 1, lo cualaporta poca información. Lo que sí puede ser muy útil es contar cuántos individuos

10 Tema 5 Estadistica.nb

Page 11: Tema 5 Estadistica

ytienen un valor de la variable comprendido entre ciertos valores. En Mathematica, elcomando BinCounts[var,{{a,b}}] devuelve el número de individuos para los cuales severifica que a § xk < b. Por ejemplo, podemos calcular cuántos pacientes tienen unaedad comprendida en el intervalo [12,18):

nInd BinCountsedadLogo, 12, 18

7

Es decir, hay 7 pacientes con una edad mayor o igual que 12 años y menor que 18años.

Como ocurría con las variables estadísticas discretas, una representación gráfica de ladistribución de frecuencias puede en muchos casos hacerla más clara y eficiente. Paravariables estadísticas continuas, o bien para variables estadísticas discretas con ungran número de datos, se suelen emplear los denominados histogramas. Para con-struir un histograma se representan sobre el eje de abscisas los límites de las clases.Sobre dicho eje se construyen rectángulos que tienen por base la amplitud de cadaclase y cuya altura es igual a la frecuencia absoluta correspondiente (con mayor exacti-tud, dicha altura debería ser tal que el área de cada rectángulo fuese igual a la frecuen-cia de la correspondiente clase, pero en Mathematica la altura de cada rectánguloconicide con la frecuencia absoluta).

En Mathematica, el comando Histogram(datos,{{clases}}) representa gráficamente elhistograma de la variable estadística datos, agrupándola en las clases indicadas en elsegundo argumento. Si no escribimos el segundo argumento, Mathematica utiliza unasclases por defecto. Por ejemplo, el histograma de las edades de los pacientes de unlogopeda que nos ocupa se representa mediante el siguiente comando:

HistogramedadLogo

Obsérvese que Mathematica ha dibujado el histograma utilizando clases de amplitud10 años. Si quisiéramos emplear clases de amplitud sólo 5 años ([0,5), [5,10), [10,15),[15,20), [20,25) y [25,30)), escribiríamos:

Tema 5 Estadistica.nb 11

Page 12: Tema 5 Estadistica

HistogramedadLogo, 0, 5, 10, 15, 20, 25, 30

Si los datos de que disponemos son las frecuencias absolutas de los valores que tomauna variable continua agrupada en clases, podemos definir directamente las dos listas,correspondientes a sus valores y a sus frecuencias absolutas asociadas. Por ejemplo,supongamos que la siguiente tabla refleja el número de alumnos que han tardado undeterminado tiempo (en minutos) en resolver un problema de matemáticas que se lesha propuesto:

Nº de alumnos 3 6 10 12 9

Tiempo tardado 10, 12 12, 14 14, 16 16, 18 18, 20Definimos entonces las dos listas asociadas, una con las marcas de las clases y la otracon las respectivas frecuencias absolutas, en el mismo orden:

alumnClases 11, 13, 15, 17, 19alumnFrecAbs 3, 6, 10, 12, 9

11, 13, 15, 17, 19

3, 6, 10, 12, 9

Una vez que ya hemos pasado de una variable estadística continua a otra variablediscreta, las frecuencias acumuladas y relativas se calculan igual que en el caso devariables estadísticas discretas, así como el diagrama de barras correspondiente.

Medidas características

Es frecuente que las observaciones a estudiar estén compuestas por una gran canti-dad de datos, por lo que se hace necesario complementar la información intuitiva queaportan las tablas de frecuencias y las representaciones gráficas con un análisisestadístico numérico. La idea es resumir toda la información de los datos en unospocos, de manera que se conserve la mayor información posible del conjunto total deellos y el comportamiento global de la población o muestra en estudio.

En esta sección se estudian los parámetros estadísticos que nos ayudan a emitir con-clusiones sobre las poblaciones en estudio y a hacer comparaciones entre ellas, ya

12 Tema 5 Estadistica.nb

Page 13: Tema 5 Estadistica

y yque a través sólo de las tablas y gráficos es posible que emitamos juicios noacertados.

Para calcular todos estos parámetros estadísticos emplearemos el comando estaDe-scrip definido al principio de este cuaderno. Si de la variable conocemos todos losdatos, estando definida por tanto mediante una única lista var, sus parámetros estadísti-cos se calculan usando la sintaxis estaDescrip[{var},percen], donde el segundoargumento, percen, es opcional; si aparece, es una lista que contiene los percentilesque queremos calcular, mientras que en caso contrario no se calcula ningún percentil.

Por ejemplo, podemos calcular los parámetros estadísticos de la variable discretanotas, que representaba las notas de matemáticas de 30 alumnos:

estaDescripnotasMedidas de Centralización

Media:35

6

Mediana: 7

Moda: 8

Medidas de DispersiónRecorrido: 9

Desviación media:223

90

Desviación típica:

1537

5

6

Varianza:1537

180

Coeficiente de variación:

1537

5

35

Medidas de Forma

Coeficiente de sesgo:

21 052 5

1537

1537

Coeficiente de curtosis: 1 781 682

2 362 369

Para obtener expresionesdecimales de estos parámetros estadísticos podemosemplear el comando N:

estaDescripNnotas

Tema 5 Estadistica.nb 13

Page 14: Tema 5 Estadistica

Medidas de CentralizaciónMedia: 5.833333333

Mediana: 7.

Moda: 8.

Medidas de DispersiónRecorrido: 9.

Desviación media: 2.477777778

Desviación típica: 2.922137726

Varianza: 8.538888889

Coeficiente de variación: 0.5009378959

Medidas de FormaCoeficiente de sesgo: 0.7812095833

Coeficiente de curtosis: 0.7541929309

Si además queremos calcular los percentiles 15 y 47 de la variable, escribiremos:

estaDescripNnotas, 15, 47

14 Tema 5 Estadistica.nb

Page 15: Tema 5 Estadistica

Medidas de CentralizaciónMedia: 5.833333333

Mediana: 7.

Moda: 8.

Medidas de PosiciónPercentil 15: 1.

Percentil 47: 7.

Medidas de DispersiónRecorrido: 9.

Desviación media: 2.477777778

Desviación típica: 2.922137726

Varianza: 8.538888889

Coeficiente de variación: 0.5009378959

Medidas de FormaCoeficiente de sesgo: 0.7812095833

Coeficiente de curtosis: 0.7541929309

Si de la variable conocemos sus valores y sus frecuencias absolutas, definidas ensendas listas val y frec, respectivamente, sus parámetros estadísticos se calculanusando la sintaxis estaDescrip[{val,frec},percen], donde el segundo argumento,percen, es opcional y representa lo mismo que en el caso anterior.

Por ejemplo, podemos calcular los parámetros estadísticos de la variable continuaalumnClases, con frecuencias alumnFrecAbs, que representaba el tiempo tardado porun conjunto de alumnos en resolver un determinado problema de matemáticas:

estaDescripNalumnClases, alumnFrecAbs, 25, 75

Tema 5 Estadistica.nb 15

Page 16: Tema 5 Estadistica

Medidas de CentralizaciónMedia: 15.9

Mediana: 17.

Moda: 17.

Medidas de PosiciónPercentil 25: 15.

Percentil 75: 17.

Medidas de DispersiónRecorrido: 8.

Desviación media: 2.055

Desviación típica: 2.406241883

Varianza: 5.79

Coeficiente de variación: 0.1513359675

Medidas de FormaCoeficiente de sesgo: 0.3992207801

Coeficiente de curtosis: 0.7560113471

En los siguientes apartados definiremos todas estas medidas características y estable-ceremos sus principales propiedades.

Medidas de centralización

Al describir grupos de observaciones, con frecuencia es conveniente resumir la informa-ción con un solo número. Este número que, para tal fin, suele situarse hacia el centrode la distribución de datos se denomina medida de centralización. Estudiamos eneste tema tres de las más importantes, como son la media, la mediana y la moda.

Media

Consideremos una variable estadística X que toma los valores x1, x2, …, xn. Dadauna distribución de N observaciones de dicha variable estadística en la que se alcan-zan los valores anteriores con frecuencias absolutas f1, f2, …, fn, respectivamente, sedefine la media de la distribución como:

x =1

Nÿ

k=1

n

xk ÿ fk

Si la variable estadística X es continua y sus datos se encuentran agrupados enclases, se toman como valores x1, x2, …, xn las marcas de cada clase.

La media es la medida de centralización más utilizada por su fácil cálculo y por teneren cuenta todos los datos. Sin embargo, hay casos en los que se deben utilizar otrasmedidas de centralización. Por ejemplo, si la variable toma algunos valores extremos

16 Tema 5 Estadistica.nb

Page 17: Tema 5 Estadistica

j gpoco significativos, éstos pueden distorsionar la media. Por otra parte, si los datosestán agrupados en clases y alguna de ellas es abierta, no es posible calcular la media.

Mediana

Dada una variable estadística X, ordenemos en orden creciente de magnitud todos losvalores que toma, repetidos tantas veces como indique su frecuencia absoluta. Si elnúmero de datos es impar, la mediana de la distribución es el valor central, es decir, elvalor tal que hay tantos valores por debajo de él que por encima. Si el número de datoses par, la mediana es el valor medio de los dos valores centrales.

La mediana es útil cuando entre los datos existe uno ostensiblemente extremo quedistorsiona la media o cuando no es posible calcular ésta. Por otra parte, en su cálculomo utilizan todos los datos de los que dispone, pues depende del orden de los datos yno de su valor.

En las variables que pueden representarse con histogramas, la mediana es el valor dela variable tal que la vertical levantada sobre el mismo divide al histograma en dospartes de igual área.

Moda

Dada una variable estadística X , se llama moda de la distribución al valor de dichavariable que presenta mayor frecuencia absoluta. Si la variable estadística está agru-pada en clases, se llama clase modal a la clase de mayor frecuencia absoluta. Lamoda no tiene por qué ser única, puesto que puede haber varios valores de la variableque alcancen la misma frecuencia absoluta máxima. Se dice en este caso que la dis-tribución es bimodal, trimodal, etc.

En el cálculo de la moda no intervienen todos los datos de los que se dispone, puessólo representa el valor dominante, y no existe si la frecuencia es constante.

Medidas de posición

Las medidas de posición de una variable estadística dividen ésta en grupos con elmismo número de individuos. Para calcular las medidas de posición es necesario quelos valores de la variable estadística estén ordenados de menor a mayor. Las princi-pales medidas de posición son los percentiles y los cuartiles.

Al igual que la mediana de una variable estadística dividía el conjunto de valores deésta en dos partes con el mismo número de individuos, se llaman percentiles a 99valores de la variable estadística que dividen la serie de datos en 100 partes iguales.Es decir, el percentil 15 (que se representa como P15 ) es el valor que debe tomar lavariable estadística dada para que como máximo el 15% de los datos queden pordebajo de él y como máximo el restante 85% de los datos queden por encima de él.

Se llaman cuartiles de una variable estadística a tres valores que dividen la serie dedatos en cuatro partes iguales. Corresponden a los percentiles P25, P50 y P75 y sedenotan por Q1, Q2 y Q3, respectivamente.

Medidas de dispersión

La investigación acerca de una variable estadística queda incompleta si sólo se estu-dian las medidas de centralización, siendo imprescindible conocer si los datos numéri-

Tema 5 Estadistica.nb 17

Page 18: Tema 5 Estadistica

cos están concentrados o no alrededor de los valores centrales. A esto es a lo que sele llama dispersión, y a los parámetros que miden estas desviaciones respecto de lamedia se les llama medidas de dispersión.

Recorrido

Se llama recorrido o rango de una distribución a la diferencia entre el mayor y elmenor valor de la variable estadística. Conforme menor es el rango mayor es la repre-sentatividad de los valores centrales, en cuyo caso diremos que la distribución esmenos dispersa. Su cálculo es muy elemental, pero al depender sólo de los valoresextremos basta que uno de ellos se separe mucho para que el recorrido se vea muyafectado. Para evitar esto se utilizan también el rango intercuartílico Q3 -Q1 y elrango entre percentiles P90 -P10.

Desviación media

Se llama desviación media o desviación respecto de la media de una distribución a lamedia aritmética de los valores absolutos de las desviaciones observadas respecto deun determinado valor medio x. Es decir, dada una distribución de N observaciones deuna variable estadística en la que se alcanzan los valores x1, x2, …, xn con frecuenciasabsolutas f1, f2, …, fn, respectivamente, su desviación media viene dada por:

DM =1

Nÿ

k=1

n

fk ÿ xk - x

siendo x la media de la variable. Se trata de una medida de dispersión poco utilizadadada su complejidad de cálculo. Si la desviación media es muy pequeña, indica quehay una gran concentración de valores en torno a la media.

Desviación típica

Consideremos una variable estadística X que toma los valores x1, x2, …, xn. Dada unadistribución de N observaciones de dicha variable estadística en la que se alcanzan losvalores anteriores con frecuencias absolutas f1, f2, …, fn, respectivamente, se definela desviación típica de la distribución como:

s =1

Nÿ

k=1

n

fk ÿ xk - x2

siendo x la media de la variable.

Se llama varianza de una variable estadística al cuadrado de su desviación típica, y se

representa por s2.

Tanto la varianza como la desviación típica dependen de todos los datos, así como lamedia, y no se pueden calcular en los casos en que ésta no se pueda obtener. Lavarianza tiene el inconveniente de que no viene expresada en las mismas unidades

que los datos (si, por ejemplo, éstos se miden en m, la varianza se mide en m2). Encambio, la desviación típica viene expresada en las mismas unidades, y es la medidade dispersión más utilizada.

La información conjunta que proporciona la media y la desviación típica puede precis-arse con el denominado teorema de Tchebicheff: entre la media y k veces (k > 1) la

18 Tema 5 Estadistica.nb

Page 19: Tema 5 Estadistica

y ( )

desviación típica existe, como mínimo, el 100 ÿ 1- 1

k2% de las observaciones. Es

decir, entre la media y 2 desviaciones típicas está al menos el 100 ÿ 1- 1

4 = 75% de

las observaciones, y entre la media y 3 desviaciones típicas se encuentra al menos el

100 ÿ 1- 1

9 = 89% de las observaciones.

Coeficiente de variación

Se define el coeficiente de variación (CV) de una distribución de valores de unavariable estadística como el cociente entre su desviación típica s y el valor absoluto de

su media x, es decir, CV = sx . En ocasiones se multiplica este coeficiente por 100 para

proporcionar valores percentuales. El coeficiente de variación de una poblaciónhomogénea es típicamente menor que la unidad. Si este coeficiente es mayor que 1.5conviene estudiar posibles fuentes de heterogeneidad en los datos (utilización dedistintos instrumentos de medida, distintos momentos temporales, etc.).

Algunas veces resulta deseable comparar diversos grupos en relación a su relativahomogeneidad cuando los grupos tienen medias diferentes, pero puede motivar ciertaconfusión la comparación de las magnitudes absolutas de las deviaciones típicas. Enesos casos resulta aconsejable utilizar como elemento de comparación la desviacióntípica en relación a la media, es decir, el coeficiente de variación.

Medidas de forma

La forma de la representación gráfica de una distribución de frecuencias proporcionaen muchas ocasiones información útil sobre la variable estadística analizada. Las doscaracterísticas de forma más importante son la de asimetría o sesgo, que establece sila distribución es simétrica respecto de la media o no, y la de apuntamiento o curto-sis, que señala si la distribución es más puntiaguda o más plana que la distribuciónnormal, también conocida como campana de Gauss.

Asimetría o sesgo

Consideremos una variable estadística X que toma los valores x1, x2, …, xn. Dadauna distribución de N observaciones de dicha variable estadística en la que se alcan-zan los valores anteriores con frecuencias absolutas f1, f2, …, fn, respectivamente, sedefine el coeficiente de asimetría o coeficiente de sesgo como:

g3 =1

s3ÿ

1

Nÿ

k=1

n

fk ÿ xk - x3

siendo s la desviación típica de la variable y x su media.

Si g3 = 0, la distribución es simétrica respecto de la mediana; entonces, si la distribu-

ción es unimodal, las tres medidas de centralización, meda, mediana y moda,coinciden.

Si g3 > 0, la distribución presenta asimetría positiva; entonces, dicha distribución está

sesgada a la derecha, viéndose en su representación gráfica una cola para valoresmayores de la mediana.

Si g3 < 0, la distribución presenta asimetría negativa; entonces, dicha distribución está

Tema 5 Estadistica.nb 19

Page 20: Tema 5 Estadistica

sesgada a la izquierda, viéndose en su representación gráfica una cola para valoresmenores de la mediana.

Apuntamiento o curtosis

Consideremos una variable estadística X que toma los valores x1, x2, …, xn. Dadauna distribución de N observaciones de dicha variable estadística en la que se alcan-zan los valores anteriores con frecuencias absolutas f1, f2, …, fn, respectivamente, sedefine el coeficiente de apuntamiento o coeficiente de curtosis como:

g4 =1

s4ÿ

1

Nÿ

k=1

n

fk ÿ xk - x4 - 3

siendo s la desviación típica de la variable y x su media.

Este coeficiente indica el grado de elevación del diagrama de barras de las frecuenciasrelativas de la distribución. Este grado de elevación se traduce en el reparto de lafrecuencia entre el centro y los extremos de la gráfica. Como medida de referencia dedicho grado de elevación se toma la curva normal o campana de Gauss, la cual semuestra en la siguiente figura:

Si g4 = 0, la distribución presenta el mismo grado de elevación que la curva normal con

la misma varianza y se denomina distribución mesocúrtica.

Si g4 > 0, la distribución es más apuntada que la curva normal con la misma varianza

y se denomina distribución leptocúrtica.

Si g4 < 0, la distribución es menos apuntada que la curva normal con la misma vari-

anza y se denomina distribución platicúrtica.

Variables estadísticas bidimensionalesDedicamos esta sección al estudio de las variables estadísticas bidimensionales,aunque gran parte de las conclusiones y métodos utilizados se pueden extrapolar avariables multidimensionales. Empezaremos analizando cómo definir y representargráficamente dichas variables, y pasaremos a continuación al estudio de la dependen-cia que puede existir entre ambas variables, concepto conocido como correlación.

20 Tema 5 Estadistica.nb

Page 21: Tema 5 Estadistica

Definición y presentación de datos

Sea (X,Y) una variable estadística bidimensional donde las variables unidimensionalesX e Y adoptan los valores x1, x2, ..., xn e y1, y2, ..., yn, respectivamente. Así, los datos

para la variable bidimensional son pares de valores de la forma xk, yj. En el caso de

que alguna de las variables sea continua y esté agrupada en clases, consideraremossólo sus marcas de clase.

Se llama frecuencia absoluta del par xk, yj, y se denota por fkj, al número de veces

que se repite dicho par en los datos. Si N es el número total de observaciones, se

llama frecuencia relativa del par xk, yj, y se denota por hkj, a hkj =fkj

N.

Cuando cada par de la variable se presenta con frecuencia absoluta uno, los datossuelen venir dados por una tabla, en la cual cada fila representa una de las variables ycada columna al mismo individuo. Por ejemplo, la siguiente tabla muestra tanto elgasto invertido en publicidad como las ventas (ambas en miles de €) realizados poruna empresa durante los últimos años:

Gastos publicidad 4.2 8.4 12 8.4 15 16.8 17.4 18.6 21

Ventas 480 660 1080 900 1200 1330 1380 1435 1490

En Mathematica, definimos esta variable estadística bidimensional encerrando cadapar de datos entre llaves, y todos los datos entre otras llaves, como se muestra acontinuación:

gastosVentas 4.2, 480, 8.4, 660, 12, 1080, 8.4, 900,

15, 1330, 16.8, 1330,

17.4, 1380, 18.6, 1435, 21, 1490

4.2, 480, 8.4, 660, 12, 1080, 8.4, 900, 15, 1330,16.8, 1330, 17.4, 1380, 18.6, 1435, 21, 1490

Podemos mostrar la variable en forma matricial empleando el comando MatrixForm[-var]:

MatrixFormgastosVentas

4.2 4808.4 66012 1080

8.4 90015 1330

16.8 133017.4 138018.6 1435

21 1490

Tema 5 Estadistica.nb 21

Page 22: Tema 5 Estadistica

Si extraemos las dos columnas de esta matriz podemos definir las dos variables unidi-mensionales:

gastos gastosVentasAll, 1ventas gastosVentasAll, 2

4.2, 8.4, 12, 8.4, 15, 16.8, 17.4, 18.6, 21

480, 660, 1080, 900, 1330, 1330, 1380, 1435, 1490Cuando cada par de la variable estadística bidimensional se presenta con distintafrecuencia, dicha variable se define mediante las denominadas tablas de dobleentrada. En ellas, cada fila corresponde al valor de una de las variables (X) y cadacolumna al valor de la otra variable (Y); el elemento kj de la tabla representa el númerode veces que se repite el par xk, yj, es decir, su frecuencia absoluta. Por ejemplo, la

siguiente tabla muestra las edades y las alturas de un conjunto de 35 personas:

Altura1.65, 1.75 1.75, 1.85 1.85, 1.95

Edad 17 3 5 1

18 4 10 2

19 4 2 0

20 0 1 3

En Mathematica, para definir esta variable bidimensional hemos de definir dos listas.La primera contiene todos los pares de valores posibles que puede tener la variable(12 pares en este ejemplo, o bien sólo 10 pares si excluimos los que poseen frecuen-cia absoluta cero), empleando las marcas de clase para la variable altura, mientrasque la segunda contiene las respectivas frecuencias absolutas, escritas en el mismoorden que la primera lista:

edadAlturaVal 17, 1.7, 17, 1.8, 17, 1.9, 18, 1.7,

18, 1.8, 18, 1.9,

19, 1.7, 19, 1.8, 20, 1.8, 20, 1.9edadAlturaFrecAbs 3, 5, 1, 4, 10, 2, 4, 2, 1, 3

17, 1.7, 17, 1.8, 17, 1.9, 18, 1.7, 18, 1.8,18, 1.9, 19, 1.7, 19, 1.8, 20, 1.8, 20, 1.9

3, 5, 1, 4, 10, 2, 4, 2, 1, 3Podemos comprobar, por seguridad, que ambas listas contienen el mismo número deelementos:

22 Tema 5 Estadistica.nb

Page 23: Tema 5 Estadistica

LengthedadAlturaValLengthedadAlturaFrecAbs

10

10

Extrayendo como antes las dos columnas de la variable bidimensional definida y elimi-nando duplicidades con el comando DeleteDuplicates[lista] de Mathematica, porde-mos obtener las variables unidimensionales por separado:

edad DeleteDuplicatesedadAlturaValAll, 1altura DeleteDuplicatesedadAlturaValAll, 2

17, 18, 19, 20

1.7, 1.8, 1.9

Las respectivas frecuencias absolutas de cada variable se obtienen sumando lasfrecuencias absolutas de la tabla de doble entrada por filas y por columnas, respectiva-mente:

edadFrecAbs 3 5 1, 4 10 2, 4 2 0, 0 1 3alturaFrecAbs 3 4 4 0, 5 10 2 1, 1 2 0 3

9, 16, 6, 4

11, 18, 6

Los diagramas de dispersión o nubes de puntos son las representaciones másutilizadas para mostrar gráficamente los datos de una variable estadística bidimen-sional. Consisten en un sistema de ejes coordenados representando en el eje deabscisas los valores de la variable X y en el de ordenadas los de la variable Y, deforma que cada punto del plano corresponde a un valor xj, yk de la variable bidimen-

sional. La frecuencia absoluta de cada uno de estos pares de valores se puedemostrar en el grosor del punto mostrado o bien como una etiqueta en dicho punto.Estos diagramas nos resultarán muy útiles para indicarnos si existe relación o depen-dencia entre las dos variables y medir el sentido y la intensidad de dicha relación.

En Mathematica, los diagramas de dispersión los representaremos con el comandodiagDispersion[var,frec], definido al principio de este tema, donde var es la lista quedefine la variable bidimensional y frec la que define sus frecuencias absolutas. En elcaso de que éstas sean todas uno, no es necesario escribir este segundo argumento.Así, el diagrama de dispersión de la variable Gastos-Ventas viene dado por (estando lavariable Gastos representada en el eje de abscisas y la variable Ventas en el eje deordenadas):

Tema 5 Estadistica.nb 23

Page 24: Tema 5 Estadistica

diagDispersiongastosVentas

5 10 15 20

600

800

1000

1200

1400

Por su parte, el diagrama de dispersión de la variable Edad-Altura (estando la variableEdad en el eje de abscisas y la variable Altura en el de ordenadas) viene dado por:

diagDispersionedadAlturaVal, edadAlturaFrecAbs

Obsérvese que al pasar el cursor por encima de cada punto del diagrama se muestrala frecuencia absoluta de dicho punto.

Dependencia y correlación entre variables

Al estudiar una variable estadística bidimensional surge la pregunta acerca de la posi-ble relación entre ambas variables. Ya apuntábamos antes la necesidad de abordareste concepto, conocido como correlación o dependencia, el cual es uno de losestudios más importantes que se pueden realizar entre dos variables.

Decimos que existe una dependencia funcional de Y sobre X cuando a cada valor dexk le podemos asignar un único valor yj de forma que yj = f xk, es decir, cuando el

valor de una variable determina exactamente el valor de la otra. La dependencia fun-cional será lineal cuando todos los pares de puntos se encuentren sobre una recta, yserá curvilínea cuando se encuentren sobre la curva definida por la función y = f x.

24 Tema 5 Estadistica.nb

Page 25: Tema 5 Estadistica

2 4 6 8 10X

5

10

15

20

25

30

35

YDependencia funcional directa

2 4 6 8 10X

250

300

350

400

450

YDependencia parabólica inversa

Decimos que las variables X e Y son independientes o incorreladas si el valor deuna variable no influye en el valor de la otra

2 4 6 8 10X

2

4

6

8

10

YVariables independientes

Los dos anteriores, dependencia funcional e independencia, son los casos extremos, definiendo como opción intermedia y más habitual la dependencia o correlación

aleatoria cuando el diagrama de puntos se condensa entorno a la representación deuna función. Será más o menos fuerte en relación con la tendencia de los valores de ladistribución a satisfacer dicha función. Además, diremos que la correlación es positivao directa si, a medida que crecen los valores de una de las variables, crecen tambiénlos de la otra; será correlación negativa o inversa en caso contrario.

2 4 6 8 10X

2

4

6

8

YCorrelación aleatoria positiva

2 4 6 8 10X

2

4

6

8

10

YCorrelación aleatoria negativa

Por tanto, mediante los diagramas de dispersión podemos tener una idea gráfica de laposible coprrelación entre dos variables. Sin embargo, si dicha dependencia existe

Tema 5 Estadistica.nb 25

Page 26: Tema 5 Estadistica

pero es débil es difícil determinar gráficamente este hecho, por lo que necesitamos unmétodo analítico que cuantifique de manera fiable la relación entre ambas variables.

Se llama covarianza de una variable estadística bidimensional (X,Y), y denota por sxy,

al valor dado por:

xy 1

nj1

m

k1

n

xj x yk y fjk 1

nj1

m

k1

n

xj yk fjk x y

siendo x e y las medias de las variables X e Y, respectivamente. El valor de la covari-

anza expresa si la correlación es directa (sxy > 0) o inversa (sxy < 0), pero no indica el

grado.

Se define el coeficiente de correlación lineal como:

xy

x y

donde sx y sy son las desviaciones típicas de las variables X e Y, respectivamente.

Este coeficiente, que no depende de las unidades de medida, tiene el mismo signo quela covarianza y su valor siempre está comprendico entre -1 y 1, determina el grado deintensidad de la relación lineal. Sus principales propiedades son las siguientes:

Si r = 1 ó r = -1, existe dependencia funcional lineal directa o inversa,

respectivamente. Todoslos puntos del diagrama de dispersión están situados sobre una recta.

Si r = 0, las variables son incorreladas.

Si r œ 0, 1, la correlación lineal es aleatoria y positiva. Esta dependencia será más

fuertea medida que r se aproxime a 1 y más débil a medida que se aproxime a 0.

Si r œ -1, 0, la correlación lineal es aleatoria y negativa. Esta dependencia será

más fuertea medida que r se aproxime a -1 y más débil a medida que se aproxime a 0.

Una vez conocido el grado de dependencia de una variable con respecto a la otram sehace necesario obtener la función a cuya representación gráfica se asemeja el dia-grama de dispersión y que servirá como aproximación de una variable con respecto ala otra.

El problema de la regresión o ajuste consiste en ajustar una función de ecuaciónconocida a la nube de puntos obtenida de los pares de datos de la variable bidimen-sional. A la representación gráfica de esta función se le llama línea de regresión.Puesto que el diagrama de dispersión se condensa entorno a dicha línea, en mayor omenor grado, la función calculada nos sirve para obtener una aproximación o predic-ción de los valores de una variable a partir de la otra.

Existen distintos problemas de regresión dependiendo del tipo de función que busque-mos como aproximación: lineal, parabólica, exponencial, etc. Por ser la más simple y lamás utilizada, estudiaremos el problema de la regresión lineal.

Se define la recta de regresión lineal como aquélla que hace mínima la suma de loscuadrados de las distancias (en horizontal o en vertical, de ahí que existan dos rectas

26 Tema 5 Estadistica.nb

Page 27: Tema 5 Estadistica

(de regresión) de los puntos observados a los puntos estimados:

Recta de regresión de Y sobre X: Esta recta de regresión se utiliza para predecir elvalor de Y una vez conocido el correspondiente valor de X.

rYX : Y y xy

x2X x

Recta de regresión de X sobre Y: Esta recta de regresión se utiliza para predecir elvalor de X una vez conocido el correspondiente valor de Y.

rXY : X x xy

y2Y y

En Mathematica, calcularemos estas rectas de regresión utilizando el comandoestaBidim[var,frec], el cual además devuelve los valores tanto de la covarianza comodel coeficiente de correlación. Si los valores de la variable estadística bidimensional sepresentan con frecuencia 1, no es necesario escribir el segundo argumento frec, elcual es opcional.

Por ejemplo, consideremos la variable bidimensional Gastos-Ventas, que definimosanteriormente; sus rectas de regresión son las siguientes:

estaBidimgastosVentasCovarianza: 1764.814815

Coeficiente de correlación: 0.9716323552

Recta de regresión de Y sobre X: y 265.3898791 63.18958201 x

Recta de regresión de X sobre Y: x 3.208069523 0.01494027027 y

Vemos que la relación lineal es positiva y fuerte, pues el coeficiente de correlaciónlineal es próximo a 1. Podemos comprobar gráficamente el grado de ajuste de lasrectas de regresión al diagrama de dispersión, empleando los comandos Plot (hay quetener en cuenta que para representar la recta de regresión de X sobre Y hemos dedespejar la variable y de la correspondiente ecuación) y Show de Mathematica:

Tema 5 Estadistica.nb 27

Page 28: Tema 5 Estadistica

g1 diagDispersiongastosVentas;

g2

Plot265.3898791 63.18958201x, x, 0, 25, PlotStyle Red;

g3 Plotx 3.2080695230.01494027027,

x, 0, 25, PlotStyle Blue;

Showg1,

g2,

g3

5 10 15 20

600

800

1000

1200

1400

Consideramos finalmente la variable Edad-Altura:

estaBidimedadAlturaVal, edadAlturaFrecAbsCovarianza: 0.01346938776

Coeficiente de correlación: 0.2122724262

Recta de regresión de Y sobre X: y 1.503301887 0.01556603774 x

Recta de regresión de X sobre Y: x 12.97368421 2.894736842 y

Vemos que la correlación lineal entre ambas variables es muy baja, pues el coeficientede correlación es próximo a 0. Lo comprobamos gráficamente con las rectas deregresión:

28 Tema 5 Estadistica.nb

Page 29: Tema 5 Estadistica

g1 diagDispersionedadAlturaVal, edadAlturaFrecAbs;

g2 Plot1.503301887 0.01556603774x,

x, 15, 25, PlotStyle Red;

g3 Plotx 12.973684212.894736842,

x, 15, 25, PlotStyle Blue;

Showg1,

g2,

g3

Problemas resueltosMostramos en este apartado una colección de problemas del tema de Estadísticadescriptiva resueltos con la ayuda de Mathematica. Todos los problemas están expli-cados paso a paso para un mejor aprendizaje, y sirven de ejemplo de cómo utilizar elprograma Mathematica para resolver los problemas de la asignatura.

Problema 1

Con el fin de estimar la media y la desviación típica del tiempo empleado en realizarcierto trabajo, se encomendó la ejecución del mismo a 50 obreros y se midió eltiempo invertido por cada uno de ellos. Los datos obtenidos, expresados en segun-dos, fueron los siguientes:

293 248 254 246 227 314 302 361 283 295

234 252 243 262 189 256 283 222 211 237

312 306 189 202 213 196 178 231 286 238

345 184 176 217 302 258 249 302 199 187

323 262 189 214 313 296 252 301 214 226

a) ¿Cuál es el menor tiempo tardado por algún obrero? ¿Y el mayor?

Tema 5 Estadistica.nb 29

Page 30: Tema 5 Estadistica

b) ¿Cuántos obreros han tardado más de 295 segundos en ejecutar el trabajo?¿Cuántos han tardado menos de 275 segundos pero más de 200 segundos?c) Representar gráficamente su histograma, considerando clases de amplitud 25segundos empezando por la clase [170,195).d) Calcular el tiempo medio invertido en la realización del trabajo. ¿Es representativodicho valor?e) ¿Qué tipo de sesgo posee la distribución de frecuencias de la variable?f) Si la empresa selecciona al 15% de los obreros que menos tardan en ejecutar eltrabajo, ¿cuál es el tiempo máximo que tardan los obreros seleccionados?g) Si la empresa despide al 15% de los obreros que más tiempo tardan en ejecutarel trabajo, ¿cuál es el tiempo mínimo del grupo de obreros despedidos?

Antes de resolver el problema conviene borrar todas las variables definidas previa-mente, a fin de evitar posibles errores:

Clear"Global`"a) Definimos primero los valores que toma la variable estadística, como una lista denúmeros separados por comas y encerrados entre llaves, y los ordenamos de menor amayor:

tiempo

Sort293, 248, 254, 246, 227, 314, 302, 361, 283, 295, 234, 252,

243, 262, 189, 256, 283, 222, 211, 237, 312, 306, 189, 202,

213, 196, 178, 231, 286, 238, 345, 184, 176, 217, 302, 258,

249, 302, 199, 187, 323,

262, 189, 214, 313, 296, 252, 301, 214, 226

176, 178, 184, 187, 189, 189, 189, 196, 199, 202, 211, 213, 214,214, 217, 222, 226, 227, 231, 234, 237, 238, 243, 246, 248, 249,252, 252, 254, 256, 258, 262, 262, 283, 283, 286, 293, 295,296, 301, 302, 302, 302, 306, 312, 313, 314, 323, 345, 361

Vemos que el menor tiempo tardado por algún empleado es de 176 segundos y elmayor es de 361 segundos.

b) Contamos primero cuántos obreros han tardado un tiempo comprendido en el inter-valo (295,361], para lo cual podemos empelar el comando BinCounts. Como el inter-valo que se le pase como argumento a este comando debe ser cerrado por laizquierda y abierto por la derecha, podemos usar el intervalo [295.1,362), dado que nohay ningún valor mayor de 361 ni ninguno que no sea un número entero:

BinCountstiempo, 295.1, 362

12Por lo tanto, 12 obreros han tardado más de 295 segundos. Contamos ahora cuántos

30 Tema 5 Estadistica.nb

Page 31: Tema 5 Estadistica

gobreros han tardado un tiempo comprendido en el intervalo (200,275), que es equiva-lente al intervalo [200.1,275):

BinCountstiempo, 200.1, 275

24

Es decir, hay un total de 24 obreros que han tardado más de 200 segundos peromenos de 275 segundos.

c) Dibujamos el histograma empleando el comando Histogram, usando las clasesdadas en el enunciado:

Histogramtiempo, 170, 195, 220, 245, 270, 295, 320, 345, 370

d) Calculamos todos sus parámetros estadísticos, empleando el comando estaDe-scrip definido al comienzo de este tema:

estaDescripNtiempo

Tema 5 Estadistica.nb 31

Page 32: Tema 5 Estadistica

Medidas de CentralizaciónMedia: 251.44

Mediana: 248.5

Moda: 189., 302.

Medidas de DispersiónRecorrido: 185.

Desviación media: 39.1376

Desviación típica: 46.82612946

Varianza: 2192.6864

Coeficiente de variación: 0.1862318225

Medidas de FormaCoeficiente de sesgo: 0.2554663196

Coeficiente de curtosis: 0.842775447

Por lo tanto, el tiempo medio es de 251.44 segundos. Como el coeficiente de variación(0.18) es mucho menor de uno, dicha media sí es representativa de los valores de lavariable, siendo ésta homogénea.

e) Como el coeficiente de sesgo (0.26) es positivo, la distribución está ligeramentesesgada a la derecha, viéndose en su histograma una cola para valores mayores de lamediana (248.5)

f) Se trata de hallar el valor de la variable que deja por debajo de él el 15% del total deobreros; hemos de calcular por tanto el percentil 15 de la distribución:

estaDescriptiempo, 15

32 Tema 5 Estadistica.nb

Page 33: Tema 5 Estadistica

Medidas de Centralización

Media:6286

25

Mediana:497

2

Moda: 189, 302

Medidas de PosiciónPercentil 15: 196

Medidas de DispersiónRecorrido: 185

Desviación media:24 461

625

Desviación típica:1 370 429

25

Varianza:1 370 429

625

Coeficiente de variación:1 370 429

6286

Medidas de Forma

Coeficiente de sesgo:409 843 887

1 370 429 1 370 429

Coeficiente de curtosis: 1 582 796 040 496

1 878 075 644 041

Por lo tanto, el tiempo máximo que tardan los obreros seleccionados es de 196segundos.

g) Se trata ahora de hallar el valor de la variable que deja por encima de él el 15% deltotal de obreros, luego deja por debajo de él el 85% del total de obreros; hemos decalcular por tanto el percentil 85:

estaDescriptiempo, 85

Tema 5 Estadistica.nb 33

Page 34: Tema 5 Estadistica

Medidas de Centralización

Media:6286

25

Mediana:497

2

Moda: 189, 302

Medidas de PosiciónPercentil 85: 302

Medidas de DispersiónRecorrido: 185

Desviación media:24 461

625

Desviación típica:1 370 429

25

Varianza:1 370 429

625

Coeficiente de variación:1 370 429

6286

Medidas de Forma

Coeficiente de sesgo:409 843 887

1 370 429 1 370 429

Coeficiente de curtosis: 1 582 796 040 496

1 878 075 644 041

Por consiguiente, el tiempo mínimo del grupo de obreros despedidos es de 302segundos.

Problema 2

El número de unidades de un determinado producto adquiridas anualmente por 110consumidores entrevistados se distribuye de la siguiente forma:

Nº de unidades 20 30 30 40 40 50 50 60 60 100

Nº de consumidores 25 20 35 15 15

a) Representar gráficamente la distribución de frecuencias de la variable dada.b) Calcular las unidades medias adquiridas, la mediana de las adquisiciones y elnúmero de unidades vendidas más frecuente.c) Analizar la homogeneidad de la muestra.d) ¿Cómo es la distribución de frecuencias si la comparamos con la distribución

34 Tema 5 Estadistica.nb

Page 35: Tema 5 Estadistica

) ¿normal?e) Si, una vez ordenados los grupos de consumidores por orden ascendente de susadquisiciones, se quieren clasificar en cuatro grupos de igual número de consumi-dores cada uno, ¿cuál sería el número de unidades vendidas que delimitarían elgrupo de consumidores que más unidades han adquirido?

Antes de resolver el problema conviene borrar todas las variables definidas previa-mente, a fin de evitar posibles errores:

Clear"Global`"a) Definimos primero la distribución de frecuencias usando la agrupación en clasesdada en el enunciado (obsérvese que no tenemos acceso a los datos originales decada consumidor). Para ello debemos definir primero los valores de la variable (lasmarcas de las clases) y luego las respectivas frecuencias absolutas (en el mismoorden):

ventasVal 25, 35, 45, 55, 80ventasFrec 25, 20, 35, 15, 15

25, 35, 45, 55, 80

25, 20, 35, 15, 15Aunque inicialmente la variable era continua, al estar agrupada en sólo 5 clases se haconvertido en una variable discreta; su representación gráfica vendrá dada por tantopor un diagrama de barras:

BarChartventasFrec, ChartLabels ventasVal

b) Las unidades medias adquiridas nos las da la media de la distribución; calculamospues sus parámetros estadísticos

estaDescripNventasVal, ventasFrec

Tema 5 Estadistica.nb 35

Page 36: Tema 5 Estadistica

Medidas de CentralizaciónMedia: 44.77272727

Mediana: 45.

Moda: 45.

Medidas de DispersiónRecorrido: 55.

Desviación media: 12.54132231

Desviación típica: 17.02119486

Varianza: 289.7210744

Coeficiente de variación: 0.3801688192

Medidas de FormaCoeficiente de sesgo: 0.8477317488

Coeficiente de curtosis: 0.04679748161

Por lo tanto, las unidades medias adquiridas son 44.77. La mediana de las observa-ciones es 45, lo que quiere decir que la clase mediana es [40,50). FInalmente, elnúmero de unidades vendidas más frecuentemente nos lo da la moda de la distribu-ción, 45, lo que significa que la distribución es unimodal y que la clase modal es tam-bién [40,50).

c) Para analizar la homogeneidad de la muestra hemos de considerar el valor delcoeficiente de variación, 0.38. Como éste es sensiblemente menor que la unidad, lamuestra es homogénea.

d) Para comparar la distribución de frecuencias de la variable dada con la variablenormal hemos de calcular su coeficiente de curtosis. Como éste es negativo (-0.047),podemos concluir que la distribución dada es menos puntiaguda que la distribuciónnormal con la misma desviación típica (platicúrtica), aunque su valor absoluto es tanpequeño que la diferencia entre ambas distribuciones es mínima.

e) Los cuatro grupos con igual número de consumidores cada uno de ellos nos losproporcionan los tres cuartiles de la distribución. El grupo formado por los consumi-dores que más unidades ha adquirido está delimitado entre el tercer cuartil y el valormáximo de la variable. Por lo tanto, lo que nos pide el enunciado es el tercer cuartil Q3,que coincide con el percentil P75:

estaDescripventasVal, ventasFrec, 75

36 Tema 5 Estadistica.nb

Page 37: Tema 5 Estadistica

Medidas de Centralización

Media:985

22

Mediana: 45

Moda: 45

Medidas de PosiciónPercentil 75: 55

Medidas de DispersiónRecorrido: 55

Desviación media:3035

242

Desviación típica:5 5609

22

Varianza:140 225

484

Coeficiente de variación:5609

197

Medidas de Forma

Coeficiente de sesgo:356 112

5609 5609

Coeficiente de curtosis: 1 472 290

31 460 881

Por lo tanto, el número de unidades vendidas que delimitaría el grupo de consumi-dores que más unidades han adquirido es 55.

Problema 3

La siguiente tabla muestra las notas obtenidas por 14 alumnos de la ETSIE en dosasignaturas: MAEI yMAEII:

MAEI 5.5 3 7 2 6 4 8 3 6.5 5 3.5 1 6 9

MAEII 6 2 8.5 3 5.5 3 6 4 7 4 5 2.5 6.5 8

a) Calcular la nota media de ambas asignaturas. ¿Cuál es más representativa?.b) ¿Cuántos alumnos han aprobado (nota mayor o igual que 5) MAEI?c) ¿Qué calificación de MAEII deja por encima el 70% de las observaciones?d) Representar el diagrama de dispersión de las notas de ambas asignaturas.e) ¿Existe alguna relación entre las notas obtenidas por los alumnos en ambas

Tema 5 Estadistica.nb 37

Page 38: Tema 5 Estadistica

) ¿ gasignaturas?f) Hallar la ecuación de la recta de regresión de las notas de MAEII sobre las notasde MAEI y representarla gráficamente sobre el diagrama de dispersión.g) Si un alumno tiene un 7.5 en MAEI, ¿qué nota se supone que tendría en MAEII?¿Es fiable esta predicción?h) Si un alumno tiene un 5 en MAEII, ¿qué nota se supone que tendría en MAEI?¿Es fiable esta predicción?

Antes de resolver el problema conviene borrar todas las variables definidas previa-mente, a fin de evitar posibles errores:

Clear"Global`"a) Al tratarse de una variable bidimensional, hemos definirla con los pares de notasque ha obtenido cada uno de los 14 alumnos de la muestra:

notas 5.5, 6, 3, 2, 7, 8.5, 2, 3, 6, 5.5, 4, 3,

8, 6, 3, 4, 6.5, 7,

5, 4, 3.5, 5, 1, 2.5, 6, 6.5, 9, 8

5.5, 6, 3, 2, 7, 8.5, 2, 3, 6, 5.5, 4, 3, 8, 6,3, 4, 6.5, 7, 5, 4, 3.5, 5, 1, 2.5, 6, 6.5, 9, 8

Como estos pares de valores se presentan todos con frecuencia 1, no es necesariodefinir la lista con dichas frecuencias absolutas. Definimos ahora cada variable porseparado extrayendo las columnas de esta matriz y ordenando los valores de menor amayor:

notasMAEI SortnotasAll, 1notasMAEII SortnotasAll, 2

1, 2, 3, 3, 3.5, 4, 5, 5.5, 6, 6, 6.5, 7, 8, 9

2, 2.5, 3, 3, 4, 4, 5, 5.5, 6, 6, 6.5, 7, 8, 8.5

Calculamos ahora los parámetros estadísticos de ambas variables unidimensionales:

estaDescripnotasMAEI

38 Tema 5 Estadistica.nb

Page 39: Tema 5 Estadistica

Medidas de CentralizaciónMedia: 4.964285714

Mediana: 5.25

Moda: 3, 6

Medidas de DispersiónRecorrido: 8

Desviación media: 1.897959184

Desviación típica: 2.231785686

Varianza: 4.980867347

Coeficiente de variación: 0.4495683396

Medidas de FormaCoeficiente de sesgo: 0.003835696987

Coeficiente de curtosis: 0.8845870474

estaDescripnotasMAEIIMedidas de CentralizaciónMedia: 5.071428571

Mediana: 5.25

Moda: 3, 4, 6

Medidas de DispersiónRecorrido: 6.5

Desviación media: 1.714285714

Desviación típica: 1.980774946

Varianza: 3.923469388

Coeficiente de variación: 0.3905753415

Medidas de FormaCoeficiente de sesgo: 0.1008674172

Coeficiente de curtosis: 1.128014867

Por lo tanto, la nota media de MAEI es 4.96, mientras que la nota media de MAEII es5.07. De ellas, la segunda es más representativa, pues su coeficiente de variación(0.39) es menor que el de la primera variable (0.45). Observamos que las dos vari-ables unidimensionales son homogénesa, pues sus coeficientes de variación sonclaramente menores que 1.

Tema 5 Estadistica.nb 39

Page 40: Tema 5 Estadistica

b) Para averiguar cuantos alumnos han aprobado MAEI, hemos de contar cuántos deellos han obtenido una nota comprendida en el intervalo [5,10) (la mayor nota es un 9):

BinCountsnotasMAEI, 5, 10

8

Es decir, han aprobado 8 de los 14 alumnos (el 57%). También podemos resolver esteapartado hallando las frecuencias absolutas de las notas de MAEI:

TallynotasMAEI

1, 1, 2, 1, 3, 2, 3.5, 1, 4, 1, 5, 1,5.5, 1, 6, 2, 6.5, 1, 7, 1, 8, 1, 9, 1

y contando cuántos alumnos han obtenido un 5 o más:

nAprobados 1 1 2 1 1 1 1

8

c) La calificación de MAEII que deja por encima el 70% de las observaciones dejarápor debajo el 30% restante, luego se trata del percentil 30:

estaDescripnotasMAEII, 30

40 Tema 5 Estadistica.nb

Page 41: Tema 5 Estadistica

Medidas de CentralizaciónMedia: 5.071428571

Mediana: 5.25

Moda: 3, 4, 6

Medidas de PosiciónPercentil 30: 4.

Medidas de DispersiónRecorrido: 6.5

Desviación media: 1.714285714

Desviación típica: 1.980774946

Varianza: 3.923469388

Coeficiente de variación: 0.3905753415

Medidas de FormaCoeficiente de sesgo: 0.1008674172

Coeficiente de curtosis: 1.128014867

Por lo tanto, el 70 % de los alumnos han obtenido una nota mayor de 4 en MAEII.

d) El diagrama de dispersión pedido lo dibujamos con el comando diagDispersion,definido al principio del tema; como lo volveremos a necesitar más adelante en otroapartado, lo guardamos en una variable:

graf1 diagDispersionnotas

2 4 6 8

3

4

5

6

7

8

e) Para hallar el tipo de relación que existe entre ambas asignatura hemos de calcularel coeficiente de correlación, para lo cual usamos el comando estaBidim definido alprincipio de este tema:

Tema 5 Estadistica.nb 41

Page 42: Tema 5 Estadistica

estaBidimnotasCovarianza: 3.823979592

Coeficiente de correlación: 0.8650235753

Recta de regresión de Y sobre X: y 1.260179257 0.7677336748 x

Recta de regresión de X sobre Y: x 0.02145643693 0.9746423927 y

Como el coeficiente de correlación es 0.87, existe una correlación aleatoria positiva,aunque no muy fuerte pues dicho coeficiente ni siquiera llega a 0.9.

f) La recta de regresión pedida es la recta de regresión de Y sobre X, puesto que en ladefinición de la variable bidimensional, la primera coordenada de cada par corre-sponde a MAEI, que es por tanto la variable que va en el eje de abscisas. la representa-mos gráficamente junto al diagrama de dispersión:

graf2 Plot1.260179257 0.7677336748x,

x, 0, 10, PlotStyle Red;

Showgraf1, graf2

2 4 6 8

3

4

5

6

7

8

g) Como conocemos la nota de MAEI, para estimar la nota de MAEII hemos de utilizarla recta de regresión de Y sobre X. Si en ésta sustituimos x = 7.5, obtenemos:

predMAEII 1.260179257 0.76773367487.5

7.018181818

la cual es la nota estimada que tendrá ese nuevo alumno en MAEII. Esta predicción esfiable porque el coeficiente de correlación entre ambas variables es próximo a 1.

h) Como conocemos la nota de MAEII, para estimar la nota de MAEI hemos de utilizarla recta de regresión de X sobre Y. Si en ésta sustituimos y = 7.5, obtenemos:

predMAEI 0.02145643693 0.97464239275

4.8946684

42 Tema 5 Estadistica.nb

Page 43: Tema 5 Estadistica

la cual es la nota estimada que tendrá ese nuevo alumno en MAEI. Esta predicción esfiable porque el coeficiente de correlación entre ambas variables es próximo a 1.

Problema 4

La siguiente tabla representa la información obtenida sobre 60 personas, a cada unade las cuales se le tomó el peso (en Kg) y la estatura (en m):

Estatura1.55 1.65 1.65 1.75 1.75 1.85

Peso 50 55 2 1 0

55 60 2 2 1

60 65 1 3 2

65 70 1 10 8

70 75 4 5 5

75 80 2 3 8

a) Hallar el peso medio y la estatura media de las personas del estudio. ¿Cuál deellas es más representativa?.b) ¿Cuál de las dos variables es más simétrica?c) Para realizar un estudio sobre obesidad se selecciona de la muestra el 15% delas personas que más pesan. ¿Cuál es el peso mínimo de las personas del gruposeleccionado?d) Representar el diagrama de dispersión de la estatura sobre el peso, junto con lasdos rectas de regresión de la variable bidimensional dada.e) ¿Existe algún tipo de dependencia entre el peso y la estatura de las personas dela muestra?f) Si se añade a la muestra una nueva persona que pesa 72 Kg, ¿cuál es su estaturaestimada?

Antes de resolver el problema conviene borrar todas las variables definidas previa-mente, a fin de evitar posibles errores:

Clear"Global`"a) En primer lugar hemos de definir la variable bidimensional, para lo cual vamos aconsiderar todos los pares de valores (marcas de clase) que poseen frecuencia abso-luta no nula:

Tema 5 Estadistica.nb 43

Page 44: Tema 5 Estadistica

pesoEstaturaVal 52.5, 1.6, 52.5, 1.7, 57.5, 1.6,

57.5, 1.8, 57.5, 1.7,

62.5, 1.6, 62.5, 1.8, 62.5, 1.7,

67.5, 1.6, 67.5, 1.8, 67.5, 1.7,

72.5, 1.6, 72.5, 1.8,

72.5, 1.7, 77.5, 1.6, 77.5, 1.8, 77.5, 1.7

52.5, 1.6, 52.5, 1.7, 57.5, 1.6, 57.5, 1.8, 57.5, 1.7,62.5, 1.6, 62.5, 1.8, 62.5, 1.7, 67.5, 1.6,67.5, 1.8, 67.5, 1.7, 72.5, 1.6, 72.5, 1.8,72.5, 1.7, 77.5, 1.6, 77.5, 1.8, 77.5, 1.7

Definimos también las frecuencias absolutas de cada par de valores, en el mismoorden:

pesoEstaturaFrecAbs

2, 1, 2, 2, 1, 1, 3, 2, 1, 10, 8, 4, 5, 5, 2, 3, 8

2, 1, 2, 2, 1, 1, 3, 2, 1, 10, 8, 4, 5, 5, 2, 3, 8Definimos ahora cada variable unidimensional por separado, extrayendo las columnasde la variable bidimensional y eliminando elementos duplicados:

pesoVal DeleteDuplicatespesoEstaturaValAll, 1estaturaVal DeleteDuplicatespesoEstaturaValAll, 2

52.5, 57.5, 62.5, 67.5, 72.5, 77.5

1.6, 1.7, 1.8Las frecuencias absolutas de la variable Peso son la suma por filas de las frecuenciasde la tabla de doble entrada, mientras que las de la variable Estatura son la suma porcolumnas:

pesoFrecAbs 3, 5, 6, 19, 14, 13estaturaFrecAbs 12, 24, 24

3, 5, 6, 19, 14, 13

12, 24, 24Calculamos los parámetros estadísticos de la variable Peso:

estaDescrippesoVal, pesoFrecAbs

44 Tema 5 Estadistica.nb

Page 45: Tema 5 Estadistica

Medidas de CentralizaciónMedia: 68.75

Mediana: 67.5

Moda: 67.5

Medidas de DispersiónRecorrido: 25.

Desviación media: 5.541666667

Desviación típica: 6.929706583

Varianza: 48.02083333

Coeficiente de variación: 0.1007957321

Medidas de FormaCoeficiente de sesgo: 0.6033629176

Coeficiente de curtosis: 0.2719637118

así como los de la variable Estatura:

estaDescripestaturaVal, estaturaFrecAbsMedidas de CentralizaciónMedia: 1.72

Mediana: 1.7

Moda: 1.7, 1.8

Medidas de DispersiónRecorrido: 0.2

Desviación media: 0.064

Desviación típica: 0.07483314774

Varianza: 0.0056

Coeficiente de variación: 0.04350764403

Medidas de FormaCoeficiente de sesgo: 0.3436215967

Coeficiente de curtosis: 1.153061224

Por lo tanto, el peso medio de las personas de la muestra es de 68.75 Kg, mientrasque la estatura media es de 1.72 m. Aunque ambas variables son bastantehomogéneas, la estatura media es más representativa por que su coeficiente devariación (0.043) es menor que el de la variable Peso (0.10).

Tema 5 Estadistica.nb 45

Page 46: Tema 5 Estadistica

b) La simetría de una distribución nos la da el coeficiente de sesgo o de asimetría.Vemos entonces que la variable Estatura es más simétrica que la variable Peso, puessu coeficiente de sesgo, en valor absoluto, es menor (0.34 frente a 0.60).

c) La persona de menor peso del grupo seleccionado deja por debajo de ella al 85%de los individuos de la muestra; hemos de calcular por tanto el percentil 85:

estaDescrippesoVal, pesoFrecAbs, 85Medidas de CentralizaciónMedia: 68.75

Mediana: 67.5

Moda: 67.5

Medidas de PosiciónPercentil 85: 77.5

Medidas de DispersiónRecorrido: 25.

Desviación media: 5.541666667

Desviación típica: 6.929706583

Varianza: 48.02083333

Coeficiente de variación: 0.1007957321

Medidas de FormaCoeficiente de sesgo: 0.6033629176

Coeficiente de curtosis: 0.2719637118

Es decir, el menor peso del grupo seleccionado es 77.5 Kg.

d) Dibujamos el diagrama de dispersión pedido, y lo guardamos en una variableporque nos hará falta después:

46 Tema 5 Estadistica.nb

Page 47: Tema 5 Estadistica

graf1 diagDispersionpesoEstaturaVal, pesoEstaturaFrecAbs

Calculamos ahora las ecuaciones de las rectas de regresión:

estaBidimpesoEstaturaVal, pesoEstaturaFrecAbsCovarianza: 0.03541666667

Coeficiente de correlación: 0.06893204948

Recta de regresión de Y sobre X: y 1.667628344 0.000737527115 x

Recta de regresión de X sobre Y: x 57.67938353 6.442647802 y

Dibujamos las dos rectas de regresión y las almacenamos en sendas variables (en lade X sobre Y hemos de despejar la y en función de la x):

Tema 5 Estadistica.nb 47

Page 48: Tema 5 Estadistica

grafYX Plot1.667628344 0.000737527115 x, x, 50, 80,

PlotStyle RedgrafXY Plotx 57.679383536.442647802, x, 50, 80,

PlotStyle Blue

55 60 65 70 75 80

1.710

1.715

1.720

1.725

55 60 65 70 75 80

-1

1

2

3

Finalmente, dibujamos las dos rectas de regresión sobre el diagrama de dispersión:

Showgraf1, grafYX, grafXY

e) Como vemos en el gráfico anterior, las dos rectas de regresión son muy diferentesentre sí, lo que quiere decir que no hay relación entre ambas variables. En efecto, el

48 Tema 5 Estadistica.nb

Page 49: Tema 5 Estadistica

ycoeficiente de correlación entre ellas es 0.069, lo que demuestra que ambas variablesson independientes.

f) Como conocemos el peso del nuevo individuo (variable X), hemos de emplear larecta de regresión de Y sobre X; si en ella sustituimos x = 72, obtenemos:

predEstatura 1.667628344 0.000737527115 72

1.720730296

Es decir, que se espera que dicho individuo tenga una estatura de 1.72 m. Obsérveseque aunque esta predicción basada en la recta de regresión siempre se puede hacer,hay veces, como en este ejercicio, en que la fiabilidad de dicha predicción es nula,dado que ambas variables son independientes (coeficiente de correlación próximo acero). En realidad no tenemos información suficiente como para predecir la estaturadel nuevo individuo, que pudiera ser cualquiera.

Tema 5 Estadistica.nb 49