Problemas Rcmdr

ESTADÍSTICA DESCRIPTIVA

Problemas propuestos para resolver con Rcmdr

Grado en Ingeniería Electrónica Industrial

Bruno Flores Ramos

08/04/2015

1. Utilizando el fichero de datos titanic en el que aparecen cuatro variables, Class,

Sex, Age y Survived que aportan información sobre la clase que ocupaba el

pasajero, su sexo, edad y si sobrevivió o no:

En primer lugar, conseguimos el fichero titanic en el menú Datos, Conjunto de datos en

paquetes, Leer conjunto de datos desde paquete adjunto, datasets. Una vez tenemos el conjunto

de datos activo, podemos comenzar el ejercicio.

Construir la tabla de doble entrada para las variables Class y Survived.

El conjunto de datos titanic que tenemos activo tiene una columna con las frecuencias, pero aún

así R Commander no puede trabajar con ellas. Para convertir esta tabla en otra con la que el

programa pueda trabajar debemos hacer clic en el menú Datos, Conjunto de datos activo y

Seleccionar conjunto de datos activo.

Una vez seleccionado, introduciremos las siguientes órdenes en el Script, las seleccionaremos

con el cursor y haremos clic en Ejecutar.

Una vez hecho esto, habremos creado una tabla nueva con todos los datos en hilera, con la que

R Commander podrá trabajar usando las frecuencias.

Para obtener la tabla de doble entrada, ahora deberemos seleccionar el menú Datos, Conjunto de

datos activo y Seleccionar conjunto de datos activo. Al haber creado otra tabla, nos dará a

elegir. En esta ocasión elegiremos la que acabamos de crear; Titanic2.

Ahora, abriremos el menú Estadísticos, Tablas de contingencia, Tabla de doble entrada.

Seleccionamos en variable de fila Class y en variable de columna Survived, obteniendo

finalmente la tabla que queríamos.

Determinar la distribución marginal de la variable Survived. Estudiar su

representación gráfica e interpretar sus resultados.

Abriremos el menú Estadísticos, Resúmenes y Distribución de frecuencias. Seleccionamos la

variable Survived que es con la que queremos trabajar, hacemos clic en aceptar y obtendremos

como resultado la distribución marginal que queríamos conseguir.

Para obtener una representación gráfica abriremos el menú Gráficas y Gráfica de barras.

Seleccionamos otra vez la variable Survived, y obtenemos la siguiente gráfica.

Como podemos ver, el número de pasajeros que no sobrevivieron es aproximadamente el doble

que el número de los que sobrevivieron. Así nos lo muestran los porcentajes, con más precisión:

un 67.7% no sobrevivió.

Determinar la distribución condicionada de la variable Survived a ser mujer.

Representar e interpretar su correspondiente diagrama de barras.

Para crear una distribución condicionada deberemos filtrar nuestra distribución original. Para

ello, abriremos el menú Datos, Conjunto de datos activo, Filtrar conjunto de datos activo.

Una vez abierta esa pestaña, desmarcaremos Incluir todas las variables, marcaremos Survived y

escribiremos en Expresión de selección: Sex==”Female”, pues es el filtro que queremos

realizar. En Nombre del nuevo conjunto de datos, podemos escribir TitanicSurvivedFemale,

simplemente por no sobrescribir el conjunto activo.

Hacemos clic en aceptar y obtenemos nuestra distribución condicionada.

Abrimos el menú Estadísticos, Resúmenes y Conjunto de datos activo; para ver un resumen de

dicha distribución.

Para obtener la gráfica, abriremos el menú Gráficas, Gráfica de barras y la variable Survived.

Haremos clic en aceptar y obtendremos nuestra gráfica de barras.

Como podemos ver, casi tres cuartas partes del número total de mujeres sobrevivieron.

Probablemente esto fuese porque se les otorgase mayor preferencia a niños y mujeres a la hora

de salvarse que a los hombres.

2. Utilizando el fichero cars cuyos datos proporcionan la velocidad de los coches de

primeros del siglo XX y las distancias para su detención:

En primer lugar, como en el ejercicio anterior, obtenemos el fichero cars en el menú Datos,

Conjunto de datos en paquetes, Leer conjunto de datos desde paquete adjunto, datasets. Una vez

tenemos el conjunto de datos activo, procedemos a realizar el ejercicio.

Para la variable distancia, calcular sus medidas de tendencia central y de

dispersión. Determinar el diagrama de cajas con bigotes. Comentar los resultados

obtenidos.

Abrimos el menú Estadísticos; Resúmenes; y seleccionamos Conjunto de datos activo.

Obtenemos como resultado:

De ese resultado obtendremos las medidas de tendencia central.

Para obtener las de dispersión, abriremos el menú Estadísticos, Resúmenes y seleccionaremos

Resúmenes numéricos. Seleccionaremos dist como variable y en la pestaña Estadísticos

marcaremos las opciones Desviación típica, Rango intercuartílico y Coeficiente de variación,

obteniendo como resultado lo siguiente:

Para calcular la varianza, otra medida de dispersión importante, introduciremos en el Script el

comando var(cars), obteniendo:

Después de estas tres acciones, interpretamos las siguientes medidas:

- De tendencia central:

o Media: 42.98

o Mediana: 36

- De dispersión:

o Cuasivarianza: (sd es la raíz de la cuarsivarianza, por tanto

elevándolo al cuadrado la obtenemos) = 664,0609455844

o Rango intercuartílico: 30

o Coeficiente de variación: 0.5995667

Para obtener el diagrama de cajas con bigotes, abriremos el menú Gráficas, Diagrama de caja, y

seleccionaremos la variable dist (distancia). Haremos clic en aceptar y obtendremos el diagrama

siguiente.

El bigote inferior representa las distancias que van desde la mínima hasta el primer cuartil; la

parte inferior de la caja, las distancias que están entre el primer y el segundo cuartil; la parte

superior de la caja, las que están entre el segundo y el tercer cuartil, y el bigote superior las que

están entre el tercer cuartil y la distancia máxima. A su vez, en este caso particular, tenemos un

dato atípico alejado incluso del bigote superior por ser mucho mayor al resto.

La parte inferior de la caja es más pequeña que la parte superior, ello quiere decir que las

distancias comprendidas entre el 50% y el 75% de las observaciones están más dispersas que

entre 25% y el 50%.

El bigote inferior es de menor tamaño que el superior, lo que quiere decir que el 25% de las

menores distancias están más concentradas que el 25% de las mayores.

El rango intercuartílico es 30, es decir, el 50% de las distancias está comprendido en 30.

La mediana es menor que la media, y esto se debe a que no es sensible a datos atípicos; mientras

que la media si lo es. Por tanto, observamos que hay datos atípicos mayores considerablemente

que el resto del conjunto.

El coeficiente de variación es aproximadamente del 60%, por lo que la dispersión entre los datos

del conjunto es considerable, no son muy homogéneos.

Para la variable velocidad: representar gráficamente los datos y determinar a

partir de que velocidad se encuentra el 75% de las velocidades más altas.

Para representar un histograma de los datos de la variable velocidad, abrimos el menú Gráfica,

Histograma y seleccionamos la variable speed (velocidad). Hacemos clic en aceptar y

obtenemos la siguiente gráfica.

Para determinar a partir de que velocidad se encuentra el 75% de las velocidades más altas,

abrimos el menú Estadísticos, Resúmenes, Resúmenes numéricos y seleccionamos la variable

speed. En la pestaña Estadísticos sólo marcamos los cuantiles, el resto lo desmarcamos pues

para responder esta pregunta no nos será necesario.

Obtendremos como resultado:

De ahí interpretamos que el percentil 75%; el valor de velocidad que básicamente nos

preguntaban en el enunciado, es el 19.

Determinar el diagrama de dispersión de velocidad/tiempo. Calcular la recta de

regresión, el coeficiente de determinación y de correlación lineal. Interpretar los

resultados.

Para obtener el diagrama de dispersión que nos pide el enunciado, abriremos el menú Gráficas,

Diagrama de dispersión. Una vez dentro, seleccionamos la variable dist como variable x y la

variable speed como y. En la pestaña Opciones sólo marcamos Línea de mínimos cuadrados y

Automáticamente.

Obtenemos el siguiente diagrama:

.

Para obtener la recta de regresión, abrimos el menú Estadísticos, Ajuste de modelos, Regresión

lineal. Seleccionamos como variable explicada la variable speed y como variable explicativa,

dist. Obtenemos como resultado los siguientes datos:

Nuestra recta de regresión es de la forma: y = a + bx ; donde y es la velocidad y x es la distancia.

Por tanto, de los datos que hemos obtenido del ajuste lineal, sacamos:

Ordenada en el origen de la recta (a): 8.28391

Pendiente de la recta (b): 0.16557

o Ecuación de la recta: y = 8.28391 + 0.16557x

Coeficiente de determinación lineal (Multiple R-squared): 0.6511

Para calcular el coeficiente de correlación lineal, abrimos el menú Estadísticos, Resúmenes,

Matriz de correlaciones. Una vez dentro, seleccionamos ambas variables y dejamos marcadas

las casillas que ya lo están, sin cambiar nada. Obtenemos como resultado:

Nuestro coeficiente de correlación lineal es 0.8068949, que nos confirma que el ajuste es

bastante bueno al ser un valor próximo a 1.

Problemas Rcmdr

Documents

Transcript of Problemas Rcmdr