Problemas Rcmdr
-
Upload
brunofloresramos -
Category
Documents
-
view
229 -
download
0
description
Transcript of Problemas Rcmdr
![Page 1: Problemas Rcmdr](https://reader030.fdocuments.mx/reader030/viewer/2022013122/563db7bf550346aa9a8d9861/html5/thumbnails/1.jpg)
ESTADÍSTICA DESCRIPTIVA
Problemas propuestos para resolver con Rcmdr
Grado en Ingeniería Electrónica Industrial
Bruno Flores Ramos
08/04/2015
![Page 2: Problemas Rcmdr](https://reader030.fdocuments.mx/reader030/viewer/2022013122/563db7bf550346aa9a8d9861/html5/thumbnails/2.jpg)
1. Utilizando el fichero de datos titanic en el que aparecen cuatro variables, Class,
Sex, Age y Survived que aportan información sobre la clase que ocupaba el
pasajero, su sexo, edad y si sobrevivió o no:
En primer lugar, conseguimos el fichero titanic en el menú Datos, Conjunto de datos en
paquetes, Leer conjunto de datos desde paquete adjunto, datasets. Una vez tenemos el conjunto
de datos activo, podemos comenzar el ejercicio.
Construir la tabla de doble entrada para las variables Class y Survived.
El conjunto de datos titanic que tenemos activo tiene una columna con las frecuencias, pero aún
así R Commander no puede trabajar con ellas. Para convertir esta tabla en otra con la que el
programa pueda trabajar debemos hacer clic en el menú Datos, Conjunto de datos activo y
Seleccionar conjunto de datos activo.
Una vez seleccionado, introduciremos las siguientes órdenes en el Script, las seleccionaremos
con el cursor y haremos clic en Ejecutar.
Una vez hecho esto, habremos creado una tabla nueva con todos los datos en hilera, con la que
R Commander podrá trabajar usando las frecuencias.
Para obtener la tabla de doble entrada, ahora deberemos seleccionar el menú Datos, Conjunto de
datos activo y Seleccionar conjunto de datos activo. Al haber creado otra tabla, nos dará a
elegir. En esta ocasión elegiremos la que acabamos de crear; Titanic2.
Ahora, abriremos el menú Estadísticos, Tablas de contingencia, Tabla de doble entrada.
Seleccionamos en variable de fila Class y en variable de columna Survived, obteniendo
finalmente la tabla que queríamos.
![Page 3: Problemas Rcmdr](https://reader030.fdocuments.mx/reader030/viewer/2022013122/563db7bf550346aa9a8d9861/html5/thumbnails/3.jpg)
Determinar la distribución marginal de la variable Survived. Estudiar su
representación gráfica e interpretar sus resultados.
Abriremos el menú Estadísticos, Resúmenes y Distribución de frecuencias. Seleccionamos la
variable Survived que es con la que queremos trabajar, hacemos clic en aceptar y obtendremos
como resultado la distribución marginal que queríamos conseguir.
Para obtener una representación gráfica abriremos el menú Gráficas y Gráfica de barras.
Seleccionamos otra vez la variable Survived, y obtenemos la siguiente gráfica.
Como podemos ver, el número de pasajeros que no sobrevivieron es aproximadamente el doble
que el número de los que sobrevivieron. Así nos lo muestran los porcentajes, con más precisión:
un 67.7% no sobrevivió.
![Page 4: Problemas Rcmdr](https://reader030.fdocuments.mx/reader030/viewer/2022013122/563db7bf550346aa9a8d9861/html5/thumbnails/4.jpg)
Determinar la distribución condicionada de la variable Survived a ser mujer.
Representar e interpretar su correspondiente diagrama de barras.
Para crear una distribución condicionada deberemos filtrar nuestra distribución original. Para
ello, abriremos el menú Datos, Conjunto de datos activo, Filtrar conjunto de datos activo.
Una vez abierta esa pestaña, desmarcaremos Incluir todas las variables, marcaremos Survived y
escribiremos en Expresión de selección: Sex==”Female”, pues es el filtro que queremos
realizar. En Nombre del nuevo conjunto de datos, podemos escribir TitanicSurvivedFemale,
simplemente por no sobrescribir el conjunto activo.
Hacemos clic en aceptar y obtenemos nuestra distribución condicionada.
Abrimos el menú Estadísticos, Resúmenes y Conjunto de datos activo; para ver un resumen de
dicha distribución.
Para obtener la gráfica, abriremos el menú Gráficas, Gráfica de barras y la variable Survived.
Haremos clic en aceptar y obtendremos nuestra gráfica de barras.
![Page 5: Problemas Rcmdr](https://reader030.fdocuments.mx/reader030/viewer/2022013122/563db7bf550346aa9a8d9861/html5/thumbnails/5.jpg)
Como podemos ver, casi tres cuartas partes del número total de mujeres sobrevivieron.
Probablemente esto fuese porque se les otorgase mayor preferencia a niños y mujeres a la hora
de salvarse que a los hombres.
2. Utilizando el fichero cars cuyos datos proporcionan la velocidad de los coches de
primeros del siglo XX y las distancias para su detención:
En primer lugar, como en el ejercicio anterior, obtenemos el fichero cars en el menú Datos,
Conjunto de datos en paquetes, Leer conjunto de datos desde paquete adjunto, datasets. Una vez
tenemos el conjunto de datos activo, procedemos a realizar el ejercicio.
Para la variable distancia, calcular sus medidas de tendencia central y de
dispersión. Determinar el diagrama de cajas con bigotes. Comentar los resultados
obtenidos.
Abrimos el menú Estadísticos; Resúmenes; y seleccionamos Conjunto de datos activo.
Obtenemos como resultado:
De ese resultado obtendremos las medidas de tendencia central.
Para obtener las de dispersión, abriremos el menú Estadísticos, Resúmenes y seleccionaremos
Resúmenes numéricos. Seleccionaremos dist como variable y en la pestaña Estadísticos
marcaremos las opciones Desviación típica, Rango intercuartílico y Coeficiente de variación,
obteniendo como resultado lo siguiente:
![Page 6: Problemas Rcmdr](https://reader030.fdocuments.mx/reader030/viewer/2022013122/563db7bf550346aa9a8d9861/html5/thumbnails/6.jpg)
Para calcular la varianza, otra medida de dispersión importante, introduciremos en el Script el
comando var(cars), obteniendo:
Después de estas tres acciones, interpretamos las siguientes medidas:
- De tendencia central:
o Media: 42.98
o Mediana: 36
- De dispersión:
o Cuasivarianza: (sd es la raíz de la cuarsivarianza, por tanto
elevándolo al cuadrado la obtenemos) = 664,0609455844
o Rango intercuartílico: 30
o Coeficiente de variación: 0.5995667
Para obtener el diagrama de cajas con bigotes, abriremos el menú Gráficas, Diagrama de caja, y
seleccionaremos la variable dist (distancia). Haremos clic en aceptar y obtendremos el diagrama
siguiente.
El bigote inferior representa las distancias que van desde la mínima hasta el primer cuartil; la
parte inferior de la caja, las distancias que están entre el primer y el segundo cuartil; la parte
superior de la caja, las que están entre el segundo y el tercer cuartil, y el bigote superior las que
están entre el tercer cuartil y la distancia máxima. A su vez, en este caso particular, tenemos un
dato atípico alejado incluso del bigote superior por ser mucho mayor al resto.
![Page 7: Problemas Rcmdr](https://reader030.fdocuments.mx/reader030/viewer/2022013122/563db7bf550346aa9a8d9861/html5/thumbnails/7.jpg)
La parte inferior de la caja es más pequeña que la parte superior, ello quiere decir que las
distancias comprendidas entre el 50% y el 75% de las observaciones están más dispersas que
entre 25% y el 50%.
El bigote inferior es de menor tamaño que el superior, lo que quiere decir que el 25% de las
menores distancias están más concentradas que el 25% de las mayores.
El rango intercuartílico es 30, es decir, el 50% de las distancias está comprendido en 30.
La mediana es menor que la media, y esto se debe a que no es sensible a datos atípicos; mientras
que la media si lo es. Por tanto, observamos que hay datos atípicos mayores considerablemente
que el resto del conjunto.
El coeficiente de variación es aproximadamente del 60%, por lo que la dispersión entre los datos
del conjunto es considerable, no son muy homogéneos.
Para la variable velocidad: representar gráficamente los datos y determinar a
partir de que velocidad se encuentra el 75% de las velocidades más altas.
Para representar un histograma de los datos de la variable velocidad, abrimos el menú Gráfica,
Histograma y seleccionamos la variable speed (velocidad). Hacemos clic en aceptar y
obtenemos la siguiente gráfica.
Para determinar a partir de que velocidad se encuentra el 75% de las velocidades más altas,
abrimos el menú Estadísticos, Resúmenes, Resúmenes numéricos y seleccionamos la variable
speed. En la pestaña Estadísticos sólo marcamos los cuantiles, el resto lo desmarcamos pues
para responder esta pregunta no nos será necesario.
![Page 8: Problemas Rcmdr](https://reader030.fdocuments.mx/reader030/viewer/2022013122/563db7bf550346aa9a8d9861/html5/thumbnails/8.jpg)
Obtendremos como resultado:
De ahí interpretamos que el percentil 75%; el valor de velocidad que básicamente nos
preguntaban en el enunciado, es el 19.
Determinar el diagrama de dispersión de velocidad/tiempo. Calcular la recta de
regresión, el coeficiente de determinación y de correlación lineal. Interpretar los
resultados.
Para obtener el diagrama de dispersión que nos pide el enunciado, abriremos el menú Gráficas,
Diagrama de dispersión. Una vez dentro, seleccionamos la variable dist como variable x y la
variable speed como y. En la pestaña Opciones sólo marcamos Línea de mínimos cuadrados y
Automáticamente.
Obtenemos el siguiente diagrama:
![Page 9: Problemas Rcmdr](https://reader030.fdocuments.mx/reader030/viewer/2022013122/563db7bf550346aa9a8d9861/html5/thumbnails/9.jpg)
.
Para obtener la recta de regresión, abrimos el menú Estadísticos, Ajuste de modelos, Regresión
lineal. Seleccionamos como variable explicada la variable speed y como variable explicativa,
dist. Obtenemos como resultado los siguientes datos:
Nuestra recta de regresión es de la forma: y = a + bx ; donde y es la velocidad y x es la distancia.
Por tanto, de los datos que hemos obtenido del ajuste lineal, sacamos:
Ordenada en el origen de la recta (a): 8.28391
Pendiente de la recta (b): 0.16557
o Ecuación de la recta: y = 8.28391 + 0.16557x
Coeficiente de determinación lineal (Multiple R-squared): 0.6511
![Page 10: Problemas Rcmdr](https://reader030.fdocuments.mx/reader030/viewer/2022013122/563db7bf550346aa9a8d9861/html5/thumbnails/10.jpg)
Para calcular el coeficiente de correlación lineal, abrimos el menú Estadísticos, Resúmenes,
Matriz de correlaciones. Una vez dentro, seleccionamos ambas variables y dejamos marcadas
las casillas que ya lo están, sin cambiar nada. Obtenemos como resultado:
Nuestro coeficiente de correlación lineal es 0.8068949, que nos confirma que el ajuste es
bastante bueno al ser un valor próximo a 1.