Post on 25-Jul-2015
ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO “ESPOCH”
ESCUELA DE INGENIERIA DE EMPRESAS, MODALIDAD FORMACIÓN DUAL
Nombres y Apellidos: KATHY MICHEL MOYA FLORES
MINI MANUAL
DE R-
COMMANDER
«R-COMMANDER"
R-Commander es una Interfaz Gráfica
de Usuario (GUI en inglés), creada por
John Fox, que permite acceder a
muchas capacidades del entorno
estadístico R sin que el usuario tenga
que conocer el lenguaje de comandos
propio de este entorno. Al arrancar R-
Commander, se nos presentan dos
ventanas:
.
Lenguaje de comandos de
R, simplemente
observando lo que va
apareciendo en la ventana
script se irá familiarizando
(y con un poco de interés,
también
aprendiendo) con dicho
lenguaje.
Si se desea ejecutar un único comando
basta con situar el cursor en cualquier
punto del comando y pulsar Submit .
Si se desean ejecutar varios comandos
conjuntamente hay que seleccionarlos
todos con el ratón y a continuación pulsar
Submit
. Las opciones son:
− File: para abrir ficheros con
instrucciones a ejecutar, o para guardar
datos, resultados, sintaxis, etc.
− Edit: las típicas opciones para cortar,
pegar, borrar, etc.
− Statistics: ejecución de procedimientos propiamente
estadísticos
− Graphs: gráficos
− Models: definición y uso de modelos específicos para el
análisis de datos.
− Distribution: probabilidades, cuantiles y gráficos de las
distribuciones de probabilidad más habituales (Normal, t
de Student, F de Fisher, binomial, etc.)
− Tools: carga de librerías y definición del entorno.
− Help: ayuda sobre R-commander (en inglés).
LECTURA DE
DATOS DE UN
FICHERO
EXTERNO
LECTURA DE DATOS DE UN
FICHERO EXTERNO
Para que R (y cualquier otro paquete estadístico)
pueda utilizar los datos, éstos deben introducirse de modo que cada
variable
figure en una columna, y cada fila represente un caso. Asimismo, es
conveniente que cada columna esté encabezada con el nombre de la
variable.
A modo de ejemplo, vemos la pantalla de EXCEL correspondiente a
una
muestra de peces, de cada uno de los cuales se ha determinado su
estado de madurez sexual (0 = inmaduro, 1 = maduro) y sexo (1 =
hembra, 2 = macho), midiéndose además su longitud y peso. Como
se ve, cada columna
corresponde a una variable, y cada fila corresponde a un sujeto (un
pez en este caso).
A veces no se dispone del valor de
alguna variable o variables en alguno o varios casos. Por ejemplo, pudiera
haber peces cuyo estado de madurez o sexo no haya podido determinarse, o cuya longitud o peso se haya podido
medir. Cuando falte algún dato, conviene
introducir el valor NA, que R interpretará como Not Assigned (valor
no asignado). En el ejemplo que se muestra a continuación vemos que hay valores perdidos en varias variables y
varios casos, que han sido consignados con el valor NA
Para leer estos datos con R commander, una vez situados en la
ventana de
este programa hay que picar con el ratón en la opción Data, luego
Import data
y por último from text file …:
SIEMPRE
ESPECIFICAR •
• Hay que especificar qué carácter separa los campos (Field
Separator). Si hemos guardado los datos con EXCEL en
formato CSV, el separador es el punto y coma. Hay que marcar
Other y en el cuadro Specify poner ;
• Por último en Decimal-Point Character hay que especificar
cual
es el separador de cifras decimales. En los ordenadores con
Windows
en español el separador decimal es la coma..
Una vez introducida esta
información, picando en
OK, nos aparece la
ventana
para abrir ficheros de
Windows. Buscamos el
directorio en que hemos
guardado nuestro fichero
de datos y lo
seleccionamos:
En la pantalla de R-commander ha
aparecido un comando en la ventana
superior (script) y el mismo comando
repetido en la ventana inferior (Output
window). Este comando es concretamente:
peces <-
read.table("C:/Estadística/Datos/peces.cs
v",
header=TRUE, sep=";", na.strings="NA",
dec=",",
strip.white=TRUE
Crear
resúmenes
numéricos y
gráficas
Una vez que hay un
conjunto de datos activo,
puede usar los menús de R
Commander para generar
varios resúmenes
numéricos y graficas.
Describiremos simplemente
unos ejemplos básicos a
continuación. Una buena
GUI debería ser
ampliamente
autoexplicativa: esperamos
que una vez que vea cómo
funciona R Commander, le
sea fácil usarlo, asistido,
quizás, por la ayuda en
línea
Seleccionando Estadísticos→Resúmenes→Conjunto de
datos activo, obtendrá la �gura ??. Para cada variable
numérica en el conjunto de datos (TFR, contraception,
infant.mortality y GDP), R informa de los valores máximos
y mínimos, el primer y el tercer cuartil, la mediana, la
media, así como el número de valores que faltan.
Para la variable categórica region, obtenemos el número
de observaciones en cada �nivel� del factor. Si el
conjunto de datos hubiera incluido más de diez variables,
R Commander nos habría preguntado si realmente
queremos continuar, intentando protegernos de producir
una no deseada voluminosa cantidad de resultados
Por defecto, la instrucción R
que se ejecuta calcula la
media y la
desviaciónestándar (sd) de
la variable, junto con los
cuantiles correspondientes
con el mínimo, el primer
cuartil, la mediana, el tercer
cuartil y el máximo; n es el
número de observaciones
válidas, y NA es el número
de valores que faltan. Como
es típico en los diálogos de R
Commander, el cuadro de
diálogo resúmenes
numéricos de la gura ??
incluye los botones Aceptar,
Cancelar y Ayuda.
Terminar la
sesión en R.
Hay varias maneras de terminar su sesión en R. Por ejemplo,
puede seleccionar Fichero→Salir→ de Commander y R en los
menús de R Commander.
Se le pedirá que conrme si desea salir, y a continuación si
quiere guardar los
contenidos de la ventana de instrucciones y de resultados.
Del mismo modo, puede seleccionar Fichero→Salir en R
Console; en este caso, se le preguntará si quiere guardar el
área de trabajo R (p.e., los datos que R guarda en la
memoria); normalmente contestará No.
Introducir
instrucciones
en la ventana
de
instrucciones.
La ventana de instrucciones
proporciona facilidades sencillas
para editar, introducir y ejecutar
instrucciones.Las instrucciones
generadas por R Commander
aparecen en la ventana de
instrucciones, y usted puede teclear
y editar instrucciones en la ventana
más o menos como en cualquier
editor.
Las instrucciones que se
extiendan más allá de una
línea deberían tener la
segunda y siguientes líneas
sangradas con uno o más
espacios o tabulaciones; todas
las líneas de una instrucción
multilínea deberán ser
ejecutadas
simultáneamente para obtener
resultados.
Las instrucciones que incluyan una
�echa de asignación (< −) no
generarán un resultado impreso,
incluso si este resultado habría
aparecido normalmente si se
hubiera introducido la instrucción
en R Console [la instrucción print(x<
−10), por ejemplo]. Por otro lado, las
tareas hechas con
el signo igual (=) producen una
salida impresa incluso cuando
normalmente no lo harían (e.g., x =
10).
Las instrucciones que
normalmente dan resultados
invisibles ocasionalmente harán
que los resultados aparezcan en
la ventana de resultados. Este
comportamiento puede
modificarse editando las
entradas del archivo
log-exceptions.txt en el
directorio etc de R Commander
Intervalo de
confianza de
la media
poblacional
INTERVALO DE CONFIANZA Vamos a comenzar por hallar el intervalo de
confianza para la media poblacional. Existen dos
tipos de estimación, la puntual se halla calculando
la media de la muestra, y es de cálculo sencillo,
pero es difícil que esta estimación coincida con el
verdadero valor de la media poblacional, aparte de
no informar sobre el error que cometemos. Otra
forma es la estimación por intervalos que consiste
en calcular a partir de la muestra, un intervalo con
una probabilidad dada (nivel de confianza), de
contener el valor de la media poblacional,
informándonos del error.
Ejemplo: Queremos estudiar la altura media de todos los individuos
con un nivel de confianza de =0.05.
Utilizamos como conjunto de datos activo el de Pulso. Lo hemos
asociado al data.frame Pulsea1.
Caso de desconocida:
Para calcular el intervalo de confianza empleamos la secuencia:se
hace la secuencia:
>Estadísticos >Medias >Test t para una muestra…
• Para el intervalo de confianza bilateral hay que marcar
• En Hipótesis alternativa >Media poblacional = 0,
• Aunque hay un error y debería mostrar el texto Media
poblacional <> 0, como hipótesis alternativa.
• Hay que elegir la Variable Height para altura, y dar un
nivel de confianza, aquí del 95%
• La instrucción R generada:
• > t.test(Pulsea1$Height, alternative='two.sided',
mu=0.0, conf.level=.95)
• One Sample t-test
• data: Pulsea1$Height
• t = 180.1207, df = 91, p-value < 2.2e-16 alternative
hypothesis: true mean is not equal to 0 95 percent
confidence interval: (67.95957 69.47521)sample
estimates:
Si se pusiera mu=5.8, el intervalo calculado sería el
mismo, siempre que indiquemos
alternative='two.sided' (Bilateral).
El cálculo anterior se basa en la distribución t de
Student para un estadístico asociado a la media
muestral, que es el más adecuado si no se conoce la
varianza poblacional. El intervalo de confianza
bilateral se formula:
xm t(n-1, 1-α/2) s/ ,
con s la cuasi-desviación típica muestral,
xm la media muestral, t(n-1, 1-α/2) el valor
tal que Pr(tn-1 <= t(n-1, 1-α/2)) = 1- α/2,
esto es, el valor de la variable tn-1 de
Student de (n-1) grados de libertad que
deja a su izquierda un área de valor (1-
α/2) bajo la función de densidad, o sea el
cuantil (1- α/2) de la t de Student con (n-1)
g.l.
Ejemplos de
Aplicación de los
Intervalos de
Confianza para
contrastar hipótesis
Con el conjunto de datos de Pulsos, queremos
estudiar la altura media de los hombres
solamente, por medio de un intervalo de
confianza al nivel de significación =0.05, o de
confianza del 95%, y utilizarlo para contrastar la
hipótesis de si la altura media de los hombres
es de 171 cms. Vamos a generar un conjunto de
datos con las alturas de los hombres.
En principio debemos filtrar la altura por medio del Género para
separar los hombres de las mujeres con la secuencia::
>Datos >Conjunto de datos activos>Filtrar datos.
Como marcamos Incluir todas las variables, va a generar un
Data.frame con todos los datos referidos
sólo a Hombres: Gender==”Male”
El nuevo conjunto de datos activo, que tiene siempre el tipo
data.frame, se llamará Alturahombres
El intervalo de confianza para la media de altiras ,
Emplando el R Commander, lo producen los menús:
>Estadísticos > Medias >Test para una muestra….
Resultando en la Ventana de resultados de R Commander
Resultando en la Ventana
de resultados de R
Commander
One Sample t-test
data: Alturahombres$Height
t = 206.8254, df = 56, p-value < 2.2e-16
alternative hypothesis:
true mean is not equal to 0
95 percent confidence interval:
70.06908 71.43969
sample estimates:
mean of x
70.75439
Tamaño de
muestra
(aleatoria
simple) para
estimar una
proporción
Llamamos error E al
semiancho del intervalo de
confianza para la proporción.
Basándose en la validez de la
aproximación normal de la
variable binomial, si se tiene
idea del posible valor de la
proporción poblacional p (con
base en un muestreo previo,
por ejemplo), el tamaño de la
muestra es
Si no se sabe nada de la
magnitud de p, se elige una
muestra de tamaño:
puesto que el valor p(1-p) es siempre
no mayor que 1/4 .
Obsérvese que a menor error E que se
desee, el tamaño de la muestra debe
ser mayor. Y a mayor nivel de
confianza ( o menor nivel de
significación), el tamaño también
crece.
Ejemplo
Se Qué tamaño de muestra hay que elegir
para estimar una proporción de modo que
el error en la estimación sea menor o igual
que 0,05, con un nivel de confianza del
95%? (Emplear la aproximación normal con
el criterio más desfavorable).
> z=qnorm(c(0.975), mean=0,
sd=1, lower.tail=TRUE);z
[1] 1.959964
> E=0.05;
n=ceiling(z^2/(4*E^2));n [1] 385
¿Qué tamaño resultaría en el caso de que se emplee
una primera estimación de la proporción de valor 0.17
?
> p=0.17
> n=ceiling(z^2*p*(1-p)/E^2);n
[1] 217
Naturalmente, con más información, se reduce el
tamaño de la muestra necesaria.
.