Resumen STATA (Comandos)
1. Estadstica Univariante
Las variables cuantitativas se analizan por los siguientes comandos:
tab: construccin de la tabla de frecuencias. hist: construccin de un histograma. graph box: construccin de un diagrama de cajas / Turkey. summarize variable, detail: anlisis de datos descriptivos.
Cuando se hace una tabla de frecuencias con variables cuantitativas continuas la
grfica tiene infinitos valores. Por tanto, para analizar una variable cuantitativa
continua hay que
Las variables cualitativas se analizan por los siguientes comandos:
tab: construccin de la tabla de frecuencias. Grficos: Bar, Pie, Dot.
2. Estadstica Bivariante
El alumno aprender a realizar un anlisis descriptivo entre 2 variables (entre 2
cuantitativas, entre 2 cualitativas o entre 1 cualitativa y 1 cuantitativa).
a) Cualitativa en base a otra Cualitativa
Statistics/ Summaries,TablesandTests/ Tables/ Two-Way Tables with measures
of association (NO seleccionar Chi Cuadrado. Por el contrario, S seleccionamos
Relative Frequencies. Tambin podemos seleccionar Column/Row Relative
Frequencies si queremos calcular las proporciones marginales).
Grfico de Barras Compuestas (Graphics/ BarChart/ TimestampCountNonMissing/
Categories: seleccionamos ambas variables cualitativas como Group1 y Group2).
b) Cuantitativa en base a Cualitativa
Statistics/ Summaries,TablesandTest/ Summary and DescriptiveStatistics/
Summary Statistics (Main: seleccionamos la variable cuantitativa y
DisplayAdditionalStatistics; despus hacemos click en by/if/in y escribimos la variable
cualitativa). Salen 2 resultados separados segn los grupos de la variable cualitativa
(en este caso, el gnero). A partir de estos datos realizar una tabla en Excel.
Grfico Box-Plot (Graphics/ Main: variable cuantitativa/ Categories: variable
cualitativa).
c) Cuantitativa en base a otra Cuantitativa
Grfico de Dispersin: Graphics/ TwoWayGraph/ Create/ Basic Plots/ Scatter
Para saber la relacin de la intensidad entre ambas variables usamos la Correlacin
Lineal de Pearson (Statistics/ Summaries,Tables and Tests/ Summary and
DescriptiveStatistics/ Correlations and Covariances). El valor -1 indica que hay una
correlacin inversa perfecta; el valor +1 indica que hay una correlacin derecha
perfecta; el valor 0 indica que no hay correlacin entre ambas variables.
Para calcular la Recta de Regresin escribimos: regress + Variable 1 + Variable 2.
3. Inferencia Estadstica
El nivel de confianza del Intervalo es la probabilidad de que un determinado valor se
encuentre en el intervalo de confianza. El nivel de confianza se calcula como 1 ,
siendo el nivel de significacin.
Intervalos de Confianza: Statistics/ Summaries, Tables and Tests/ Summary and Descriptive Statistics/ Confidence Intervals. Si queremos comparar una
cuantitativa con una cualitativa, escribimos en Main la variable cuantitativa y en
by/if/in la variable cualitativa.
Contraste de Hiptesis: quiero saber si la hiptesis que he formulado es correcta o falsa. Para ello la voy a contrastar.
Si slo quiero contrastar 1 hiptesis que afecta a 1 variable (sea cualitativa o
cuantitativa), realizo el siguiente comando (One-Sample-Mean-Comparison-Test):
Statistics/ Summaries,TablesandTests/ ClassicalTestofHypothesis/ One-Sample-Mean-
Comparison-Test
Si se tratase de proporciones usaramos: One-Sample-Proportion-Comparison-Test.
Si P rechazamos la hiptesis nula. Por tanto, hay ASOCIACIN entre ambas
variables. Los resultados derivados del contraste son estadsticamente significativos.
4. Contraste de 2+ Poblaciones
a) Test de la T de Student
- Contraste de Hiptesis (Variable Cuantitativa y Variable Cualitativa;
Variable Cuantitativa y Variable Cuantitativa): Statistics/ Summaries,Tables
and Tests/ ClassicalTest of Hypothesis/ TwoGroup-Mean-
ComparisonTest. Seleccionamos Unequal Variances.
- Tambin se denomina como ttest.
b) Chi Cuadrado (para 2 Variables Cualitativas).
Se utiliza para realizar el contraste de hiptesis entre 2 variables cualitativas.
Usaremos:
Statistics/ Summaries,TablesandTests/ Tables/ Two-Way Tables with Measuresof
Association (Pearsons Chi Squared + Expected Frecuencies).
- La poblacin objetivo es: recin nacidos en Guipzcoa.
- A partir de los datos que tenemos, podemos calcular medidas de localizacin y
dispersin.
- La media del peso en recin nacidos es: X.
- La desviacin estndar en recin nacidos es: X.
- La muestra sobre la que realizamos las observaciones tiene un tamao de 250.
Para las 250 observaciones tenemos una serie de variables.
- El peso, como variable cuantitativa continua, se mide en escala de razn.
- El gnero es una variable cualitativa nominal, y se mide en escala nominal.
mean peso
La media es una estimacin puntual (discreta, de un punto), que se basa en una
muestra de 250 individuos. Pero si la muestra es de un tamao diferente, la media
tambin vara.
El intervalo de confianza indica que, el verdadero valor de la media en la poblacin
que queremos estudiar pueda encontrarse entre los valores que quedan determinados
por el intervalo de confianza.
ci peso
peso 3301.948 27.31226 3248.156 3355.74
Mean Std. Err. [95% Conf. Interval]
Mean estimation Number of obs = 250
peso 250 3301.948 27.31226 3231.053 3372.843
Variable Obs Mean Std. Err. [99% Conf. Interval]
. ci peso, level(99)
peso 250 3301.948 27.31226 3248.156 3355.74
Variable Obs Mean Std. Err. [95% Conf. Interval]
. ci peso
El intervalo de confianza es ms amplio cuanto mayor sea nuestra intencin de que
quede delimitado en ese intervalo el valor real de la media en esa poblacin.
Para cambiar el valor del intervalo de confianza:
ttest
Test de 2 colas: sirve para saber si puedes aceptar la hiptesis nula o por el contrario
tienes que coger la hiptesis variable.
Lim sup CI 95%= 3301.948+(27.31226*1.96)
Lim inf CI 95%= 3301.948-(27.31226*1.96)
El error aleatorio se calcula como la constante multiplicada por el error estndar de la
media muestral.
Nos ha salido un valor de media muestral de: 3301.948. Para estandarizar la muestra,
restamos la media muestral menos la media de la hiptesis variable y dividimos todo
entre el error estndar (desviacin estndar dividido entre raz de n). As calculamos la
T de Studen.
Si la hiptesis nula es cierta, en la grfica estandarizada la media sera 0. Si hacemos
los clculos previos con los datos de la muestra, obtenemos un valor t=14.7168.
(3301.948-2900) / 27.31226 = t
La probabilidad de que la distribucin T de Studen tome valores mayores de t es de 0.
Sera cola a la derecha.
La probabilidad de que el mdulo de la T de Studen tome valores mayores que t
(valores mayores que 3301), rechazamos la hiptesis nula. Por tanto, P es menor que
(se rechaza la hiptesis nula: el contraste de hiptesis resulta estadsticamente
significativo). La probabilidad de observar esta media muestral es prcticamente 0.
Test para contrastar si el peso de la poblacin de recin nacidos es de 3260 gramos
Pr(T < t) = 1.0000 Pr(|T| > |t|) = 0.0000 Pr(T > t) = 0.0000
Ha: mean < 2900 Ha: mean != 2900 Ha: mean > 2900
Ho: mean = 2900 degrees of freedom = 249
mean = mean(peso) t = 14.7168
peso 250 3301.948 27.31226 431.8447 3248.156 3355.74
Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
One-sample t test
. ttest peso=2900
Ha cambiado la hiptesis (de 2900 a 3260), pero todos los dems valores no han
cambiado porque la muestra sigue siendo la misma.
La probabilidad de observar un valor de 3301.948 siendo la media 3260 es de: 0.0629.
Si he fijado de 0.05, el valor P es mayor que , por lo que no se puede rechazar la
hiptesis nula. El nivel de significacin de los datos es por P. Con este no vamos a
rechazar la hiptesis nula.
Los resultados son estadsticamente NO significativos.
Pr(T < t) = 0.9371 Pr(|T| > |t|) = 0.1258 Pr(T > t) = 0.0629
Ha: mean < 3260 Ha: mean != 3260 Ha: mean > 3260
Ho: mean = 3260 degrees of freedom = 249
mean = mean(peso) t = 1.5359
peso 250 3301.948 27.31226 431.8447 3248.156 3355.74
Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
One-sample t test
. ttest peso == 3260
Test de Hiptesis: sirve para comprobar si existe relacin entre el gnero y el peso.
Usamos el test group-mean porque la variable est agrupada en un mismo grupo, y no
est separada por muestras.
Pr(T < t) = 0.0248 Pr(|T| > |t|) = 0.0495 Pr(T > t) = 0.9752
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Ho: diff = 0 degrees of freedom = 248
diff = mean(nia) - mean(nio) t = -1.9737
diff -107.2243 54.32529 -214.222 -.2264907
combined 250 3301.948 27.31226 431.8447 3248.156 3355.74
nio 128 3354.273 39.87349 451.1171 3275.371 3433.176
nia 122 3247.049 36.69049 405.2597 3174.411 3319.688
Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Two-sample t test with equal variances
. ttest peso, by(genero)
La variable PESO es cuantitativa continua, medida en escala de razn (las escalas
tienen razn entre s, y adems existe un 0 absoluto que indica la ausencia del
atributo).
La variable GNERO identifica 2 grupos: nios y nias. Para contrastar esta variable
con el peso, utilizamos:
El nivel de confianza indica que
ests cogiendo un del 5%
(0,05).
El error estndar se calcula como la desviacin estndar entre la raz cuadrada del
nmero de observaciones.
La media +,- error estndar multiplicado por 1.96 = da como resultado el intervalo de
confianza.
La estimacin puntual es la media: en la poblacin de nias y en la poblacin de nios,
y por ltimo miras la estimacin puntual combinada. La estimacin combinada para
ambos gneros es de: 3301.948 gramos.
Las estimaciones puntuales entre las que se encuentran se ven en el intervalo de
confianza al 95%.
La media combinada es para toda la poblacin objetivo (muestra), sin que se hagan
diferencias por el gnero.
diff: estima la diferencia entre el peso de las nias (arriba) menos la media de los nios (debajo). Como la diferencia es negativa (-107.2243), quiere decir que
el valor de la media de los nios es superior. Hay una diferencia de 107.2243
gramos entre nios y nias; as estimas cuanto ms pesan de media los nios
que las nias.
La diferencia de medias puede estar entre los valores que refleja el intervalo de confianza. Como el intervalo de confianza no pasa por el valor 0 (nulo), quiere
decir que las nias nunca van a tener la misma media de peso que los nios.
Atendiendo a las hiptesis variables que pretender desestimar a la hiptesis nula:
Para la hiptesis de cola a la izquierda y cola a ambos lados, comparamos P y T con : como es de 0.05 y los valores de P respecto a son menores,
rechazamos la hiptesis nula y aceptamos la hiptesis variable.
Hay una diferencia significativa entre el peso de las nias y los nios porque P es
menor que . El valor 0.0495 es muy prximo a 0.05, por lo que puede haber dudas.
Pero en principio s que podemos rechazar que la media de los pesos sean iguales.
Pr(T < t) = 0.0248 Pr(|T| > |t|) = 0.0495 Pr(T > t) = 0.9752
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Ho: diff = 0 degrees of freedom = 248
diff = mean(nia) - mean(nio) t = -1.9737
diff -107.2243 54.32529 -214.222 -.2264907
combined 250 3301.948 27.31226 431.8447 3248.156 3355.74
nio 128 3354.273 39.87349 451.1171 3275.371 3433.176
nia 122 3247.049 36.69049 405.2597 3174.411 3319.688
Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Two-sample t test with equal variances
. ttest peso, by(genero)
La hiptesis de cola a la derecha tiene un valor P de 0.9752, por lo que es mayor que (0.05). Como P es mayor que rechazamos la hiptesis variable
y aceptamos la hiptesis nula (la hiptesis formulada en un principio).
Si P : rechazamos la hiptesis variable.
Si P : rechazamos la hiptesis nula.
Cul sera la situacin en Medicina?
Supongamos que se selecciona una muestra aleatoria de 8 mujeres que toman anticonceptivos
orales (AO) en el grupo de edad de 35 a 39 aos, resultando en una media de presin sistlica
de 132.66 mmHg y una desviacin estndar de 15.34 mmHg. Otra muestra aleatoria de 21
mujeres en el mismo grupo de edad, que no toman AO, tienen una media de presin sistlica
de 127.44 mmHg y desviacin estndar de 18.23 mmHg. La toma de AO influye en la presin
sistlica? Estimar la diferencia de media de la presin sistlica en los 2 grupos considerados
mediante un intervalo de confianza al 95%.
Si las medias son iguales dar igual tomar AO o no tomar AO porque no influye en la
presin sistlica.
Tenemos una poblacin A que toma anticonceptivos orales, y una poblacin B que no
toma anticonceptivos orales. El volumen total de la muestra se compone de las 2
poblaciones A + B. Las medias y valor de la desviacin estndar estn expuestos en el
problema.
Como quiero comparar las medias se hace una suposicin de (varianza). As,
supongo que ambas varianzas sean iguales entre s. Si las varianzas son iguales
puedo estimar una varianza conjunta.
La hiptesis nula supone que las medias son iguales, por lo que su resta da un valor de 0.
La hiptesis alternativa supone que las medias son distintas, por lo que su resta es distinta de 0.
Para hacer estos clculos con STATA:
Si no sealo Unequal Variances supone que las varianzas son iguales:
La hiptesis variable de cola a la izquierda y de 2 colas tiene un valor P mayor que .
- Si las medias entre ambas muestras de poblacin son iguales, la toma de AO
no afecta a la presin sistlica en este grupo de poblacin.
Pr(T < t) = 0.7602 Pr(|T| > |t|) = 0.4796 Pr(T > t) = 0.2398
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Ho: diff = 0 degrees of freedom = 27
diff = mean(x) - mean(y) t = 0.7169
diff 5.22 7.281838 -9.721097 20.1611
combined 29 128.88 3.226224 17.37375 122.2714 135.4886
y 21 127.44 3.978112 18.23 119.1418 135.7382
x 8 132.66 5.423509 15.34 119.8354 145.4846
Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Two-sample t test with equal variances
. ttesti 8 132.66 15.34 21 127.44 18.23
Para variables cuantitativas continuas medidas en escala de razn: vamos a utilizar
una comparacin de medias; si hubiramos estado trabajando con proporciones
tendra que ser para comparacin de proporciones (ms abajo en la misma columna).
Si considero unequal variances:
- El error estndar se calcula segn: la desviacin estndar se divide entre la
raz del nmero de individuos de la muestra.
- El intervalo de confianza se calcula segn: calculas primero el error aleatorio
(multiplicando el error estndar por 1.95), y se suma/resta al valor de la media.
Pr(T < t) = 0.7602 Pr(|T| > |t|) = 0.4796 Pr(T > t) = 0.2398
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Ho: diff = 0 degrees of freedom = 27
diff = mean(x) - mean(y) t = 0.7169
diff 5.22 7.281838 -9.721097 20.1611
combined 29 128.88 3.226224 17.37375 122.2714 135.4886
y 21 127.44 3.978112 18.23 119.1418 135.7382
x 8 132.66 5.423509 15.34 119.8354 145.4846
Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Two-sample t test with equal variances
. ttesti 8 132.66 15.34 21 127.44 18.23
Pr(T < t) = 0.7751 Pr(|T| > |t|) = 0.4497 Pr(T > t) = 0.2249
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Ho: diff = 0 Satterthwaite's degrees of freedom = 15.0352
diff = mean(x) - mean(y) t = 0.7761
diff 5.22 6.726056 -9.113327 19.55333
combined 29 128.88 3.226224 17.37375 122.2714 135.4886
y 21 127.44 3.978112 18.23 119.1418 135.7382
x 8 132.66 5.423509 15.34 119.8354 145.4846
Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Two-sample t test with unequal variances
. ttesti 8 132.66 15.34 21 127.44 18.23, unequal
- El error mximo es la diferencia entre el mximo del intervalo y el mnimo del
intervalo (doble de psilon).
La diferencia que hay entre las medias muestrales de presin sistlica es de 5.22
(comparamos la media de las mujeres que toman AO y las mujeres que no toman AO).
Para la diferencia de medias tambin se puede hacer un intervalo de confianza.
- La hiptesis NULA dice que las medias son iguales.
- Las hiptesis ALTERNATIVAS sugieren 3 posibles alternativas a la hiptesis
nula. El resultado del test de 2 lados (P=0.4497) es mayor que , por lo que no
podemos rechazar la hiptesis nula. El valor P es mayor que para todos los
test (2 lados, cola a la izquierda y cola a la derecha), por lo que NO podemos
rechazar la hiptesis nula.
Los Grados de Libertad se calculan segn: n 1. Si quiero que la media se conserve,
el ltimo valor que me sirve para estimar la media se calcula segn n (tamao de la
muestra) 1 (valor que no puedo desestimar). Los grados de libertad se usan cuando
la muestra responde a un test de varianzas iguales, pero cuando las varianzas son
diferentes utilizo una aproximacin (de Satterhwaites).
Si ahora considero: equal variances
Si comparamos los valores de P con , la conclusin es que P es mayor que por lo
que NO podemos rechazar la hiptesis nula. Los datos que tengo no contienen
suficiente evidencia como para rechazar H0: no hay una asociacin entre la toma de
AO y la presin arterial sistlica (P=0.4796). Hay una relacin entre el intervalo de
confianza y el resultado de ttest de 2 lados: el intervalo de confianza para la diferencia
de medias contiene el valor 0 (es la hiptesis nula: la diferencia de medias es nula).
Cuando el intervalo de confianza para la diferencia de medias contiene el valor de la
hiptesis nula (0) el resultado del test NO ser significativo y por tanto se acepta la
hiptesis nula (la diferencia de medias es igual a 0: H0 = H1 H0 H1 = 0).
Pr(T < t) = 0.7602 Pr(|T| > |t|) = 0.4796 Pr(T > t) = 0.2398
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Ho: diff = 0 degrees of freedom = 27
diff = mean(x) - mean(y) t = 0.7169
diff 5.22 7.281838 -9.721097 20.1611
combined 29 128.88 3.226224 17.37375 122.2714 135.4886
y 21 127.44 3.978112 18.23 119.1418 135.7382
x 8 132.66 5.423509 15.34 119.8354 145.4846
Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Two-sample t test with equal variances
Para determinar si un rgimen con grandes dosis de anticido es efectivo en relacin con la
curacin de la lcera duodenal, se realiz un ensayo clnico incluyendo 74 pacientes con lcera
demostrada. A dichos pacientes se les asoci (al azar: para que nada influya en la asignacin
del tratamiento) un tratamiento anticido o un placebo inerte. Al cabo de 28 das, 28 de los 36
pacientes que recibieron el tratamiento anticido estaban completamente curados, comparado
con 17 de los 38 pacientes que recibieron el placebo (p0.005).
Plantear el test que realiza Peterson y calcular el valor P. Estimar la diferencia en el porcentaje
de curaciones con confianza del 99%.
- Poblacin A: tratada con anticido. 36 individuos
- Poblacin B: tratada con placebo. 38 individuos
Todas las variables son 0-1. Las variables entre ambos grupos de poblacin son
iguales excepto la que est sujeta a control (tratamiento con anticido). Es una
variable binomial. Utilizo la proporcin de curaciones: se han curado 28 de 36 (0.78 se
curan en la muestra que hemos tratado con anticido) y 17 de 38 (0.45 se curan en la
muestra que hemos tratado con placebo y por tanto inerte).
Como P es menor que rechazamos la hiptesis nula: el mejor tratamiento es cuando
los pacientes reciben anticido en lugar del placebo.
Pr(Z < z) = 0.9982 Pr(|Z| < |z|) = 0.0036 Pr(Z > z) = 0.0018
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Ho: diff = 0
diff = prop(x) - prop(y) z = 2.9097
under Ho: .1134126 2.91 0.004
diff .33 .1062065 .121839 .538161
y .45 .0807041 .2918228 .6081772
x .78 .0690411 .644682 .915318
Variable Mean Std. Err. z P>|z| [95% Conf. Interval]
y: Number of obs = 38
Two-sample test of proportions x: Number of obs = 36
X2: para variables cualitativas (seminario 2 Bioestadstica: Aitana Lertxundi).
Despus marcar: Persons Chi Squared y Expected Frequencies.
Cuando hay en una de las casillas casos esperados menores a 5 individuos no se
puede hacer este contraste. Aunque se observan diferencias, no podemos admitir que
sean significativas porque el tamao muestral es demasiado pequeo.
Como P , son dependientes. Este resultado nos obliga a rechazar la hiptesis nula
y aceptar la hiptesis alternativa. Existe asociacin.
Cuando son 2 variables cualitativas existe asociacin si P es menor que .
Pearson chi2(2) = 7.3919 Pr = 0.025
0.3 7.1 7.4
241.0 9.0 250.0
Total 241 9 250
0.1 2.7 2.8
71.3 2.7 74.0
dejan_de_fumar_antes_ 74 0 74
0.2 4.3 4.5
70.4 2.6 73.0
fumadora_durante_emba 67 6 73
0.0 0.1 0.1
99.3 3.7 103.0
no_ha_fumado_nunca 100 3 103
la madre >=2500