Download - Resumen STATA

Resumen STATA (Comandos)

1. Estadstica Univariante

Las variables cuantitativas se analizan por los siguientes comandos:

tab: construccin de la tabla de frecuencias. hist: construccin de un histograma. graph box: construccin de un diagrama de cajas / Turkey. summarize variable, detail: anlisis de datos descriptivos.

Cuando se hace una tabla de frecuencias con variables cuantitativas continuas la

grfica tiene infinitos valores. Por tanto, para analizar una variable cuantitativa

continua hay que

Las variables cualitativas se analizan por los siguientes comandos:

tab: construccin de la tabla de frecuencias. Grficos: Bar, Pie, Dot.

2. Estadstica Bivariante

El alumno aprender a realizar un anlisis descriptivo entre 2 variables (entre 2

cuantitativas, entre 2 cualitativas o entre 1 cualitativa y 1 cuantitativa).

a) Cualitativa en base a otra Cualitativa

Statistics/ Summaries,TablesandTests/ Tables/ Two-Way Tables with measures

of association (NO seleccionar Chi Cuadrado. Por el contrario, S seleccionamos

Relative Frequencies. Tambin podemos seleccionar Column/Row Relative

Frequencies si queremos calcular las proporciones marginales).

Grfico de Barras Compuestas (Graphics/ BarChart/ TimestampCountNonMissing/

Categories: seleccionamos ambas variables cualitativas como Group1 y Group2).

b) Cuantitativa en base a Cualitativa

Statistics/ Summaries,TablesandTest/ Summary and DescriptiveStatistics/

Summary Statistics (Main: seleccionamos la variable cuantitativa y

DisplayAdditionalStatistics; despus hacemos click en by/if/in y escribimos la variable

cualitativa). Salen 2 resultados separados segn los grupos de la variable cualitativa

(en este caso, el gnero). A partir de estos datos realizar una tabla en Excel.

Grfico Box-Plot (Graphics/ Main: variable cuantitativa/ Categories: variable

cualitativa).

c) Cuantitativa en base a otra Cuantitativa

Grfico de Dispersin: Graphics/ TwoWayGraph/ Create/ Basic Plots/ Scatter

Para saber la relacin de la intensidad entre ambas variables usamos la Correlacin

Lineal de Pearson (Statistics/ Summaries,Tables and Tests/ Summary and

DescriptiveStatistics/ Correlations and Covariances). El valor -1 indica que hay una

correlacin inversa perfecta; el valor +1 indica que hay una correlacin derecha

perfecta; el valor 0 indica que no hay correlacin entre ambas variables.

Para calcular la Recta de Regresin escribimos: regress + Variable 1 + Variable 2.

3. Inferencia Estadstica

El nivel de confianza del Intervalo es la probabilidad de que un determinado valor se

encuentre en el intervalo de confianza. El nivel de confianza se calcula como 1 ,

siendo el nivel de significacin.

Intervalos de Confianza: Statistics/ Summaries, Tables and Tests/ Summary and Descriptive Statistics/ Confidence Intervals. Si queremos comparar una

cuantitativa con una cualitativa, escribimos en Main la variable cuantitativa y en

by/if/in la variable cualitativa.

Contraste de Hiptesis: quiero saber si la hiptesis que he formulado es correcta o falsa. Para ello la voy a contrastar.

Si slo quiero contrastar 1 hiptesis que afecta a 1 variable (sea cualitativa o

cuantitativa), realizo el siguiente comando (One-Sample-Mean-Comparison-Test):

Statistics/ Summaries,TablesandTests/ ClassicalTestofHypothesis/ One-Sample-Mean-

Comparison-Test

Si se tratase de proporciones usaramos: One-Sample-Proportion-Comparison-Test.

Si P rechazamos la hiptesis nula. Por tanto, hay ASOCIACIN entre ambas

variables. Los resultados derivados del contraste son estadsticamente significativos.

4. Contraste de 2+ Poblaciones

a) Test de la T de Student

- Contraste de Hiptesis (Variable Cuantitativa y Variable Cualitativa;

Variable Cuantitativa y Variable Cuantitativa): Statistics/ Summaries,Tables

and Tests/ ClassicalTest of Hypothesis/ TwoGroup-Mean-

ComparisonTest. Seleccionamos Unequal Variances.

- Tambin se denomina como ttest.

b) Chi Cuadrado (para 2 Variables Cualitativas).

Se utiliza para realizar el contraste de hiptesis entre 2 variables cualitativas.

Usaremos:

Statistics/ Summaries,TablesandTests/ Tables/ Two-Way Tables with Measuresof

Association (Pearsons Chi Squared + Expected Frecuencies).

- La poblacin objetivo es: recin nacidos en Guipzcoa.

- A partir de los datos que tenemos, podemos calcular medidas de localizacin y

dispersin.

- La media del peso en recin nacidos es: X.

- La desviacin estndar en recin nacidos es: X.

- La muestra sobre la que realizamos las observaciones tiene un tamao de 250.

Para las 250 observaciones tenemos una serie de variables.

- El peso, como variable cuantitativa continua, se mide en escala de razn.

- El gnero es una variable cualitativa nominal, y se mide en escala nominal.

mean peso

La media es una estimacin puntual (discreta, de un punto), que se basa en una

muestra de 250 individuos. Pero si la muestra es de un tamao diferente, la media

tambin vara.

El intervalo de confianza indica que, el verdadero valor de la media en la poblacin

que queremos estudiar pueda encontrarse entre los valores que quedan determinados

por el intervalo de confianza.

ci peso

peso 3301.948 27.31226 3248.156 3355.74

Mean Std. Err. [95% Conf. Interval]

Mean estimation Number of obs = 250

peso 250 3301.948 27.31226 3231.053 3372.843

Variable Obs Mean Std. Err. [99% Conf. Interval]

. ci peso, level(99)

peso 250 3301.948 27.31226 3248.156 3355.74

Variable Obs Mean Std. Err. [95% Conf. Interval]

. ci peso

El intervalo de confianza es ms amplio cuanto mayor sea nuestra intencin de que

quede delimitado en ese intervalo el valor real de la media en esa poblacin.

Para cambiar el valor del intervalo de confianza:

ttest

Test de 2 colas: sirve para saber si puedes aceptar la hiptesis nula o por el contrario

tienes que coger la hiptesis variable.

Lim sup CI 95%= 3301.948+(27.31226*1.96)

Lim inf CI 95%= 3301.948-(27.31226*1.96)

El error aleatorio se calcula como la constante multiplicada por el error estndar de la

media muestral.

Nos ha salido un valor de media muestral de: 3301.948. Para estandarizar la muestra,

restamos la media muestral menos la media de la hiptesis variable y dividimos todo

entre el error estndar (desviacin estndar dividido entre raz de n). As calculamos la

T de Studen.

Si la hiptesis nula es cierta, en la grfica estandarizada la media sera 0. Si hacemos

los clculos previos con los datos de la muestra, obtenemos un valor t=14.7168.

(3301.948-2900) / 27.31226 = t

La probabilidad de que la distribucin T de Studen tome valores mayores de t es de 0.

Sera cola a la derecha.

La probabilidad de que el mdulo de la T de Studen tome valores mayores que t

(valores mayores que 3301), rechazamos la hiptesis nula. Por tanto, P es menor que

(se rechaza la hiptesis nula: el contraste de hiptesis resulta estadsticamente

significativo). La probabilidad de observar esta media muestral es prcticamente 0.

Test para contrastar si el peso de la poblacin de recin nacidos es de 3260 gramos

Pr(T < t) = 1.0000 Pr(|T| > |t|) = 0.0000 Pr(T > t) = 0.0000

Ha: mean < 2900 Ha: mean != 2900 Ha: mean > 2900

Ho: mean = 2900 degrees of freedom = 249

mean = mean(peso) t = 14.7168

peso 250 3301.948 27.31226 431.8447 3248.156 3355.74

Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]

One-sample t test

. ttest peso=2900

Ha cambiado la hiptesis (de 2900 a 3260), pero todos los dems valores no han

cambiado porque la muestra sigue siendo la misma.

La probabilidad de observar un valor de 3301.948 siendo la media 3260 es de: 0.0629.

Si he fijado de 0.05, el valor P es mayor que , por lo que no se puede rechazar la

hiptesis nula. El nivel de significacin de los datos es por P. Con este no vamos a

rechazar la hiptesis nula.

Los resultados son estadsticamente NO significativos.

Pr(T < t) = 0.9371 Pr(|T| > |t|) = 0.1258 Pr(T > t) = 0.0629

Ha: mean < 3260 Ha: mean != 3260 Ha: mean > 3260

Ho: mean = 3260 degrees of freedom = 249

mean = mean(peso) t = 1.5359

peso 250 3301.948 27.31226 431.8447 3248.156 3355.74

Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]

One-sample t test

. ttest peso == 3260

Test de Hiptesis: sirve para comprobar si existe relacin entre el gnero y el peso.

Usamos el test group-mean porque la variable est agrupada en un mismo grupo, y no

est separada por muestras.

Pr(T < t) = 0.0248 Pr(|T| > |t|) = 0.0495 Pr(T > t) = 0.9752

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0

Ho: diff = 0 degrees of freedom = 248

diff = mean(nia) - mean(nio) t = -1.9737

diff -107.2243 54.32529 -214.222 -.2264907

combined 250 3301.948 27.31226 431.8447 3248.156 3355.74

nio 128 3354.273 39.87349 451.1171 3275.371 3433.176

nia 122 3247.049 36.69049 405.2597 3174.411 3319.688

Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]

Two-sample t test with equal variances

. ttest peso, by(genero)

La variable PESO es cuantitativa continua, medida en escala de razn (las escalas

tienen razn entre s, y adems existe un 0 absoluto que indica la ausencia del

atributo).

La variable GNERO identifica 2 grupos: nios y nias. Para contrastar esta variable

con el peso, utilizamos:

El nivel de confianza indica que

ests cogiendo un del 5%

(0,05).

El error estndar se calcula como la desviacin estndar entre la raz cuadrada del

nmero de observaciones.

La media +,- error estndar multiplicado por 1.96 = da como resultado el intervalo de

confianza.

La estimacin puntual es la media: en la poblacin de nias y en la poblacin de nios,

y por ltimo miras la estimacin puntual combinada. La estimacin combinada para

ambos gneros es de: 3301.948 gramos.

Las estimaciones puntuales entre las que se encuentran se ven en el intervalo de

confianza al 95%.

La media combinada es para toda la poblacin objetivo (muestra), sin que se hagan

diferencias por el gnero.

diff: estima la diferencia entre el peso de las nias (arriba) menos la media de los nios (debajo). Como la diferencia es negativa (-107.2243), quiere decir que

el valor de la media de los nios es superior. Hay una diferencia de 107.2243

gramos entre nios y nias; as estimas cuanto ms pesan de media los nios

que las nias.

La diferencia de medias puede estar entre los valores que refleja el intervalo de confianza. Como el intervalo de confianza no pasa por el valor 0 (nulo), quiere

decir que las nias nunca van a tener la misma media de peso que los nios.

Atendiendo a las hiptesis variables que pretender desestimar a la hiptesis nula:

Para la hiptesis de cola a la izquierda y cola a ambos lados, comparamos P y T con : como es de 0.05 y los valores de P respecto a son menores,

rechazamos la hiptesis nula y aceptamos la hiptesis variable.

Hay una diferencia significativa entre el peso de las nias y los nios porque P es

menor que . El valor 0.0495 es muy prximo a 0.05, por lo que puede haber dudas.

Pero en principio s que podemos rechazar que la media de los pesos sean iguales.

Pr(T < t) = 0.0248 Pr(|T| > |t|) = 0.0495 Pr(T > t) = 0.9752



diff = mean(nia) - mean(nio) t = -1.9737

diff -107.2243 54.32529 -214.222 -.2264907

combined 250 3301.948 27.31226 431.8447 3248.156 3355.74

nio 128 3354.273 39.87349 451.1171 3275.371 3433.176

nia 122 3247.049 36.69049 405.2597 3174.411 3319.688

Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]


. ttest peso, by(genero)

La hiptesis de cola a la derecha tiene un valor P de 0.9752, por lo que es mayor que (0.05). Como P es mayor que rechazamos la hiptesis variable

y aceptamos la hiptesis nula (la hiptesis formulada en un principio).

Si P : rechazamos la hiptesis variable.

Si P : rechazamos la hiptesis nula.

Cul sera la situacin en Medicina?

Supongamos que se selecciona una muestra aleatoria de 8 mujeres que toman anticonceptivos

orales (AO) en el grupo de edad de 35 a 39 aos, resultando en una media de presin sistlica

de 132.66 mmHg y una desviacin estndar de 15.34 mmHg. Otra muestra aleatoria de 21

mujeres en el mismo grupo de edad, que no toman AO, tienen una media de presin sistlica

de 127.44 mmHg y desviacin estndar de 18.23 mmHg. La toma de AO influye en la presin

sistlica? Estimar la diferencia de media de la presin sistlica en los 2 grupos considerados

mediante un intervalo de confianza al 95%.

Si las medias son iguales dar igual tomar AO o no tomar AO porque no influye en la

presin sistlica.

Tenemos una poblacin A que toma anticonceptivos orales, y una poblacin B que no

toma anticonceptivos orales. El volumen total de la muestra se compone de las 2

poblaciones A + B. Las medias y valor de la desviacin estndar estn expuestos en el

problema.

Como quiero comparar las medias se hace una suposicin de (varianza). As,

supongo que ambas varianzas sean iguales entre s. Si las varianzas son iguales

puedo estimar una varianza conjunta.

La hiptesis nula supone que las medias son iguales, por lo que su resta da un valor de 0.

La hiptesis alternativa supone que las medias son distintas, por lo que su resta es distinta de 0.

Para hacer estos clculos con STATA:

Si no sealo Unequal Variances supone que las varianzas son iguales:

La hiptesis variable de cola a la izquierda y de 2 colas tiene un valor P mayor que .

- Si las medias entre ambas muestras de poblacin son iguales, la toma de AO

no afecta a la presin sistlica en este grupo de poblacin.

Pr(T < t) = 0.7602 Pr(|T| > |t|) = 0.4796 Pr(T > t) = 0.2398



diff = mean(x) - mean(y) t = 0.7169

diff 5.22 7.281838 -9.721097 20.1611

combined 29 128.88 3.226224 17.37375 122.2714 135.4886

y 21 127.44 3.978112 18.23 119.1418 135.7382

x 8 132.66 5.423509 15.34 119.8354 145.4846

Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]


. ttesti 8 132.66 15.34 21 127.44 18.23

Para variables cuantitativas continuas medidas en escala de razn: vamos a utilizar

una comparacin de medias; si hubiramos estado trabajando con proporciones

tendra que ser para comparacin de proporciones (ms abajo en la misma columna).

Si considero unequal variances:

- El error estndar se calcula segn: la desviacin estndar se divide entre la

raz del nmero de individuos de la muestra.

- El intervalo de confianza se calcula segn: calculas primero el error aleatorio

(multiplicando el error estndar por 1.95), y se suma/resta al valor de la media.

Pr(T < t) = 0.7602 Pr(|T| > |t|) = 0.4796 Pr(T > t) = 0.2398




diff 5.22 7.281838 -9.721097 20.1611

combined 29 128.88 3.226224 17.37375 122.2714 135.4886

y 21 127.44 3.978112 18.23 119.1418 135.7382

x 8 132.66 5.423509 15.34 119.8354 145.4846



. ttesti 8 132.66 15.34 21 127.44 18.23

Pr(T < t) = 0.7751 Pr(|T| > |t|) = 0.4497 Pr(T > t) = 0.2249


Ho: diff = 0 Satterthwaite's degrees of freedom = 15.0352


diff 5.22 6.726056 -9.113327 19.55333

combined 29 128.88 3.226224 17.37375 122.2714 135.4886

y 21 127.44 3.978112 18.23 119.1418 135.7382

x 8 132.66 5.423509 15.34 119.8354 145.4846


Two-sample t test with unequal variances

. ttesti 8 132.66 15.34 21 127.44 18.23, unequal

- El error mximo es la diferencia entre el mximo del intervalo y el mnimo del

intervalo (doble de psilon).

La diferencia que hay entre las medias muestrales de presin sistlica es de 5.22

(comparamos la media de las mujeres que toman AO y las mujeres que no toman AO).

Para la diferencia de medias tambin se puede hacer un intervalo de confianza.

- La hiptesis NULA dice que las medias son iguales.

- Las hiptesis ALTERNATIVAS sugieren 3 posibles alternativas a la hiptesis

nula. El resultado del test de 2 lados (P=0.4497) es mayor que , por lo que no

podemos rechazar la hiptesis nula. El valor P es mayor que para todos los

test (2 lados, cola a la izquierda y cola a la derecha), por lo que NO podemos

rechazar la hiptesis nula.

Los Grados de Libertad se calculan segn: n 1. Si quiero que la media se conserve,

el ltimo valor que me sirve para estimar la media se calcula segn n (tamao de la

muestra) 1 (valor que no puedo desestimar). Los grados de libertad se usan cuando

la muestra responde a un test de varianzas iguales, pero cuando las varianzas son

diferentes utilizo una aproximacin (de Satterhwaites).

Si ahora considero: equal variances

Si comparamos los valores de P con , la conclusin es que P es mayor que por lo

que NO podemos rechazar la hiptesis nula. Los datos que tengo no contienen

suficiente evidencia como para rechazar H0: no hay una asociacin entre la toma de

AO y la presin arterial sistlica (P=0.4796). Hay una relacin entre el intervalo de

confianza y el resultado de ttest de 2 lados: el intervalo de confianza para la diferencia

de medias contiene el valor 0 (es la hiptesis nula: la diferencia de medias es nula).

Cuando el intervalo de confianza para la diferencia de medias contiene el valor de la

hiptesis nula (0) el resultado del test NO ser significativo y por tanto se acepta la

hiptesis nula (la diferencia de medias es igual a 0: H0 = H1 H0 H1 = 0).

Pr(T < t) = 0.7602 Pr(|T| > |t|) = 0.4796 Pr(T > t) = 0.2398




diff 5.22 7.281838 -9.721097 20.1611

combined 29 128.88 3.226224 17.37375 122.2714 135.4886

y 21 127.44 3.978112 18.23 119.1418 135.7382

x 8 132.66 5.423509 15.34 119.8354 145.4846



Para determinar si un rgimen con grandes dosis de anticido es efectivo en relacin con la

curacin de la lcera duodenal, se realiz un ensayo clnico incluyendo 74 pacientes con lcera

demostrada. A dichos pacientes se les asoci (al azar: para que nada influya en la asignacin

del tratamiento) un tratamiento anticido o un placebo inerte. Al cabo de 28 das, 28 de los 36

pacientes que recibieron el tratamiento anticido estaban completamente curados, comparado

con 17 de los 38 pacientes que recibieron el placebo (p0.005).

Plantear el test que realiza Peterson y calcular el valor P. Estimar la diferencia en el porcentaje

de curaciones con confianza del 99%.

- Poblacin A: tratada con anticido. 36 individuos

- Poblacin B: tratada con placebo. 38 individuos

Todas las variables son 0-1. Las variables entre ambos grupos de poblacin son

iguales excepto la que est sujeta a control (tratamiento con anticido). Es una

variable binomial. Utilizo la proporcin de curaciones: se han curado 28 de 36 (0.78 se

curan en la muestra que hemos tratado con anticido) y 17 de 38 (0.45 se curan en la

muestra que hemos tratado con placebo y por tanto inerte).

Como P es menor que rechazamos la hiptesis nula: el mejor tratamiento es cuando

los pacientes reciben anticido en lugar del placebo.

Pr(Z < z) = 0.9982 Pr(|Z| < |z|) = 0.0036 Pr(Z > z) = 0.0018


Ho: diff = 0

diff = prop(x) - prop(y) z = 2.9097

under Ho: .1134126 2.91 0.004

diff .33 .1062065 .121839 .538161

y .45 .0807041 .2918228 .6081772

x .78 .0690411 .644682 .915318

Variable Mean Std. Err. z P>|z| [95% Conf. Interval]

y: Number of obs = 38

Two-sample test of proportions x: Number of obs = 36

X2: para variables cualitativas (seminario 2 Bioestadstica: Aitana Lertxundi).

Despus marcar: Persons Chi Squared y Expected Frequencies.

Cuando hay en una de las casillas casos esperados menores a 5 individuos no se

puede hacer este contraste. Aunque se observan diferencias, no podemos admitir que

sean significativas porque el tamao muestral es demasiado pequeo.

Como P , son dependientes. Este resultado nos obliga a rechazar la hiptesis nula

y aceptar la hiptesis alternativa. Existe asociacin.

Cuando son 2 variables cualitativas existe asociacin si P es menor que .

Pearson chi2(2) = 7.3919 Pr = 0.025

0.3 7.1 7.4

241.0 9.0 250.0

Total 241 9 250

0.1 2.7 2.8

71.3 2.7 74.0

dejan_de_fumar_antes_ 74 0 74

0.2 4.3 4.5

70.4 2.6 73.0

fumadora_durante_emba 67 6 73

0.0 0.1 0.1

99.3 3.7 103.0

no_ha_fumado_nunca 100 3 103

la madre >=2500