Post on 27-Jan-2016
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
CURSO DE CURSO DE ESTADÍSTICA BÁSICAESTADÍSTICA BÁSICA
Guadalupe Ruiz Merino - Curso de Estadística Básica
1 2 3 4 5 6
ESQUEMA DEL CURSOESQUEMA DEL CURSOESQUEMA DEL CURSOESQUEMA DEL CURSOESTADÍSTICA BÁSICA
DISEÑO DE EXPERIMENTOS
ESTADÍSTICA DESCRIPTIVA
TIPOS DE VARIABLES
MEDIDAS DE POSICIÓN CENTRAL
Y DE DISPERSIÓN
INFERENCIA ESTADÍSTICA
TABLAS YGRÁFICAS
ESTIMACIÓN
PUNTUALPOR
INTERVALOSMÉTODOS
PARAMÉTRICOSMÉTODOS NO
PARAMÉTRICOS
T-STUDENT U-MANNWHITNEY
K-W
TABLAS DE CONTINGENCIA
CONTRASTE DE HIPÓTESIS
ANOVA
FISHER
PEARSON
Guadalupe Ruiz Merino - Curso de Estadística Básica
1 2 3 4 5 6
V5.1 Tablas de contingencia5.1 Tablas de contingencia5.2 Contraste de hipótesis5.2 Contraste de hipótesis
5.3 Medidas de asociación 5.3 Medidas de asociación
5.1 Tablas de contingencia5.1 Tablas de contingencia5.2 Contraste de hipótesis5.2 Contraste de hipótesis
5.3 Medidas de asociación 5.3 Medidas de asociación
5
SESIÓN 5SESIÓN 5
INFERENCIA ESTADÍSTICA INFERENCIA ESTADÍSTICA IIII
SESIÓN 5SESIÓN 5
INFERENCIA ESTADÍSTICA INFERENCIA ESTADÍSTICA IIII
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
EN LA SESIÓN ANTERIOR VIMOS…EN LA SESIÓN ANTERIOR VIMOS…
Denominamos variables cualitativasvariables cualitativas a aquellas cuyo resultado es un valor o categoría de entre un conjunto finito de respuestas
POREJEMPLO
El sexo, el estado civil o el grupo sanguíneo son variables cualitativas
Guadalupe Ruiz Merino - Curso de Estadística Básica
1 2 3 4 5 6
V5.1 TABLAS DE
CONTINGENCIA5.2 CONTRASTE
DE HIPÓTESIS5.3 MEDIDAS DE
ASOCIACIÓN
Para analizar la relación de dependencia o independencia entre dos variables cualitativas es necesario estudiar su distribución conjunta o tabla de contingencia
Tabla de contingencia: Tabla de doble entrada donde en cada casilla figura el número de individuos que posee esas características
5
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V El sexo y el hábito de fumar El grupo sanguíneo y la posibilidad
de rechazar un trasplante La práctica de ejercicio y el riesgo de
infarto
EJEMPLOSEJEMPLOS
Estudiar la relación entre…
5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V1.- Organizar la información, cuando está referida a factores
OBJETIVOSOBJETIVOS
Las tablas de contingencia tienen dos objetivos fundamentales:
2.- Analizar si existe alguna relación de dependencia o independencia entre los niveles de las variables objeto de estudio
El hecho de que dos variables sean independientes significa que los valores de una de ellas no están influidos por la otra
5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VHOMBRE MUJER MARGINAL
SI n11 n12 n1.
NO n21 n22 N2.
MARGINAL n.1 n.2 n..
5
¿CÓMO SE CONSTRUYE UNA TABLA DE CONTINGENCIA?¿CÓMO SE CONSTRUYE UNA TABLA DE CONTINGENCIA?
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
Una tabla de contingencia se presenta de la siguiente forma
Frecuencia: Número de veces que se presenta un valor dado de una observación
nij=nº observaciones de la fila i y la columna j
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VHOMBRE MUJER MARGINAL
SI 65 58 123
NO 43 67 110
MARGINAL 108 125 233
5
EJEMPLOEJEMPLO
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
Para contrastar la hipótesis “El sexo influye en el hábito de fumar”, podemos construir la siguiente tabla de contingencia
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
Para identificar relaciones entre variables cualitativas se utiliza el test estadístico de la Chi-cuadradotest estadístico de la Chi-cuadrado
Para las tablas 2x2 se utiliza el test de Fishertest de Fisher
TIPOS DE TEST UTILIZADOSTIPOS DE TEST UTILIZADOS
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
TIPOS DE TEST UTILIZADOSTIPOS DE TEST UTILIZADOS
En los ejemplos anteriores…
¿Influye el sexo en el hábito de fumar?
¿Tienen más posibilidades los de un cierto grupo sanguíneo de rechazar un trasplante?
La hipótesis que plantearemos será:
H0: independencia H1: dependencia
El resultado nos permitirá afirmar con un nivel de confianza que nosotros determinaremos si los niveles de una variable influyen en los niveles de la otra
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
RAZONAMIENTORAZONAMIENTO
El razonamiento para contrastar si existe o no asociación entre dos variables cualitativas se basa en:
calcularcalcular cuál serían los valores de frecuencia esperados para cada una de las celdas en el caso de que efectivamente las variables fuesen independientes y compararloscompararlos con los valores realmente observados
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
¿QUÉ CONCLUSIONES SE OBTIENEN?¿QUÉ CONCLUSIONES SE OBTIENEN?
Si no existe mucha diferencia entre ambos valores…
no hay razones para dudar de que las variables sean independientes
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
¿QUÉ CONCLUSIONES SE OBTIENEN?¿QUÉ CONCLUSIONES SE OBTIENEN?
Una vez que hayamos hecho los cálculos, obtendremos un nivel de significaciónnivel de significación
probabilidad de equivocarnos si rechazamos la hipótesis nula
Si es p<0.05p<0.05 rechazamos la hipótesis nula y decimos que las variables son dependientes
Si es p>0.05p>0.05 no podríamos rechazar H0 porque la probabilidad de equivocarnos sería muy alta
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VLa Chi-cuadrado está influenciada por el tamaño muestral
5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
PROBLEMASPROBLEMAS
A mayor número de casos analizados el valor de la Chi-cuadrado tiende a aumentar
Si la muestra es excesivamente grande será más fácil que rechacemos la hipótesis nula de independencia cuando a lo mejor podrían ser independientes
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
PROBLEMASPROBLEMAS
En cada celda de la tabla deberá existir un mínimo de 5 observaciones esperadas
Si no fuera así…
Se agrupan filas o columnas (excepto tablas 2x2)
Se elimina la fila que da la frecuencia <5
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VHOMBRE MUJER MARGINAL
SI 12 32 44
NO 18 10 28
OCASIONALMENTE 3 4 7
5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
PROBLEMASPROBLEMAS
Para el ejemplo anterior “El sexo influye en el hábito de fumar”…
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
PROBLEMASPROBLEMAS
¿Y si la tabla es de 2x2?
Se aplica la corrección de Yatescorrección de Yates
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
PROBLEMASPROBLEMAS
La Chi-cuadrado permite contrastar la hipótesis de independencia pero…
en el caso de que se rechace dicha hipótesis no dice nada sobre la fuerza de la asociación entre las variables estudiadas
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
Las MEDIDAS DE ASOCIACIÓN distinguen entre que las variables sean ordinales o nominales
Las MEDIDAS DE ASOCIACIÓN NOMINALES sólo informan del grado de asociación existente pero no de la dirección
Las MEDIDAS DE ASOCIACIÓN ORDINALES aportan información sobre la dirección de la relación, pudiendo tomar tanto valores positivos como negativos
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
Se pueden encontrar los intervalos de confianza para los riesgos relativos, lo cual alcanza la misma finalidad que la prueba de significancia, según contenga el 1 o no
Los intervalos de confianza para riesgos relativos cada vez son más utilizados para las publicaciones en revistas médicas
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
MEDIDAS DE ASOCIACIÓN ORDINALESMEDIDAS DE ASOCIACIÓN ORDINALES
VALORES POSITIVOS
Existe una relación directa entre las variables
Valores altos de una se corresponden con valores altos de la otra y al contrario
VALORES NEGATIVOS
Existe una relación inversa entre las variables
Valores altos de una se corresponden con valores bajos de la otra y al contrario
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
RESIDUOSRESIDUOS
¿CÓMO SE CALCULAN?
Diferencia entre la frecuencia observada y esperada en cada casilla
¿PARA QUÉ SIRVEN?
Son muy útiles para interpretar las relaciones que se observan en la tabla
¿QUÉ INFORMACIÓN
DAN?
Indican que la diferencia entre las frecuencias es elevada cuando su valor es superior a 1.96 ó inferior a -1.96
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
RESIDUOSRESIDUOS
Mayor a 1.96 en valor absoluto
Hay más casos (si es positivo) o menos (si es negativo) de los que debería haber en esa casilla si las variables fueran independientes, por lo que las variables son dependientes
Un valor del residuo tipificado en una casilla…
Comprendido entre ± 1.96
La diferencia es pequeña por lo que las variables son independientes
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
USO EXCESIVOUSO EXCESIVO
Debido a que la prueba Chi-cuadrado es fácil de entender y calcular, en ocasiones se utiliza cuando es más apropiado otro método
POREJEMPLO
Cuando se analizan dos grupos y las características de interés se miden en escala numérica
Convertir la escala numérica en una ordinal o incluso binaria
Aplicar la prueba t-StudentLO CORRECTO
LO INCORRECTO
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
USO EXCESIVO - EJEMPLOUSO EXCESIVO - EJEMPLO
“ Se desea conocer los pacientes de una intervención que tienen mayor probabilidad de padecer complicaciones que otros”
Los investigadores querían saber si existe relación entre la edad y la probabilidad de tener complicaciones
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
USO EXCESIVO - EJEMPLOUSO EXCESIVO - EJEMPLO
Se recogen datos de pacientes que sufrieron complicaciones y de otros pacientes que no las sufrieron
MÉTODO DE TRABAJO:
1
Los investigadores formaron una tabla de contingencia 2x2 y agruparon la edad en ≤45 o >45
2
Emplearon la prueba de chi-cuadrado para la independencia y los resultados indicaron que no había relación entre la edad y la presencia de complicaciones
3
¡MAL!
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
USO EXCESIVO - EJEMPLOUSO EXCESIVO - EJEMPLO
¿DÓNDE ESTÁ EL ERROR?
En la selección arbitraria de los 45 años como punto de corte para la edad
Y en usar una prueba de forma incorrecta
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
USO EXCESIVOUSO EXCESIVO
Cuando las variables numéricas se analizan con métodos diseñados para variables categóricas u ordinales, se pierde la mayor especificidad de las mediciones numéricas
Antes de hacerlo hay que investigar si las categorías son correctas
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
McNEMARMcNEMAR
Una variante de las tablas longitudinales es medir una misma variable dicotómica (tratamiento-no tratamiento, rechazo-no rechazo) en dos momentos temporales distintos
Resulta especialmente útil para medir el cambioCONSEJO
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
V5
5.1 TABLAS DE CONTINGENCIA
5.2 CONTRASTE DE HIPÓTESIS
5.3 MEDIDAS DE ASOCIACIÓN
McNEMARMcNEMAR
¿CÓMO SE TRABAJA?
Se toma una medida de una variable dicotómica, se aplica el tratamiento (o se deja pasar el tiempo) y se vuelve a tomar una medida de la misma variable en los mismos sujetos
Se contrasta la hipótesis de igualdad de proporciones antes y después
Guadalupe Ruiz Merino - Curso de Estadística Básica
1 2 3 4 5 6
VI6.1 Correlación6.1 Correlación6.2 Regresión Lineal Simple6.2 Regresión Lineal Simple
6.1 Correlación6.1 Correlación6.2 Regresión Lineal Simple6.2 Regresión Lineal Simple
6
SESIÓN 6SESIÓN 6
REGRESIÓNREGRESIÓN
SESIÓN 6SESIÓN 6
REGRESIÓNREGRESIÓN
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
DEFINICIÓN DE CORRELACIÓNDEFINICIÓN DE CORRELACIÓN
Se considera que dos variables Se considera que dos variables cuantitativas están relacionadas entre sí cuantitativas están relacionadas entre sí cuando los valores de una de ellas varían cuando los valores de una de ellas varían de forma sistemática conforme a los de forma sistemática conforme a los valores de la otra.valores de la otra.
6
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
EL COEFICIENTE DE CORRELACIÓN DE PEARSONEL COEFICIENTE DE CORRELACIÓN DE PEARSON
El coeficiente de correlación de Pearson es un índice estadístico que permite definir de forma más concisa la relación entre las variables
Es una medida de la relación lineal entre dos variables medidas con escala numérica
6
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
EL COEFICIENTE DE CORRELACIÓN DE PEARSONEL COEFICIENTE DE CORRELACIÓN DE PEARSON
Su resultado es un valor que fluctúa entre -1 y +1…
+1
-1
0
Relación perfecta en sentido negativo
Relación perfecta en sentido positivo
Cuanto más cercanos a 0 sean los valores significará una relación más débil o incluso ausencia de relación
6
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
El valor del coeficiente de correlación está muy influenciado por los valores extremos, igual que la desviación estándar.
Por tanto la correlación no describe bien la relación entre dos variables cuando cada una de ellas tiene valores extremos
En estos casos debe hacerse una transformación de los datos o usarse la correlación de Spearman
6
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
Finalmente, correlación no es igual a causa
El juicio de que una característica causa otra debe justificarse con argumentos, no sólo con el coeficiente de correlación
Correlación = Causa
6
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
EL COEFICIENTE DE CORRELACIÓN DE PEARSONEL COEFICIENTE DE CORRELACIÓN DE PEARSON
Según su valor la relación entre las variables será:
1 Perfecta
0,5
0,9
0,8
Excelente
Buena
Regular
Mala
6
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6
6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
DIAGRAMAS DE DISPERSIÓNDIAGRAMAS DE DISPERSIÓN
Un DIAGRAMA DE DISPERSIÓN ofrece una idea bastante aproximada sobre el tipo de relación existente entre dos variables
Un DIAGRAMA DE DISPERSIÓN también puede utilizarse como una forma de cuantificar el grado de relación lineal existente entre dos variables
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6
6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
COEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICACOEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICA
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6
6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
COEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICACOEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICA
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6
6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
COEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICACOEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICA
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6
6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
COEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICACOEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICA
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6
6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
DIAGRAMAS DE DISPERSIÓNDIAGRAMAS DE DISPERSIÓN
El DIAGRAMA DE DISPERSIÓN permite formarse una primera impresión sobre el tipo de relación existente entre variables
Intentar cuantificar esa relación tiene inconvenientes porque la relación entre dos variables no siempre es perfecta o nula
Normalmente ni lo uno ni lo otro
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
Una vez que sabemos que dos variables están relacionadas…
¿Cómo averiguar qué tipo de relación tienen?
Para esto utilizamos los modelos de regresión
6
MODELOS DE REGRESIÓNMODELOS DE REGRESIÓN
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
6
¿QUÉ ES?La regresión como técnica estadística analizala relación de dos o más variables contínuas
¿PARA QUÉ SIRVE?
La regresión se utiliza para inferir datosa partir de otros y hallar una respuesta a lo que pueda suceder
CONCEPTO DE REGRESIÓNCONCEPTO DE REGRESIÓN
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VIDIFERENCIA ENTRE CORRELACIÓN Y REGRESIÓN:
6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
La correlación es independiente de la escala pero no la regresión
EJEMPLOLa correlación entre estatura y peso es la misma sin importar que la estatura se mida en metros o centímetros
SIN EMBARGO…La ecuación de regresión entre el peso y la estatura depende de las unidades que utilicemos
6
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VISIMILITUDES ENTRE CORRELACIÓN Y REGRESIÓN:
6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
La pendiente de la línea de regresión tiene el mismo signo que el coeficiente de correlación
La correlación y la regresión sólo describen relaciones lineales. Si los coeficientes de correlación y las ecuaciones de regresión se calculan a ciegas, sin examinar las gráficas, los investigadores pasarán por alto relaciones muy estrechas pero no lineales
¡OJO!
6
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
6
VARIABLES DE LA REGRESIÓNVARIABLES DE LA REGRESIÓN
Las variables del modelo de regresión deben ser cuantitativas
Dada la robustez de la regresión es frecuente encontrar incluidas como variable independiente variables nominales transformadas
La variable dependiente debe ser siempre cuantitativa
Robustez: un estadístico se dice que es robusto cuando es válido aunque no se cumpla alguno de sus supuestos
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6
6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
TIPOS DE REGRESIÓNTIPOS DE REGRESIÓN
Se pueden encontrar distintos tipos de regresión
Regresión Lineal1
Regresión Múltiple2
Regresión Logística3
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6
6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEALREGRESIÓN LINEAL
Consideremos una variable aleatoria respuesta Y, relacionada con otra variable que llamaremos explicativa X
Supongamos una muestra de n individuos para los que se conocen los valores de ambas variables
Hacemos una representación gráfica:
en el eje X la variable explicativa en el Y la respuesta
Y Variable aleatoria
X Variable explicativa
n Muestra
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6
6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEALREGRESIÓN LINEAL
OBJETIVO Encontrar una recta que se ajuste a la nube de puntos
A partir de esa recta podemos usar los valores de X para predecir los de Y
Normalmente se utiliza el “método de los mínimos cuadrados”“método de los mínimos cuadrados” que minimiza la distancia de las observaciones a la recta
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VIUna recta tiene una ecuación muy simple:
a
b
Y=a+bX
b
a
es la pendiente de la recta
es el punto en que la recta corta el eje vertical
Habría que calcular los coeficientes a,b.
6
6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
REPRESENTACIÓN GRÁFICAREPRESENTACIÓN GRÁFICA
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6
Conociendo los valores de estos dos coeficientes podríamos reproducir la recta y describir con ella la relación entre las variables
Además de representar la recta con su fórmula también es útil disponer de alguna información sobre el grado en que la recta se ajusta a la nube de puntos
6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEALREGRESIÓN LINEAL
1 2 3 4
Guadalupe Ruiz Merino – Curso de Estadística Básica
5 6
VI6
6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE
BONDAD DEL AJUSTEBONDAD DEL AJUSTE
Una medida de ajuste muy aceptada es el coeficiente coeficiente de determinación Rde determinación R22
Se trata de una medida estandarizada que toma valores entre 0 y 1
Cuadrado del coeficiente de correlación lineal
R2=0.86La recta explica un 86% de la variabilidad de Y en función de X