Análisis_Discriminante_2grupos

download Análisis_Discriminante_2grupos

of 14

description

Analisis discriminante de 2 grupos usando minitab

Transcript of Análisis_Discriminante_2grupos

  • ANLISIS DISCRIMINANTE 2 GRUPOS MINITAB 17

    1.- La muestra se divide en dos sub muestras, una utilizada para la estimacin de la funcin

    discriminante, la otra es destinada con fines de validacin Calc/Datos Aleatorios/Bernoulli/

    2.- Codificar Grupos en Texto

    Ubicarse en columna C6, Clic Derecho/Insertar Columnas Datos/Codificar/Numrico a Texto

    #Filas = 100 Almacenar: C25 Probabilidad: 0.4

    Codificar: Region Mtodo: Codificar valores individuales Valor actual: 0, 1 Valor codificado: USA / North America, Outside North America Almacenar: en hoja actual / columna C6

  • 3.- Mostrar tabla estadsticos descriptivos Estadisticas/Tablas/Estadisticos Descriptivos

    4.- Hallar variables significativas para discriminar

    a.- Estadisticas/Estadisticas bsicas/Mostrar estadsticos descriptivos

    Variable para fila: Region_T Variables categoricas: mostrar conteos y porcentajes totales

    Variables: Todas las var. Independ. Por Variable: Var. Dependiente Estadisticas: media, N valores presentes

  • b.- Hacer prueba de 2 medias, para demostrar que tienen medias diferentes. Estadisticas/Estadisticas bsicas/T de 2 muestras

    Esta operacin se hace para cada una de las 13 variables independientes comparndola con la variable dependiente Regin

    Verificar que variables tienen P_Value < 0.05 o P_Value < 0.10 Se seleccionan: Prod Qual, P_Value = 0.000 Prod Line, P_Value = 0.000 Salesf Imag, P_Value = 0.003 Comp Pric, P_Value = 0.000 Pric Flex, P_Value = 0.000 (El libro usa una prueba adicional: one way y elimina 2 variables ms, esto no tiene minitab, por tanto usar solo las variables que indica el libro) 5.- Graficar Grupos y Variables vs Data

    Grfica/Grfica de puntos/Con Grupos

    Variables de grficas: Las 3 var. Independ. Variable Categrica: Var. Dependiente

    Hacer clic en cada muestra en su columna Muestra 1: cada una de las var. Independ. Muestra 2: Var. Dependiente

  • 6.- Agregar Leyenda al Grfico

    Seleccionar ejes del grfico Editor/Editar escala Y Seleccionar los puntos del grafico Editor/Editar puntos/Grupos: Region_T

    Clic en mostrar Quitar check a etiquetas de marcas principales (columna Alto)

  • 7.- Anlisis Discriminante:

    Stat/Multivariable/Discriminant Analysis:

    Se obtiene el siguiente modelo

    Grupos: Var. dependiente Predictores: Todas las var. Indep. Almacenar: una columna por grupo Clic en Opciones: probabilidad de la poblacin (0.4 USA, 0.6 Outside)

  • 8.- Desarrollar la Funcin Discriminante (como son 2 grupos, se forma 1 funcin) Calc/Calculadora

    9.- Predecir la clasificacin de grupos Se halla el score 1 (con funcin lineal de Fisher 1) y score (con funcin lineal de Fisher 2). Si el score 1 > score 2, entonces la observacin se clasifica con el valor 0 es decir grupo USA; caso contrario se clasifica como grupo Outside. Esta es la forma mas sencilla de clasificar sin embargo se recomienda clasificar usando la funcin discriminante para hallar el score y determinar luego el punto de corte ptimo para luego asignar una clasificacin.

    Determinar Score 1:

    Almacenar: columna nueva C29 Expresin: Restar columna C28 C27 Marcar: Agregar como frmula

    Almacenar: columna nueva C30 Expresin: -52.8799+7.7250*'Prod Line'+6.4560*'Comp Pric'+4.2311*'Pric Flex' Marcar: Agregar como frmula

  • Determinar Score 2:

    Determinar Score:

    Almacenar: columna nueva C31 Expresin: -60.5658+6.9088*'Prod Line'+7.3492*'Comp Pric'+5.9125*'Pric Flex' Marcar: Agregar como frmula

    Almacenar: columna nueva C32 Expresin: No incluir constante -7.68592 -0.81619*'Prod Line'+0.89314*'Comp Pric'+1.68139*'Pric Flex' Marcar: Agregar como frmula

  • Clasificacin de grupo usando Score 1 y Score 2

    Clasificacin de grupo usando Score y punto ptimo de corte El punto de corte ptimo se obtiene con la siguiente frmula

    Sustituyendo en la funcin discriminante el valor de las medias del grupo 1 para las variables Prod Line, Comp Pric y Pric Flex se obtiene el centroide del grupo 1; se igual forma se procede para hallar el centroide del grupo 2. Del paso 4 tomar nota de las medias y registrarlas en minitab como se muestra.

    Almacenar: columna nueva C33 Expresin: IF(('SCORE_1'-'SCORE_2') > 0,0,1) Marcar: Agregar como frmula

  • Usando la funcin discriminante: Hallamos los centroides reemplazando las medias del primer grupo y luego del segundo grupo, en la siguiente funcin. FD = -0.81619*'Prod Line'+0.89314*'Comp Pric'+1.68139*'Pric Flex'

    Hallamos el punto de corte ptimo:

  • Clasificacin de grupo usando Score y punto ptimo de corte

    10.- Determinar clasificaciones erradas Comparamos la clasificacin realizada en la columna C40 com la clasificacin original Region_T Estadisticas/Tablas/Tabulacin cruzada

  • 11.- Validar la funcin discriminante Ir a Holdout Sample (la muestra de 40 datos) y luego: Calcular el Score con la funcin discriminante Calc/Calculadora

    Almacenar: columna nueva C27 Expresin: Copiar la funcin discriminante: No incluir constante -7.68592 -0.81619*'Prod Line'+0.89314*'Comp Pric'+1.68139*'Pric Flex' Marcar: Agregar como frmula

  • Copiar el punto ptimo de corte

    Determinar la clasificacin de la muestra Holdout Sample usando Score y punto de corte

  • 12.- Determinar clasificaciones erradas Comparamos la clasificacin realizada en la columna C29 com la clasificacin original Region_T Estadisticas/Tablas/Tabulacin cruzada

  • 13.- Resumen de los resultados Con Analysis Sample

    a) Para el grupo USA se clasific correctamente 25 datos y 7 datos errados (p correcto = 25/32 = 78.13%)

    b) Para el grupo Outside se clasific correctamente 27 datos y 1 dato errado (p correcto = 27/28 = 96.43%

    c) El modelo FD tiene um p xito = (25 + 27) / 60 = 86.7% tal se obtuvo en el paso 7 Com Holdout Sample

    d) Para el grupo USA se clasific correctamente 9 datos y 2 datos errados (p correcto = 9/11 = 81.82%)

    e) Para el grupo Outside se clasific correctamente 25 datos y 4 dato errado (p correcto = 25/29 = 86.21%

    f) El modelo FD tiene um p xito = (9 + 25) / 40 = 85.0%