V Jornadas de Usuarios de RMejora de la deteccion visual de Datos Atıpicos mediante una
modificacion en las Caras de Chernoff
Beatriz GonzalezVictoria LopezJorge Cordero
Universidad Complutense de MadridDepartamento de Estadıstica e Investigacion Operativa I, Facultad de Matematicas, [email protected]
Departamento de Arquitectura de Computadores y Automatica, Facultad de Informatica, [email protected]
Master en Investigacion en Informatica, Facultad de Informatica
Mobile Technology and BiotechnologyIntelligent Agents−Engineering and Applications Research Group
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
Contenido
1 ¿Quienes somos?
2 ¿Que hacemos?
3 Resultados y Conclusiones
4 Bibliografıa
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
¿Quienes somos?
Research Groups
Mobile Technology and Biotechnologyhttp://www.tecnologiaUCM.es
Intelligent Agents−Engineering and Applicationshttp://grasia.fdi.ucm.es
Bayesian Methodshttp://www.ucm.es/info/bayesianos/
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
¿Que hacemos?
Bioinformatica y Bioestadıstica. Desarrollamos e im-plementamos algoritmos, funciones y librerıas utilizando el lengua-je de programacion R, para resolver problemas en el campo de laBioinformatica: Big Data, Bases de Datos Biologicas y Ali-neamiento de Secuencias, entre otros. Realizamos estudios deEstadıstica Aplicada en Bioestadıstica: Analisis de Microarraysy Test de Hipotesis Multiples, entre otros. Puedes descargarla librerıa BioSeq 1.0 (J. Martınez, V. Lopez y B. Gonzalez) enhttp://www.tecnologiaUCM.es
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
Otras actividades G-TeC
Tecnologıas moviles. Desarrollamos Aplicaciones para Dispo-
sitivos Moviles con sistema operativo Android, iOs y Blackberry.
Nos encargamos del plan de negocio, el desarrollo de la aplica-
cion y el plan de marketing. Puedes descargar nuestras aplica-
ciones moviles en http://www.tecnologiaUCM.es
Estudios de Rendimiento y Fiabilidad. Trabajamos con la
herramienta EMSI para Evaluacion y Modelado de Sistemas
Informaticos. Esta herramienta nos permite realizar Analisis de
Rendimiento y Fiabilidad. EMSI se actualiza periodicamente con
las colaboraciones de otros grupos de investigacion y otras uni-
versidades. Puedes solicitar una copia gratuita del ejecutable a
Victoria Lopez ([email protected])
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
Colaboraciones
Analisis de Datos del Mercado Electrico Espanol
eKergy Technologies, SL, Madrid, Spain
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Abstract. Mejora de la deteccion visual de Datos Atıpicosmediante una modificacion en las Caras de Chernoff
En este trabajo se realiza una mejora de la funcion de R que cons-truye el grafico de las caras de Chernoff para un perfil multivariante.Esta mejora se realiza mediante una categorizacion utilizando unapaleta de colores y se aplica a una base de datos real. El procedi-miento proporciona al investigador una mayor capacidad visual a lahora de detectar datos atıpicos
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Cabras de la Sierra de Guadarrama (Capra Hircus)
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Sobre las cabras de la Sierra de Guadarrama...
Es la raza de cabra domestica mas cercana a la cabra montes
Se caracteriza por su pelaje de color negruzco y largo, en el que destacan las manchas blancas o
marrones de su cara
Problematica: es una de las razas de cabras domesticas mas en peligro de extincion
La Raza Guadarramena o de la Sierra de Guadarrama se ha venido explo-tando tradicionalmente en la zona del Sistema Central (Sierra de Guada-rrama), comprendiendo las provincias de Avila, Segovia Madrid y zonaslimıtrofes de Toledo y Guadalajara. Es una raza de doble aptitud producti-va carne-leche, muy rustica y perfectamente adaptada al medio en que sedesenvuelve. Es capaz de aprovechar terrenos de serranıa de difıcil accesoy poco aprovechables por otro tipo de ganado, soportando bien el climafrıo y lluvioso que caracteriza su zona de explotacion
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Base de Datos Cabras (librerıa BioSeq 1.0)
531 cabras 21 variables
Sexo =
Hembras 90 %
Machos 10 %
Edad =
Andoscas de 2 a 3 anos
Trasandoscas de 3 a 4 anos
Cerradas mas de 4 anos
4 Alturas (cm) 3 Diametros (cm)4 Longitudes (cm) 4 Anchuras (cm)3 Perımetros (cm) Peso (kg)
Datos: Jesus de la Fuente Vazquez (1997)Departamento de Produccion AnimalFacultad de Veterinaria UCM
Interpretacion: Beatriz Madrid Navarro (2013)No de colegiada 4177Colegio de Veterinarios de Madrid
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Box Plot
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Box Plot multiple data=Cabras (19 variables)
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Box Plot multiple hembras trasandoscas (19 variables)
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Caras de Chernoff para visualizar datos multivariados en laforma de un rostro humano
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
El orden importa...
No Variable ¿Que representa en R? Base de Datos1 Anchura del centro Altura.cruz2 Superior Vs inferior, altura de la separacion Altura.dorso3 Altura de la cara Altura.grupa4 Ancho de la mitad superior de la cara Altura.hueco5 Ancho de la mitad inferior de la cara Diametro.longitudinal6 Largo de la nariz Diametro.dorso7 Altura de la boca Diametro.bicostal8 Curvatura de la boca (abs < 9) Longitud.cabeza9 Ancho de la boca Ancho.cabeza10 Altura de los ojos Ancho.anterior.grupa11 Distancia entre los ojos (.5-.9) Ancho.posterior.grupa
12 Angulo de ojos y cejas Longitud.grupa13 Elipse de los ojos Ancho.cana14 Tamano de los ojos Longitud.cuerno15 Posicion izquierda/derecha de los ojos Longitud.oreja16 Altura de las cejas Perımetro.toracico
17 Angulo de las cejas Perimetro.cana18 Ancho de las cejas Perımetro.corvejon
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Caras de Chernoff data=Cabras (18 variables, length=346 sin NAs)
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Caras de Chernoff de las hembras trasandoscas (18 variables, length=54 sin NAs)
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Uso de las formas en la deteccion de outliers
Busqueda de tamanos poco corrientes
Grande → outlier superior
Pequeno → outlier inferior
Problematica: p.e. las cabras adultas pequenas no se apreciarıan como
outliers por camuflarse entre las cabras de menor edad
Para las pruebas → conjunto pequeno → rebanos por edad y sexo
Sexo | Edad A T C totalH 43 85 352 480M 16 15 20 51
total 59 100 372 531
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Ejemplo 1. Perımetro toracico de los machos trasandoscos
Outlier inferior [523]→ busqueda de cara estrecha
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Ejemplo 2. Perımetro toracico de las hembras andoscas
Outlier inferior [478]→ busqueda de cara estrechaOutliers superiores [453, 455]→ busqueda de cara ancha
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Ejemplo 3a. Box Plot de las hembras trasandoscas
10 variables
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Ejemplo 3b. Caras de Chernoff de las hembras trasandoscas
10 variables
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Ejemplo 3c. Resultados obtenidos al observar las Caras deChernoff de las hembras trasandoscas (10 variables)
Prueba visual para la deteccion de outliers realizada por el experto
Variable Outliers reales Outiliers localizados % reales acertados % localizados falladosAltura 368i 368i 381i 100 % 75 %
separacion 432i 399sAncho 409i 424i 381s 0 % 100 %
mitad superiorAncho 425i 354s 410s 0 % 100 %
mitad inferior 412s 415sLargo 434i 436i 379i 436i 66.66 % 33.33 %nariz 393s 393s
Altura 409s 386i 408i 410i 0 % 100 %boca 412i 415i 434s
Curvatura 359i 435i 386s 408s 410s 0 % 100 %boca 412s 415s 428i
Ancho 386s 412s 361s 410s 412s 33.33 % 83.33 %boca 408s 385i 388i 379i
Altura ojos 364i 434i 382s 0 % 100 %Total 15 31 26.66 % (4/15) 87.09 % (27/31)
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Categorizacion de las Variables en las Caras de Chernoff
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Introduccion de un Codigo de 31 Colores en la funcionfaces2 del package TeachingDemos de R
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Ejemplo 3d. Caras de Chernoff modificadas de las hembrastrasandoscas (10 variables)
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff
Ejemplo 3e. Resultados obtenidos al observar las Caras deChernoff modificadas de las hembras trasandoscas
Prueba visual para la deteccion de outliers realizada sobre 30 personas no
expertas de diversas edades entre 24 y 60 anos
Individuo (Var) Categorizacion Color Localizado Correcta Interpretacion359 (8) Boca Magenta 30 26
364 (10) Ojos Cyan 30 12368 (2) Contorno Cabeza Magenta 30 30386 (9) Boca Azul 26 18393 (6) Nariz Cyan 30 29408 (9) Boca Azul 24 13409 (4) Contorno Superior Violeta 24 17409 (7) Boca Cyan 30 21412 (9) Boca Azul 30 27424 (4) Contorno Superior Violeta 30 30425 (5) Contorno Inferior Violeta 30 30434 (6) Nariz Cyan 13 10
434 (10) Ojos Cyan 30 13435 (8) Boca Magenta 30 30436 (6) Nariz Cyan 24 21
Porcentaje 91.33 % 79.02 %
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
¿Quienes somos?¿Que hacemos?
Resultados y ConclusionesBibliografıa
http://www.r-project.org/
http://www.bioconductor.org/
Chernof, H.: The use of faces to represent points in k-dimensional space graphically. Journal of the American
Statistical Association, 68 (342), 361–368 (1973)
Garcıa Lara, I., Ferreno, V., Fernandez Calvino, E., Vidal Galego, L., Lara, G., and de Jesus, M. T.: Ecuaciones de
prediccion del peso vivo de hembras holstein. Frisona espanola, 29 (171), 90–95 (2009)
http://cran.r-project.org/web/packages/TeachingDemos/index.html
Cordero, J., Lopez, V. and Gonzalez, B.: Bases de datos en R. Analisis Grafico y estadıstico de valores atıpicos y
ausentes. Biblioteca UCM (septiembre, 2013) http://eprints.ucm.es/23435
Martınez, J., Lopez, V. and Gonzalez, B.: BioSeq: una librerıa para Bioinformatica en R. Biblioteca UCM (junio,
2013) http://eprints.ucm.es/22633
Sampedro, J., Gonzalez, B. and Lopez, V.: Aplicaciones de Bioestadıstica y Bioinformatica con R (septiembre, 2012)
Gonzalez, B., Lopez, V. and Sampedro, J.: Programacion Lineal y Programacion Dinamica con R. IV Jornadas de
Usuarios de R (2012) http://r-es.org/IV+Jornadas
Gonzalez, B, Lopez, V. and Sampedro, J.: Programming Global and Local Sequence Alignment by Using R. Actas
ISKE2012: Knowledge Engineering and Management Advances in Intelligent Systems and Computing (Springer),214, 341–352 (2014) http://link.springer.com/chapter/10.1007%2F978-3-642-37832-4_31
Cordero, J., Martınez, J., Sanchez, O., Lopez, V. and Gonzalez, B.: BioSeq: una librerıa R para el analisis de secuen-
cias de datos. Actas CAEPIA2013, 943–952 (2013) http://www.congresocedi.es/images/site/actas/ActasCAEPIA.pdf
B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff
Top Related