Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS)...

Post on 23-Jan-2016

221 views 0 download

Transcript of Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS)...

Aprendizaje no Supervisado: Clustering

Norberto Díaz DíazBioinformatics Group of Seville (BIGS)

Dpto. de Lenguajes y Sistemas InformaticosUniversidad de Sevilla

Tabla de Contenidos

Introducción

Clustering

Jerárquico: CobWeb, FarthestFirst

Basado en Particiones: K-means

Algoritmo EM

Aprendizaje Supervisado (Clasificación)El conjunto de datos contiene un atributo que “guía” el aprendizaje (clase).

Clasificadores: K-NN (IBk), C4.5 (J48)…

Introducción

Aprendizaje No Supervisado (Clustering-Biclustering)No existe atributo clase.

Aprendizaje Semi-Supervisado Algunos ejemplos tienen clase y otros no.

CLUSTERING

Objetivo: crear conjunto de elementos los cuales tengan alguna característica común.

El clustering solo actua bajo una dimensión.

Crear conjuntos de genes según su expresión bajo condiciones experimentales.

Crear conjuntos de condiciones según la expresión de los genes de un genoma.

filas

columnas

Clustering Jerárquico - Algoritmo

Se basa en descomponer jerárquicamente el conjunto de datos de entrada

clustering

clustering

clustering

clustering

clustering

Clustering Jerárquico - Ejemplo

Partición recursiva de los datos

Clustering Jerárquico – CobWeb (en Weka)

Clustering Jerárquico – FarthestFirst (en Weka)

Clustering Basado en particiones: K-Medias

Consiste en minimizar las distancias de los elementos de la partición y

el centroide de ésta.

K-Medias: Ejemplo 1

Kmedias – SimpleKMeans (en Weka)

Clustering EM (Expectation Maximization)

Se basa en el modelo estadístico de Gauss:

Estima parámetros por máxima verosimilitud

Imputación de datos inexistentes

El proceso es similar a K-meansLos parámetros son recalculados hasta que los valores convergen

Suele utilizarse para estimar la distribución de los datos a prioriEsto puede verse en el algoritmo de clustering CLICK

Clustering EM - Weka

Ejercicio – Supervisado vs NoSupervisado

¿Quién consigue el mejor resultado para la base de datos “zoo.arf”, usando supervisado y no-Supervisado?

FIN