Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad...
Transcript of Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad...
![Page 1: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/1.jpg)
Exposición: Clustering
Juan de Dios Murillo Morera
A37520
Miércoles 9 de Junio, 2004
Universidad de Costa Rica
![Page 2: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/2.jpg)
Agenda Motivación Qué es clustering ? Modelo Conceptos importantes Ejemplo Algunos algoritmos utilizados El algoritmo de árbol de sufijos(STC) Resultados y evaluaciones de algoritmos de
clustering Conclusiones
![Page 3: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/3.jpg)
Motivación
Problema: La baja precisión del Web search engine hace dificil para el usuario la tarea de localizar rapidamente la información esperada
Solución:
Web Document Clustering
![Page 4: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/4.jpg)
Qué es Clustering ?
Es un método alternativo que permite organizar los resultados obtenidos a través de grupos de documentos(cluster base) tomando en cuenta algún tópico en especial.
Según el artículo es una técnica para presentar los documentos despúes de haberlos recuperado en grupos pequeños que están relacionados por un tema en especial.
![Page 5: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/5.jpg)
Modelo
UserSearchEngine
ClusteringEngine
query
clusters
![Page 6: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/6.jpg)
Requerimientos principales
Relevance: método que produce clusters que agrupan los documentos relevantes separandolos de los irrelevantes.
Browsable Summaries: Cuando el usuario necesita determinar si los contenidos de un cluster son de interés
Overlap: Es importante por que se asigna un documento a más de un cluster.
Snippets : Lista de documentos ordenadas por orden de relevancia, relativamente pequeños.
![Page 7: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/7.jpg)
Ejemplo # 1 Compartir frases en un clustering es una forma de resumir su contenido.
![Page 8: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/8.jpg)
Algunos algoritmos utilizados
Single-Pass: es el más popular de los algoritmos incrementales, sin embargo tiene tendencia a producir clusters largos. K-means: permite aplicar overlapping y es una aproximación de GAHC. Buckshot y Fractionation : son más rápido que los dos primeros STC: árbol de sufijos, a diferencia de los anteriores tratan a los documentos como una secuencia ordenada de palabras.
![Page 9: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/9.jpg)
Suffix Tree Clustering (STC)
Es un algoritmo de cluster de tiempo lineal, que está basado en el árbol de sufijos y el cual con eficiencia identifica el conjunto de documentos que comparten frases comunes. El STC trata los documentos como un conjunto de strings y hace uso de información próxima entre palabras. Resume el contenido de los clusters para los usuarios Es bastante rápido por que trabaja con un conjunto pequeño de documentos en forma incremental e independiente.
![Page 10: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/10.jpg)
Procedimiento de operación
Pasos:1. “Limpiar” los documentos2. Identificar los clusters base3. Combinar los clusters base
![Page 11: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/11.jpg)
“Limpiar” los documentos
La cadena de texto que representa cada documentos es transformado haciendo uso de un algoritmo de stemming. Se eliminan los prefijos y sufijos. Se pasa de plural a singular. Se eliminan los tags así como signos de puntuación.
![Page 12: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/12.jpg)
Identificar los clusters base
Está compuesto de una raíz que direcciona el árbol Cada nodo interno tiene dos hijos. Cada línea entre nodos está etiquetada con un sub-string del string(S). Ninguna de las aristas fuera del mismo nodo pueden tener las etiquetas que comiencen con la misma palabra. Puede verse como la creación de un índice invertido.
![Page 13: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/13.jpg)
Identificar los clusters base(cont)clusters base
![Page 14: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/14.jpg)
Combinar los clusters base Los documentos pueden compartir más de una frase. Los documentos de distintas bases pueden aplicar overlap.
Phrase: tooDocuments: 2,3
Phrase: ateDocuments: 1,2,3
Phrase: mouseDocuments: 2,3
Phrase: ate cheeseDocuments: 1,2
Phrase: cheeseDocuments: 1,2
Phrase: cat ateDocuments: 1,3
c
e f
a
d
b
Clustering de clustering bases
![Page 15: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/15.jpg)
mouse too
catate
cheese
ate
cheese
cheese
3,23,1
2,2
2,3 2,1too
mouse too too
too
too
mouse
ate cheese too
b c
f
a ed
1,1 1,2
3,42,41,3
3,3
Diagrama del árbol de sufijos
Dadas las siguientes cadenas
Cadena1: “cat ate cheese”.
Cadena2: “mouse ate cheese too”.
Cadena3: “cat ate mouse too”.
Objetivo: Agrupar documentos que
compartan temas comunes
![Page 16: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/16.jpg)
Experimento # 1 Uso de frases para identificar los clusters. Los clusters usan overlapping 72 % de los documentos fueron puestos en más de un cluster. Se trabajaron 10 colecciones de documentos de 200 documentos.
Single-Pass
K-means
Fractionation
GAHC
Buckshot
STC
original list
0.00
0.10
0.20
0.30
0.40
algorithm
aver
age
prec
ison
![Page 17: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/17.jpg)
Experimento # 2 Las frases son claves para identificar los clusters así
como también el overlap.
STC-no-overlap
STC
STC-no-phrases
0.00
0.10
0.20
0.30
0.40
algorithm
ave
rag
e p
recis
ion
![Page 18: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/18.jpg)
Experimento # 3 El uso de frases son claves en STC y el de palabras en el de GAHC. La diferencia de K-Means entre el uso de frases y no uso de las
mismas es más pequeño en relación con el de STC.
GAHC
STC
K-Means
0
0.1
0.2
0.3
0.4
0.5
algorithm
ave
rag
e p
recis
ion
single wordsphrases
![Page 19: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/19.jpg)
Experimento # 4 El impacto de K-Means y Buckshot en relación a overlap es
considerablemente pequeño.
Buckshot
STC
K-Means
0
0.1
0.2
0.3
0.4
algorithm
aver
age
prec
isio
n
no overlap
overlap allowed
![Page 20: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/20.jpg)
Experimento # 4 (cont) Si los documentos aparecen en múltiples clusters:
1-) Es ventajoso si el doc es relevante.
2-) Es desventajoso si el documento es irrelevante.
K-Means Buckshot STCAvg. num of clusters:Relevant document.
1.40 1.40 2.60
Avg. num of clusters:Irrelevant document
1.55 1.35 1.90
Ratio of the above 0.90 1.04 1.37
![Page 21: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/21.jpg)
Propuesta de artículo de investigación
Implementar un algoritmo de los descritos y hacer un análisis de resultados en términos de tiempo, precisión, agrupamiento de documentos etc.
![Page 22: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/22.jpg)
Conclusiones
El clustering es un método de recuparar la información a través del agrupamiento de documentos en base a temas específicos.
Una secuencia ordenada de palabras es mucho más significativas que simples palabras claves.
El uso del custering facilitaría al usuario localizar rapidamente la información esperada.
El STC es mucho más rápido que el uso tradicional de clustering.
![Page 23: Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.](https://reader035.fdocuments.mx/reader035/viewer/2022062618/54e6aa324a7959d6578b48ae/html5/thumbnails/23.jpg)
Gracias!!!