Resumenes de grafos usando 2-treesusers.dsic.upv.es/grupos/nle/ceri/papers/ceri2012_alvarez.pdf ·...

12
Res´ umenes de grafos usando k 2 -trees * Sandra ´ Alvarez-Garc´ ıa, Sergio Folgar, Susana Ladra Laboratorio de Bases de Datos, Campus de Elvi˜ na s/n, A Coru˜ na, Espa˜ na. {sandra.alvarez,sergio.folgar,susana.ladra}@udc.es Resumen Una de las principales consecuencias de los avances tecnol´ ogi- cos de los ´ ultimos a˜ nos ha sido el aumento de la cantidad de informaci´ on de inter´ es que es generada diariamente. En la pr´ actica, el procesado y la visualizaci´ on de estos conjuntos de datos de gran magnitud supone un reto para las t´ ecnicas tradicionales. En el caso de la informaci´ on estruc- turada mediante grafos, pueden ser de utilidad t´ ecnicas de simplificaci´ on o resumen, las cuales permiten obtener grafos de menor tama˜ no que, preservando las caracter´ ısticas de inter´ es, puedan ser analizados y visua- lizados. En el presente trabajo se describe una propuesta para la obtenci´on de grafos resumen mediante el uso de k 2 -tree, una estructura dise˜ nada pa- ra el almacenamiento eficiente de grafos y que dispone de operaciones optimizadas para su consulta. La eficiencia espacial de esta estructura permite trabajar con conjuntos de gran magnitud en memoria. Sobre esta base, se propone una t´ ecnica para, sirvi´ endonos de la organizaci´ on interna de la estructura, extraer grafos resumen con p´ erdida con diferen- tes niveles de granularidad para su uso en tareas de miner´ ıa de grafos y visualizaci´ on. 1. Introducci´ on y motivaci´ on A la hora de escoger un modelo para la representaci´ on de los conjuntos de datos actuales, los grafos resultan un modelo natural que reflejan las relacio- nes entre elementos en muchos ´ ambitos. Ejemplos de aplicaci´ on especialmente significativos son los enlaces entre p´ aginas web, las relaciones de amistad entre usuarios de una red social o las compras realizadas en una tienda de comercio electr´ onico [1]. Sobre estas representaciones, las t´ ecnicas de miner´ ıa de grafos permiten ex- plotar esta informaci´ on para detectar comunidades en redes sociales (zonas del grafo que presentan una alta conectividad interna pero bajo n´ umero de conexio- nes con otras zonas [7]) o extraer patrones de subgrafos comunes [10]. En la actualidad, el auge de las tecnolog´ ıas de consumo ha incrementado el volumen de contenido generado y consumido diariamente, al tiempo que tambi´ en * Parcialmente financiado por el Ministerio de Ciencia e Innovaci´ on (PGE y Fondos FEDER), ref. TIN2009-14560-C03-02) y Xunta de Galicia (cofinanciado con Fondos FEDER, ref. 2010/17.

Transcript of Resumenes de grafos usando 2-treesusers.dsic.upv.es/grupos/nle/ceri/papers/ceri2012_alvarez.pdf ·...

Page 1: Resumenes de grafos usando 2-treesusers.dsic.upv.es/grupos/nle/ceri/papers/ceri2012_alvarez.pdf · La e ciencia espacial de esta estructura ... descenso por el arbol en la representaci

Resumenes de grafos usando k2-trees*

Sandra Alvarez-Garcıa, Sergio Folgar, Susana Ladra

Laboratorio de Bases de Datos, Campus de Elvina s/n, A Coruna, Espana.{sandra.alvarez,sergio.folgar,susana.ladra}@udc.es

Resumen Una de las principales consecuencias de los avances tecnologi-cos de los ultimos anos ha sido el aumento de la cantidad de informacionde interes que es generada diariamente. En la practica, el procesado y lavisualizacion de estos conjuntos de datos de gran magnitud supone unreto para las tecnicas tradicionales. En el caso de la informacion estruc-turada mediante grafos, pueden ser de utilidad tecnicas de simplificaciono resumen, las cuales permiten obtener grafos de menor tamano que,preservando las caracterısticas de interes, puedan ser analizados y visua-lizados.En el presente trabajo se describe una propuesta para la obtencion degrafos resumen mediante el uso de k2-tree, una estructura disenada pa-ra el almacenamiento eficiente de grafos y que dispone de operacionesoptimizadas para su consulta. La eficiencia espacial de esta estructurapermite trabajar con conjuntos de gran magnitud en memoria. Sobreesta base, se propone una tecnica para, sirviendonos de la organizacioninterna de la estructura, extraer grafos resumen con perdida con diferen-tes niveles de granularidad para su uso en tareas de minerıa de grafos yvisualizacion.

1. Introduccion y motivacion

A la hora de escoger un modelo para la representacion de los conjuntos dedatos actuales, los grafos resultan un modelo natural que reflejan las relacio-nes entre elementos en muchos ambitos. Ejemplos de aplicacion especialmentesignificativos son los enlaces entre paginas web, las relaciones de amistad entreusuarios de una red social o las compras realizadas en una tienda de comercioelectronico [1].

Sobre estas representaciones, las tecnicas de minerıa de grafos permiten ex-plotar esta informacion para detectar comunidades en redes sociales (zonas delgrafo que presentan una alta conectividad interna pero bajo numero de conexio-nes con otras zonas [7]) o extraer patrones de subgrafos comunes [10].

En la actualidad, el auge de las tecnologıas de consumo ha incrementado elvolumen de contenido generado y consumido diariamente, al tiempo que tambien

* Parcialmente financiado por el Ministerio de Ciencia e Innovacion (PGE y FondosFEDER), ref. TIN2009-14560-C03-02) y Xunta de Galicia (cofinanciado con FondosFEDER, ref. 2010/17.

Page 2: Resumenes de grafos usando 2-treesusers.dsic.upv.es/grupos/nle/ceri/papers/ceri2012_alvarez.pdf · La e ciencia espacial de esta estructura ... descenso por el arbol en la representaci

ha aumentado el interes por conocer, controlar y estudiar toda esta nueva infor-macion. Ante esta situacion, surgen problemas de escalabilidad en las tecnicastradicionales de grafos, haciendose imprescindible por tanto el diseno de estruc-turas eficientes para el almacenamiento y procesado de grafos de gran volumen.

Uno de los retos en el analisis de dichos grafos de gran tamano es la re-presentacion de los mismos; ya que, por ejemplo, visualizar un grafo social demillones de usuarios de forma conjunta supone problemas no solo de eficienciacomputacional sino de complejidad visual de cara al usuario final.

En estas situaciones puede ser de utilidad emplear resumenes de los grafos.Dichos resumenes son construidos mediante tecnicas de reduccion de grafos,que permiten obtener representaciones simplificadas de un grafo mediante laagrupacion de nodos y aristas. En funcion de los criterios para agrupar estoselementos, el grafo obtenido puede preservar caracterısticas de interes del grafooriginal. De la misma forma, en funcion de las necesidades existen tecnicas paraobtener grafos resumen con y sin perdida.

El tamano de los grafos resumen estara caracterizado por un nivel de granu-laridad. Este nivel de granularidad vendra determinado por la tecnica concretaque se emplee, la cual establecera una cota maxima de numero de nodos, numerode clusters, distancia del camino mas largo u otras metricas que se consideren.

En el caso de la visualizacion, el uso de grafos resumen es de utilidad paraconseguir representaciones que reduzcan el exceso de detalle o ruido visual, ca-racterısticas de los grafos de gran magnitud. En estas situaciones, mediante elgrafo resumen es posible identificar con mayor facilidad la estructura general delgrafo, clusters o agrupaciones destacadas y subpatrones emergentes. Existen tra-bajos relacionados en este campo que abordan la construccion de grafos resumenmediante ponderacion de los nodos [9] o la construccion a partir de muestras concaracterısticas topologicas similares a las del grafo completo [14].

Las tecnicas de resumen de grafos no solo resultan utiles en las tareas de vi-sualizacion, sino que tambien tienen aplicacion en las tareas de minerıa de grafosya que es posible construir grafos resumen que respeten en cierta medida las ca-racterısticas deseadas del grafo original de cara la extraccion de conocimiento.

En este contexto proponemos una nueva tecnica para la generacion de grafosresumen que se beneficia de la representacion del grafo original mediante laestructura k2-tree. Como se explica a continuacion, la representacion internabasada en niveles que define el k2-tree ya propone por sı misma una agrupacionjerarquica de los nodos del grafo susceptible de ser explotada para la generacionde grafos resumen comprimidos con perdida.

2. k2-tree

Este trabajo propone la generacion de grafos resumen basandose principal-mente en la utilizacion de k2-tree [6,11], una estructura disenada inicialmentepara representar y explotar eficientemente grafos Web. Esta Seccion describeesta estructura, enfatizando aquellos aspectos relevantes para la propuesta degrafos resumen que presentamos en las secciones 3 y 4.

Page 3: Resumenes de grafos usando 2-treesusers.dsic.upv.es/grupos/nle/ceri/papers/ceri2012_alvarez.pdf · La e ciencia espacial de esta estructura ... descenso por el arbol en la representaci

2.1. Estructura de Datos

La estructura de k2-tree [6,11] fue disenada para representar de forma com-pacta y eficiente relaciones binarias poco densas. Un grafo puede ser visto comouna relacion binaria representable mediante su matriz de adyacencia, de formaque cada fila y columna de la matriz estan representando los nodos de dichografo. De esta forma, una celda (i, j) activada mediante un 1 en la matriz de ad-yacencia indica que existe una arista que une el nodo i con el nodo j en el grafooriginal. Aplicando esta idea al caso de los grafos web, cada fila de la matrizrepresentara una pagina web, mientras que las aristas indican la existencia deun enlace en la pagina origen que apunta a la pagina destino. La figura 1 en laparte superior, muestra un ejemplo de grafo web y su representacion mediantela matriz de adyacencia.

Figura 1. Representacion de un grafo mediante un k2-tree

Partiendo de la mencionada matriz de adyacencia, el k2-tree crea un arbolk2-ario que puede ser calculado mediante un proceso de divisiones recursivasen la matriz de adyacencia. De esta forma, para calcular el primer nivel delarbol se subdivide la matriz de adyacencia en k2 submatrices cuadradas delmismo tamano. Cada una de ellas sera representada en el primer nivel del arbol(siguiendo un orden predeterminado, habitualmente numerando las submatricesde izquierda a derecha y de arriba abajo), con un 1 si dicha submatriz contieneal menos una arista, y con un 0 en caso contrario. En el siguiente nivel, paracada submatriz que contenga al menos una arista (es decir, para cada elemento1 en el arbol), se representaran k2 hijos en el siguiente nivel, cuyos valores son

Page 4: Resumenes de grafos usando 2-treesusers.dsic.upv.es/grupos/nle/ceri/papers/ceri2012_alvarez.pdf · La e ciencia espacial de esta estructura ... descenso por el arbol en la representaci

calculados subdividiendo dicha submatriz nuevamente en k2 elementos medianteel mismo procedimiento. De esta forma el proceso continua de forma recursivahasta que cada elemento en el ultimo nivel del arbol se corresponde con unacelda en la matriz de adyacencia.

En realidad, este arbol solo es una representacion conceptual, ya que se pue-de almacenar de forma muy compacta mediante mapas de bits recorriendo elarbol en anchura. Sobre estos mapas de bits se crean las estructuras de conta-dores necesarias para optimizar las operaciones de rank [8], que permiten contarel numero de elementos existentes en el mapa de bits hasta una determinadaposicion para un valor dado y, como veremos a continuacion, permitiran reali-zar la navegacion en el arbol. Notese que la representacion del grafo final tansolo consta de estos mapas de bits y las estructuras necesarias para realizar lanavegacion eficiente por los mismos. La parte inferior de la Figura 1 muestra elproceso de construccion de la estructura final a partir de la matriz de adyacenciadel grafo.

2.2. Navegacion

El k2-tree fue originalmente disenado para realizar analisis sobre grafos web.Para ello, proporciona operaciones para consultar de forma eficiente los vecinosdirectos e inversos de un nodo o comprobar la existencia de un enlace, ası comolas denominadas operaciones de rango que permiten recuperar todas las celdasactivadas para una region determinada de la matriz de adyacencia (enlaces entredos subconjuntos de nodos).

Todas estas operaciones se realizan siguiendo la misma filosofıa, mediante unrecorrido por el arbol desde el primer nivel y descendiendo por el mismo hastallegar al nivel que contiene las hojas. Ası, por ejemplo, obtener los vecinos de unnodo supone comprobar todas las celdas de la fila correspondiente a dicho nodoen la matriz de adyacencia original, y para ello se ira descendiendo por aquellasramas del arbol que contengan alguna celda de dicha fila.

Notese que la posicion de los hijos de un nodo, necesarios para hacer eldescenso por el arbol en la representacion final, se puede obtener eficientementeutilizando las estructuras de soporte de las operaciones de rank. Ası para un nodoque esta en la posicion x del array de bits A que representa el k2-tree, los hijosde x seran los k primeros elementos partiendo desde la posicion rank(A, x) ∗ k2,donde rank cuenta el numero de unos desde el inicio de A hasta la posicion x.

3. Nuestro metodo

Como hemos comentado anteriormente, los resumenes de grafos permitenobtener una version reducida del mismo. Permite extraer las partes mas impor-tantes del grafo, las tendencias dominantes del mismo, de forma que sea masfacil de visualizar. De esta forma, un grafo G se puede representar sin perdidacomo una tupla (R,C), donde R es el resumen del grafo y C un conjunto de

Page 5: Resumenes de grafos usando 2-treesusers.dsic.upv.es/grupos/nle/ceri/papers/ceri2012_alvarez.pdf · La e ciencia espacial de esta estructura ... descenso por el arbol en la representaci

correcciones del resumen [13]. De esta forma se puede reconstruir G a partir dela representacion (R,C).

En este trabajo nos centraremos solamente en el primer elemento de la tupla,proponiendo una representacion comprimida de un resumen del grafo, permitien-do una pequena perdida de informacion con respecto al grafo original, de formaque no se podra reconstruir a partir de la representacion comprimida, pero quesirve para poder visualizarlo con un menor requerimiento de recursos, ası co-mo para extraer las principales caracterısticas del grafo original. Utilizaremos elmetodo de k2-tree, descrito en la seccion anterior, para la construccion del graforesumen, ası como para su representacion comprimida. Explicamos a continua-cion los pasos fundamentales de la propuesta.

En un primer lugar reorganizamos los nodos de acuerdo con su estructuratopologica. Para ello realizamos sobre el grafo un recorrido de busqueda en an-chura (Breadth First Search, o BFS) y numeramos los nodos segun el orden enel que se expanden. De esta forma asignamos identificadores consecutivos a losvecinos no expandidos de cada nodo. Esta idea ya fue utilizada para mejorar lacompresibilidad de grafos Web [2], pero puede ser aplicado a cualquier tipo degrafo ya que no requiere un conocimiento previo sobre la estructura del mismo,y se adapta automaticamente a su topologıa.

Este recorrido de busqueda en anchura del grafo, asignando identificadoresconsecutivos a medida que se expanden nodos no visitados previamente, generaun mapeo biyectivo γ entre los identificadores originales de los nodos y los nue-vos identificadores. Generamos por tanto un nuevo grafo G′ = (V ′, E′), isomorfodel original G = (V,E), donde cada arista u′ = (v

1, v′

2) ∈ V ′ tiene una corres-pondencia con una arista u = (v1, v2) ∈ V de forma que v

1 = γ(v1) y v′

2 = γ(v2).Para el proposito de este trabajo, que consiste en un resumen con perdida delgrafo original G, no es necesario almacenar el mapeo γ.

Una vez obtenido el grafo isomorfo G′, donde los nodos estan reorganizadosen base a su estructura topologica, utilizamos el metodo del k2-tree para generarun resumen con perdida de informacion. Para ello se debe establecer una alturade corte H, con la que se obtendra un grafo resumen con mayor o menor perdidaen funcion de H: cuanto mayor sea H menos perdida se obtendra en el graforesumen, pero estara formado por un mayor numero de nodos. Una vez esta-blecida esta altura H, el metodo de construccion y representacion del k2-tree semodifica para que obvie los niveles inferiores a la altura considerada. Las aris-tas en este nivel H se denotaran como aristas resumen del grafo. En la Figura2 mostramos de forma esquematica las ideas de esta construccion de esquemasusando el k2-tree.

Ademas, es posible asignar pesos a las aristas del grafo resumen. Los pesos sedefiniran de acuerdo al numero de aristas existentes en el subgrafo representadopor cada arista resumen. Asimismo, se puede asignar un peso para cada nodo, quepuede definirse de diferentes formas, entre ellas el numero de nodos representadosen cada nodo resumen o, dependiendo de la aplicacion en la que se use el graforesumen, tambien podrıa ser interesante que el peso de un nodo del grafo resumen

Page 6: Resumenes de grafos usando 2-treesusers.dsic.upv.es/grupos/nle/ceri/papers/ceri2012_alvarez.pdf · La e ciencia espacial de esta estructura ... descenso por el arbol en la representaci

Figura 2. Metodo de creacion de resumen usando la representacion k2-tree

se definiese en funcion del ratio de nodos del grafo original que se agrupan endicho nodo resumen y el numero de aristas que existen entre dichos nodos.

4. Aplicacion del metodo en grafos reales

Esta seccion servira como prueba de concepto sobre el uso del metodo pro-puesto de construccion y representacion de resumenes de grafos. Para ello, crea-remos grafos resumenes de diferentes grafos que representan redes de diversanaturaleza y analizaremos las caracterısticas y ratios de compresion obtenidosde los grafos originales y de los grafos resumen. Ademas, incluimos unas compa-rativas visuales entre los mismos, para demostrar la capacidad de la propuesta.

Los grafos utilizados representan extractos de la Web, ası como las relacionesde diferentes redes sociales. Fueron obtenidos del proyecto WebGraph [5,4]1, enalgunos de los cuales se ha usado UbiCrawler [3]. Tambien se ha utilizado elgrafo youtube, obtenido de [12].

En la Tabla 1 se muestran para cada grafo el numero de nodos y aristas delgrafo original, el espacio ocupado en una representacion binaria del mismo (utili-zando enteros de 4 bytes para representar las listas de adyacencia de cada nodo)y el porcentaje de compresion obtenido con el metodo k2-tree. Las ultimas trescolumnas de la tabla indican el numero de nodos y aristas del grafo resumen,ası como el espacio ocupado por su representacion. Los resumenes fueron crea-do mediante el metodo propuesto cortando el arbol representado en el k2-treecorrespondiente a cada grafo por el nivel de profundidad necesario para obtenerun resumen que contenga tan solo un 12,5 % de sus nodos.

Como se puede ver en los resultados de la Tabla 1, podemos obtener resume-nes que ocupan menos de un 1 % de la representacion simple del grafo original,entre seis y nueve veces mas pequenos con respecto a la representacion com-primida del grafo original, en el caso de los grafos Web. Esto se debe a que

1 Estos grafos estan disponibles en la pagina del Laboratory for Web Algorithmics dela Universita Degli Studi Di Milano, en la url http://law.dsi.unimi.it/

Page 7: Resumenes de grafos usando 2-treesusers.dsic.upv.es/grupos/nle/ceri/papers/ceri2012_alvarez.pdf · La e ciencia espacial de esta estructura ... descenso por el arbol en la representaci

Tabla 1. Conjuntos de grafos de prueba utilizados y datos de compresion de los resume-nes obtenidos.

Numero Numero Tam. Compr. Nodos Aristas Compr.Nodos Aristas (Mb) k2-tree resumen resumen resumen

indochina-2004 7.414.768 194.109.311 769 7,73 % 926.846 12.135.472 0,83 %uk-2002 18.484.117 298.113.762 1.207 9,72 % 2.310.515 26.336.584 1,61 %arabic-2005 22.743.892 639.999.458 2.528 9,02 % 2.842.987 50.690.580 1,22 %youtube 1.187.914 5.238.742 25 53,91 % 148.490 3.876.090 27,87 %amazon-2008 735.323 5.158.388 23 35,54 % 91.916 218.8678 16,27 %dblp-2010 300.647 1.615.400 7 22,71 % 37.581 465.070 8,39 %

los grafos Web presentan una localidad de referencia muy alta, por lo que senecesitan menos nodos y aristas resumen para representar las aristas entre losnodos del grafo original. Teniendo en cuenta que el k2-tree es el metodo de repre-sentacion comprimida de grafos Web que mayores ratios de compresion obtienedentro del estado del arte, entre aquellos que permiten navegar el grafo de formabidireccional, es decir, tanto para obtener los vecinos directos como los vecinosreversos [11], es particularmente significativo poder obtener representaciones aunmas compactas de los grafos Web que permitan explotar y visualizar el grafo,teniendo siempre en cuenta la perdida de detalle del propio resumen.

Los resultados para otro tipos de redes, como la red de links entre vıdeosde Youtube, la similitud entre los libros de Amazon, o entre las colaboracionesentre autores en DBLP, indican que se puede obtener un grafo resumen queocupa cerca de la mitad de la representacion del grafo original, que dada la pocacompresibilidad de estos grafos es un dato significativo.

Las Figuras 3 - 8 muestran una comparacion visual de un subconjunto de ca-da uno de los grafos descritos. Este subconjunto esta compuesto por los primeros10.000 nodos de cada grafo, de forma que es posible visualizar dicho subconjuntoen la herramienta de visualizacion de redes Cytoscape [15]. La importacion dedicho subconjunto de nodos y su posterior analisis y visualizacion requiere unconsumo excesivo de recursos, que se ven significativamente aliviados en la im-portacion, analisis y visualizacion de los resumenes correspondientes para cadagrafo. Podemos observar que el grafo resumen mantiene la forma y caracterısticasdominantes principales con respecto a su grafo original correspondiente.

La Figura 9 muestra tambien las distribuciones de los coeficientes de agru-pamiento para los 10.000 primeros nodos del grafo amazon-2008 y de su graforesumen, obtenidas utilizando la herramienta Cytoscape. Con ella podemos ob-servar que, aunque los valores del grafo resumen son menores que los del grafooriginal, lo cual se debe a que parte de los agrupamientos son capturados enlos propios nodos resumen obtenidos, la forma de la distribucion se conserva alrealizar el resumen del grafo.

Page 8: Resumenes de grafos usando 2-treesusers.dsic.upv.es/grupos/nle/ceri/papers/ceri2012_alvarez.pdf · La e ciencia espacial de esta estructura ... descenso por el arbol en la representaci

Figura 3. Comparacion visual entre el grafo original indochina-2004 (izquierda) y suresumen con perdida (derecha), usando un 12.5 % del numero original de nodos.

Figura 4. Comparacion visual entre el grafo original uk-2002 (izquierda) y su resumencon perdida (derecha), usando un 12.5 % del numero original de nodos.

5. Mejoras al metodo

En este trabajo se ha utilizado una primera aproximacion sobre el uso deun metodo de representacion de grafos para la obtencion eficiente y comprimidade resumenes de grafos. Dados los resultados obtenidos con esta utilizacion masnaive del metodo, proponemos una serie de estrategias que explotarıan de maneramas adecuada el metodo del k2-tree para obtener unos resumenes mas refinados:

En este trabajo hemos decidido establecer una unica altura de corte H paratodo el arbol. La representacion del k2-tree permite conocer eficientementeel grado de complejidad del subarbol que permanece debajo de ese cortepara cada nodo resumen, lo cual permitirıa cortar y agrupar en nodos resu-men a diferentes alturas del arbol en funcion de dicha complejidad. Ası, unconjunto de nodos contiguos que estan fuertemente relacionados entre sı se

Page 9: Resumenes de grafos usando 2-treesusers.dsic.upv.es/grupos/nle/ceri/papers/ceri2012_alvarez.pdf · La e ciencia espacial de esta estructura ... descenso por el arbol en la representaci

Figura 5. Comparacion visual entre el grafo original arabic-2005 (izquierda) y suresumen con perdida (derecha), usando un 12.5 % del numero original de nodos.

Figura 6. Comparacion visual entre el grafo original youtube (izquierda) y su resumencon perdida (derecha), usando un 12.5 % del numero original de nodos.

pueden agrupar a una altura superior del k2-tree, mientras que nodos pocorelacionados pueden representarse aisladamente bajando hasta una alturainferior. De esta forma, los resumenes obtenidos seran mucho mas refinados.

Otra estrategia que puede ser explotada gracias a la propia representacion delk2-tree es el resumen multi-nivel, de forma que se puede obtener un resumenmas o menos refinado en funcion del nivel de detalle deseado por el usuarioo aplicacion que lo este usando. De esta forma, se puede aumentar el nivelde detalle solo en una parte del grafo, lo que es eficientemente soportado porla estructura jerarquica del k2-tree.

Page 10: Resumenes de grafos usando 2-treesusers.dsic.upv.es/grupos/nle/ceri/papers/ceri2012_alvarez.pdf · La e ciencia espacial de esta estructura ... descenso por el arbol en la representaci

Figura 7. Comparacion visual entre el grafo original amazon-2008 (izquierda) y suresumen con perdida (derecha), usando un 12.5 % del numero original de nodos.

Figura 8. Comparacion visual entre el grafo original dblp-2010 (izquierda) y su resu-men con perdida (derecha), usando un 12.5 % del numero original de nodos.

6. Conclusiones y trabajo futuro

El presente trabajo propone la utilizacion de la estructura compacta k2-tree para la construccion de grafos resumen comprimidos con perdida. En eldescribimos una primera aproximacion para resolver este problema basada en elaprovechamiento de la estructura interna del k2-tree y la aplicamos sobre grafosreales de diferente naturaleza para obtener de forma eficiente grafos resumen condiferente nivel de precision. Tambien se han aportado evidencias de la similitudtopologica visual de los grafos resumen generados con nuestro metodo con losgrafos completos originales, ası como del nivel de compresion obtenido.

Como principal lınea de trabajo futuro resta un estudio de las medidas ade-cuadas para realizar una evaluacion cuantitativa de la calidad del grafo resumenobtenido, teniendo en cuenta caracterısticas topologicas con respecto al grafo

Page 11: Resumenes de grafos usando 2-treesusers.dsic.upv.es/grupos/nle/ceri/papers/ceri2012_alvarez.pdf · La e ciencia espacial de esta estructura ... descenso por el arbol en la representaci

Figura 9. Comparativa entre la distribucion de los coeficientes de agrupacion mediospara el grafo original amazon-2008 (arriba izquierda) y su grafo resumen (arriba dere-cha) y para el grafo original arabic-2005 (abajo izquierda) y su grafo resumen (abajoderecha).

original y caracterısticas del dominio de aplicacion como la compresibilidad o lacapacidad de reconstruccion parcial y completa del grafo original.

Otra lınea de trabajo de interes en la construccion de grafos resumen es quelos nodos y aristas resultantes de la aplicacion de la tecnica puedan aportarparte de la informacion que ha sido resumida en ellos. Una de las posibilidadesa explorar es la incorporacion de pesos en funcion de la importancia de unelemento del grafo resumen, explotando para ello las operaciones que el k2-treeproporciona. Este pesado puede ser aplicado tanto en los nodos (en funcion delnumero de elementos que agrupa) como en las aristas (tambien segun el numerode aristas que aglutina).

Existen contextos en los que puede resultar util la busqueda de nodos re-presentantes dentro de los clusters que suponen cada nodo en el grafo resumen.Para ello, se pueden utilizar los niveles inferiores del k2-tree (descartados delgrafo resumen) para asignar un representante a cada grupo de nodos.

Otra interesante lınea de trabajo futuro consiste en realizar el grafo resumensirviendose de varios niveles del arbol k2-tree. Aquellos nodos resumen que re-quieran mas nivel de detalle se obtendran de niveles inferiores del k2-tree. Elanalisis de los niveles inferiores de un nodo resumen podrıa ser aplicado tambienpara la construccion de herramientas para visualizacion de grafos partiendo degrafos resumen y que permitan la exploracion de los nodos resumen de formadinamica. Ademas, el estudio de como afecta el uso de diferentes valores de k ala creacion de grafos resumen puede resultar de interes.

Como conclusion final, destacar que hemos realizado una primera aproxima-cion a los grafos resumen con perdida utilizando una representacion de grafos

Page 12: Resumenes de grafos usando 2-treesusers.dsic.upv.es/grupos/nle/ceri/papers/ceri2012_alvarez.pdf · La e ciencia espacial de esta estructura ... descenso por el arbol en la representaci

compacta y eficiente, el k2-tree. Su propia estructura de especializacion progre-siva por niveles abre muchas posibilidades para incorporar mayor flexibilidad ynuevas caracterısticas (zoom progresivo, aristas y nodos pesados, seleccion derepresentantes) a los grafos resumen obtenidos.

Referencias

1. Charu C. Aggarwal and Haixun Wang, editors. Managing and Mining Graph Data,volume 40 of Advances in Database Systems. Springer, 2010.

2. Alberto Apostolico and Guido Drovandi. Graph compression by BFS. Algorithms,2(3):1031–1044, 2009.

3. Paolo Boldi, Bruno Codenotti, Massimo Santini, and Sebastiano Vigna. Ubicraw-ler: A scalable fully distributed web crawler. Software: Practice & Experience,34(8):711–726, 2004.

4. Paolo Boldi, Marco Rosa, Massimo Santini, and Sebastiano Vigna. Layered labelpropagation: A multiresolution coordinate-free ordering for compressing social net-works. In Procs. of the 20th International World Wide Web Conference (WWW),2011.

5. Paolo Boldi and Sebastiano Vigna. The WebGraph framework I: Compression tech-niques. In Procs. of the 13th International World Wide Web Conference (WWW),pages 595–601, 2004.

6. Nieves R. Brisaboa, Susana Ladra, and Gonzalo Navarro. k2-trees for compactweb graph representation. In Procs. of the 16th International Symposium on StringProcessing and Information Retrieval (SPIRE), pages 18–30, 2009.

7. Michelle Girvan and Mark E. J. Newman. Community structure in social andbiological networks. Procs. of the National Academy of Sciences, 99:7821–7826,2002.

8. Rodrigo Gonzalez, Szymo Grabowski, Veli Makinen, and Gonzalo Navarro. Prac-tical implementation of rank and select queries. In Poster Procs. Volume of 4thWorkshop on Efficient and Experimental Algorithms (WEA), pages 27–38, 2005.

9. Daniel Hennessey, Daniel Brooks, Alex Fridman, and David Breen. A simplificationalgorithm for visualizing the structure of complex graphs. In Procs. of the 200812th International Conference Information Visualisation, IV ’08, pages 616–625,2008.

10. Michihiro Kuramochi and George Karypis. Finding frequent patterns in a largesparse graph. Data Mining and Knowledge Discovery, 11(3):243–271, 2005.

11. Susana Ladra. Algorithms and Compressed Data Structures for Information Re-trieval. PhD thesis, Department of Computer Science, University of A Coruna,2011.

12. Alan Mislove, Massimiliano Marcon, Krishna P. Gummadi, Peter Druschel, andBobby Bhattacharjee. Measurement and analysis of online social networks. InProcs. of the 5th Internet Measurement Conference (IMC), pages 29 – 42, 2007.

13. Saket Navlakha, Rajeev Rastogi, and Nisheeth Shrivastava. Graph summarizationwith bounded error. In Procs. of the 2008 ACM SIGMOD International Conferenceon Management of data, SIGMOD ’08, pages 419–432, 2008.

14. Davood Rafiei and Stephen Curial. Effectively visualizing large networks throughsampling. In Visualization, VIS ’05, pages 375–382, 2005.

15. Michael E. Smoot, Keiichiro Ono, Johannes Ruscheinski, Peng-Liang Wang, andTrey Ideker. Cytoscape 2.8: new features for data integration and network visua-lization. Bioinformatics, 27(3):431–432, February 2011.