Web usage mining tools

19
WEB USAGE MINING Log file DataMining Tools Minería Web Universidad de Salamanca Arturo San Feliciano Martín

description

Presentación trabajo de Minería Web. Máster Sistemas Inteligentes 2011-2012

Transcript of Web usage mining tools

Page 1: Web usage mining tools

WEB USAGE MINING

Log file DataMining Tools

Minería WebUniversidad de Salamanca

Arturo San Feliciano Martín

Page 2: Web usage mining tools

Índice

1 • Introducción

2 • AlterWind

3 • Analog

4 • Comparativa

5 • Conclusiones

2

Page 3: Web usage mining tools

Introducción

• La minería de uso web es el descubrimiento de patrones nuevos, útiles e interpretables a partir de datos generados de transacciones cliente-servidor sobre uno o más servidores Web.

• La minería de uso permite, entre otras:• Mejorar la navegación de usuario

• Aumentar las visibilidad de

• Descubrir patrones de navegación

3

Minería de Uso Web

Minería de Estructura

Minería de

contenido

• La minería web se divide en tres áreas principales:• Minería de contenido

• Minería de estructura

• Minería de uso

• Este trabajo se encuentra en el ámbito de la Minería de uso

Page 4: Web usage mining tools

Introducción

• ¿Como?• Utilización de algoritmos de minería de datos sobre los ficheros de

log de los servidores

• Estándares y punto de partida• Existe definidos varios estándares principales en el formato de

ficheros de registro:• W3C

• IIS

• NCSA

• Centralized Binary Logging

• ODBC

• El formato mas extendido es el descrito por la W3C

4

Page 5: Web usage mining tools

Introducción

• W3C Extended log file format

• Remote host

• Remote logname

• Username para la autenticación

• Fecha y hora de la petición

• Código del estado HTTP

• Número de bytes transferidos

• URL del servidor consultado

• Nombre y versión del cliente

• Campos adicionales, como cookies.

5

Page 6: Web usage mining tools

Índice

1 • Introducción

2 • AlterWind

3 • Analog

4 • Comparativa

5 • Conclusiones

6

Page 7: Web usage mining tools

AlterWind• Disponible en 3 versiones

• Lite (Open Source)

• Estándar

• Profesional

• Características:• Base de datos de AlterWind Log Analyzer contiene más de 430 motores de búsqueda.

• El análisis de los archivos de registro de cualquier formato: Apache Log Analyzer, analizador de registro de IIS, etc.

• El programa de análisis de trafico de un sitio web detecta automáticamente los ficheros de log que cumplan con el estándar de los servidores IIS y Apache web (Apache Common y combined).

• Análisis simultáneo de un gran número de ficheros de log de servidores web. Los archivos de log pueden ser de diferentes formatos y pueden provenir de diferentes servidores Web. Esto permite el análisis de servidores web en clúster o con topologías complejas.

• Completa personalización de informes. Puede cambiar el diseño de informes, personalizar los datos que aparecen o ajustar el volumen de los datos del informe.

• Técnicas de minería:• Preprocesado de datos mediante filtering

• Sincronización de ficheros de log

• Transformaciones para el calculo de rutas y sesionización e identificación de usuarios

7

Page 8: Web usage mining tools

AlterWind

• Informes OOTB:

8

Page 9: Web usage mining tools

AlterWind

• Screenshots

9

Page 10: Web usage mining tools

Índice

1 • Introducción

2 • AlterWind

3 • Analog

4 • Comparativa

5 • Conclusiones

10

Page 11: Web usage mining tools

Analog

• Desarrollo Open Source

• Características:

• Generación de reportes “Ultra-fast"

• Escalable

• Muy personalizable mediante ficheros de configuración

• Genera reportes en 32 lenguajes

• Funciona sobre cualquier sistema operativo - El código fuente está desarrollando en standard C

• Licenciado bajo Open Source

• Técnicas de minería:

• Preprocesado de datos mediante filtering

• Muestreo y cálculos estadísticos.

11

Page 12: Web usage mining tools

Analog• Informes OOTB:

• General Summary: Esta sección incluye las estadísticas generales sobre los datos que se han analizado. Los datos más importantes de esta sección es el número de peticiones recibidas, peticiones por página, numero de distintos hosts y tamaño de las tramas recibidas.

• Time reports: en este apartado se representan la información de manera dimensional, teniendo en cuenta la dimensión temporal para la contabilización.

• Other reports: en este apartado se muestran otros informes de interés como por ejemplo los ficheros que más veces han sido accedidos. Adicionalmente se incorporan los siguientes informes:• Listado de Hosts que han descargado ficheros del servidor web.

• Listado de países donde vienen las peticiones.

• Listado de organizaciones

• Informe de redirecciones y errores

• Listado de tipos de fichero.

• Información por tamaño de descarga

• Información sobre el procesado mostrando el tiempo de descarga por fichero.

• Listado de páginas que linkan a páginas de este server (Referrer)

• Informe sobre búsquedas que muestra las palabras utilizadas en buscadores para localizar la web

• Informe sobre broken links

• Información sobre los navegadores utilizados para acceder a la web

• Listado de sistemas operativos utilizados para navegar en la web

• Listado de la actividad por Virtual Host

• Información de la actividad de redirecciones en los virtual host

• Informes sobre los visitantes (basado en cookies, sesión IDs)

• Informe de las peticiones recibidas por cada código de estado HTTP.

12

Page 13: Web usage mining tools

Analog

• Screenshots

13

Page 14: Web usage mining tools

Índice

1 • Introducción

2 • AlterWind

3 • Analog

4 • Comparativa

5 • Conclusiones

14

Page 15: Web usage mining tools

Comparativa

15

• Una vez estudiadas las características de los dos productos elegidos, se ha realizado pruebas de uso sobre ficheros de log con datos obtenidos de un servidor HTTP de un entorno de desarrollo corporativo con el fin de observar diferentes características en los productos.

• Como se puede apreciar, Analog es un desarrollo más sencillo y totalmente open Source, mientras que el producto de AlterWind tiene versión lite pero nos ofrece limitacionessobre los informes que solo son accesibles con la versión profesional.

• Cabe destacar que AlterWind tiene una interfaz de usuario que facilita mucho su uso y su configuración, sin embargo Analog toda la personalización se realiza a través de ficheros de propiedades y configuración, algo que es un poco pesado a la hora de realizar una configuración inicial que sea distinta a la "default".

• Otro punto a favor del producto AlterWind es que permite generar informes de múltiplessitios al mismo tiempo mientras que Analog solo puede crear un informe por fichero de log. Sin embargo, los informes generados por AlterWind son menos visuales (gráficos) que los generados mediante Analog.

• Para finalizar la comparativa, cabe destacar que el producto AlterWind realiza tareas propias de minería de datos que Analog no realiza como son la sincronización de datos de varios servidores o sesionizacion. Analog se queda en transformaciones mas sencillas, también disponibles con AlterWind, como identificación de visitas, muestreo y reducción de la dimensionalidad.

Page 16: Web usage mining tools

Índice

1 • Introducción

2 • AlterWind

3 • Analog

4 • Comparativa

5 • Conclusiones

16

Page 17: Web usage mining tools

Conclusiones

17

• No existe una herramienta que realice minería de datos pura sobre los ficheros de log de servidor. Las herramientas estudiadas, generan información importante, pero no cubren todo el ciclo del proceso de minería. Ninguno de los aplicativos investigados llega a realizar análisis de los patrones de navegación. Quizás sea un nicho donde se puede trabajar.

• Ambas herramientas son buenas y permiten conocer y detectar situaciones no deseadas y actuar sobre ellas. Podemos ver, con un enfoque más o menos preciso, el uso que se le da a los recursos alojados en el servidor HTTP

• Aunque he visto un gran número de herramientas de explotación de ficheros de Log, creo que este campo está muy poco avanzado. También opino que quizás esté motivado todo por el protocolo HTTP y sus limitaciones.

• Los productos no soy muy trasparentes a la hora de mostrar como funcionan a bajo nivel, es complicado determinar los algoritmos y técnicas que utilizan en los aspectos de minería.

• Para completar este trabajo se debería analizar alguna opción de pago para estudiar el potencial de este tipo de soluciones.

Page 18: Web usage mining tools

18

Page 19: Web usage mining tools

19

Minería WebMaster en Sistemas Inteligentes

Universidad de Salamanca

Arturo San Feliciano Martín

[email protected]

¿Dudas?