Mineria de Datos Con Weka

EJEMPLO 1.

Aplicación de la minería de datos

Las técnicas empleadas en la minería de datos dependen del tipo de

conocimiento que se desee obtener. Existen dos clasificaciones que agrupan

los algoritmos de minería, estas son: minería dirigida y no dirigida. Para el

primer caso se conoce el tipo de decisión (clase) al que se desea llegar, como

por ejemplo: booleano (si /no), tipo, acción.

Las entradas son de tipo numérico o bien de tipo nominal. Los datos numéricos

presentan valores talesvv que las comparaciones en rangos tengan sentido,

mientras que los datos nominales tienen un significado específico. El dato

nominal más común es algo que puede ser clasificado como cierto o falso.

A continuación vamos a realizar un ejemplo de minería dirigida con una

muestra de datos referentes a las preferencias de compra de automóviles. La

muestra fue recabada dentro de una población reducida de clase media, cuyo

centro de trabajo se encuentra en la zona centro de la ciudad. Los tipos de

datos son nominales.

La siguiente figura presenta un extracto del conjunto de datos nominales,

previamente procesados para realizar la minería.

Figura 6. Preferencias en compra de automóviles.

Tabla 1. Cálculo de entropía primer nivel.

El dato que se pretende pronosticar es la marca. Es decir, si se presenta un

nuevo individuo a comprar un vehículo, ¿cuál es la marca que podría escoger?

Realicemos la minería paso a paso, con un pequeño subconjunto de los datos

anteriores, el método que emplearemos se conoce como ID3, éste es una

estrategia que divide y conquista, que opera tratando de maximizar el nivel de

ganancia en cada paso. La siguiente tabla contiene el cálculo de la entropía

para el atributo edad, se realiza el cálculo de la entropía de cada atributo, la

cuál es una medida de la incertidumbre existente en el conjunto de atributos, de

los cuales se escoge sólo aquel atributo con mayor ganancia (diferencia entre

la entropía del sistema y la entropía del atributo). El atributo seleccionado es el

nodo del árbol. Este cálculo se repite desde la selección de la raíz y para cada

nivel del árbol.

Calculando las entropías de cada atributo para el primer nivel del árbol

tenemos:

Esto nos da el primer nodo de nuestro árbol, el nodo seleccionado es aquel que

presenta la mayor ganancia. El proceso continúa hasta explorar nuevamente

los atributos restantes y obtener los nodos del árbol de los niveles inferiores.

En el mercado existen varias herramientas comerciales que realizan el minado

de datos. Éstas desarrollan técnicas de aprendizaje automatizado y permiten

aplicarlas a problemas reales de minería de datos. También se encuentran

disponibles en el web algunas herramientas como Weka y See5, ambas

contienen diversos algoritmos de clasificación y asociación.

La siguiente figura presenta una fracción del árbol de decisión, obtenido de

efectuar la minería en el conjunto de datos seleccionados.

En el árbol podemos observar que la delegación es el principal atributo que

interviene en la selección de una marca particular de vehículo, en el caso de

las delegaciones, en particular los casos de Azcapotzalco y Gustavo A.

Madero, se observa que el siguiente factor determinante es la edad de la

persona, sin embargo, en Naulcalpan se observa que se tienen motivos

particulares que marcan la preferencia en la selección del auto, por ejemplo: la

gente prefiere Toyota si se guían por los costos y calidad de los servicios. Por

supuesto mientras más grande y variado sea el conjunto de datos

seleccionados, el resultado será más aproximado a la realidad.

La minería de datos en este ejemplo nos permitió obtener conclusiones que, a

simple vista no son aparentes: uno no esperaría que la delegación fuera un

factor determinante en la selección de un vehículo, esperando que cuestiones

como el precio o los servicios fueran más significativos. Sin embargo, el

proceso de minado descubre esta relación. El analista de datos debe ahora

interpretarla. Por ejemplo, es posible que la variable delegación esté actuando

como un indicador del estilo de vida de las personas, lo que definitivamente

influiría en la elección del auto a comprar. Esta interpretación parece apoyada

por el hecho de que las personas más jóvenes prefieran autos de línea más

deportiva.

http://www.sg.com.mx/content/view/807/

EJEMPLO 2.

Minería de datos con Weka (ficheros ARFF)

En el artículo anterior vimos un ejemplo de utilización de la herramienta Explorer de Weka con uno de los ficheros de ejemplo que vienen con la aplicación. El ejemplo era algo sencillo, pero vimos también alguna posible aplicación de la herramienta a la vida real.

Aunque Weka acepta en teoría ficheros csv para obtener los datos de entrada e incluso soporta consultas a base de datos, yo he tenido problemas para cargar datos en los dos formatos, por lo que recomiendo crear nosotros mismos un fichero con formato ARFF (el formato propio de Weka) con nuestros propios datos para empezar a sacarles todo el jugo.

La estructura de un fichero con formato ARFF es muy sencilla, por lo que seguro que no tendremos ningún problema a la hora de crearlo. Vamos a ver primero un ejemplo y después lo comentaremos paso a paso:

1 @relation weather

2

3 @attribute outlook {sunny, overcast, rainy}

4 @attribute temperature real

5 @attribute humidity real

6 @attribute windy {TRUE, FALSE}

7 @attribute play {yes, no}

8

9 @data

10 sunny,85,85,FALSE,no

11 sunny,80,90,TRUE,no

12 overcast,83,86,FALSE,yes

13 rainy,70,96,FALSE,yes


15 rainy,65,70,TRUE,no

16 overcast,64,65,TRUE,yes

17 sunny,72,95,FALSE,no

18 sunny,69,70,FALSE,yes


20 sunny,75,70,TRUE,yes

21 overcast,72,90,TRUE,yes

22 overcast,81,75,FALSE,yes


23 rainy,71,91,TRUE,no

Este fichero con formato ARFF es el que utilizamos en el artículo anterior para nuestro primer ejemplo de introducción a la minería de datos. Se divide en tres partes: @relation, @attribute y @data:

1. @relation <relation-name> (línea 1) Todo fichero ARFF debe comenzar con esta declaración en su primera línea (no podemos dejar líneas en blanco al principio). <relation-name> será una cadena de caracteres y si contiene espacios la pondremos entre comillas.

2. @attribute <attribute-name> <datatype> (líneas de la 3 a la 7) En esta sección incluiremos una línea por cada atributo (o columna) que vayamos a incluir en nuestro conjunto de datos, indicando su nombre y el tipo de dato. Con <attribute-name> indicaremos el nombre del atributo, que debe comenzar por una letra y si contiene espacios tendrá que estar entrecomillado. Con <datatype> indicaremos el tipo de dato para este atributo (o columna) que puede ser: numeric (numérico) string (texto) date [<date-format>] (fecha). En <date-format> indicaremos el

formato de la fecha, que será del tipo "yyyy-MM-dd'T'HH:mm:ss". <nominal-specification>. Estos son tipos de datos definidos por

nosotros mismos y que pueden tomar una serie de valores que indicamos (línea 3).

3. @data (a partir de la línea 9) En esta sección incluiremos los datos propiamente dichos. Separaremos cada columna por comas y todas filas deberán tener el mismo número de columnas, número que coincide con el de declaraciónes @attribute que añadimos en la sección anterior. Si no disponemos de algún dato, colocaremos un signo de interrogación (?) en su lugar. El separador de decimales tiene que ser obligatoriamente el punto y las cadenas de tipo string tienen que estar entre comillas simples.

http://www.locualo.net/programacion/mineria-datos-weka-ficheros-

arff/00000019.aspx

EJEMPLO 3.

Minería de datos en la empresa

Las técnicas de minería de datos, pueden ser implementadas en las empresas

para el descubrimiento de información, aportando valor a los procesos de

negocio, por ejemplo, incrementando niveles de venta, aumentando la

http://www.locualo.net/programacion/mineria-datos-weka-ficheros-arff/00000019.aspx

http://www.locualo.net/programacion/mineria-datos-weka-ficheros-arff/00000019.aspx

diversificación de mercado, y mejorando la satisfacción del cliente, entre otros.

En general, el proceso de toma de decisiones mejora de manera significativa.

Las aportaciones que este tipo de tecnología puede hacer en las empresas,

son encausadas a mantener el nivel competitivo de la empresa, los beneficios

de la minería como la capacidad de identificar patrones, comportamientos,

reglas y relaciones en los datos, permiten realizar previsiones y encontrar

nuevas soluciones o rutas de acción.

Para obtener el valor máximo de las técnicas de minería en las soluciones de

inteligencia de negocio, es necesario contar con tecnología que pueda llevar a

cabo el proceso en tiempos satisfactorios al negocio y pueda permitir a los

tomadores de decisiones, en cada nivel de su organización, analizar la

información y actuar con base a los resultados obtenidos.

Referencias

[ Sholom Weiss, Nitin Indurkhya,Tong

Zhang & Fred J. Damerau. Text Mining.

Springer, 2005 ]

[ Ian H. Witten, Eibe Frank. Data Mining:

Practical Machine Learning Tools and

Techniques. Second Edition ]


EJEMPLO 4.

Un ejemplo práctico que se convirtió en leyenda urbana

En muchos cursos sobre minería de datos se cuenta una bonita historia sobre una gran cadena estadounidense de supermercados, Wal-Mart, que realizó a finales de los años 90 un análisis de los hábitos de compra de sus clientes.

Sorprendentemente, descubrieron una correlación estadísticamente significativa entre las compras de pañales y cerveza: los viernes por la tarde, los hombres entre 25 y 35 años que compraban cerveza también compraban pañales. Después de un análisis detallado, este resultado se explica de forma bastante curiosa. Como los pañales son bastante voluminosos, las mujeres habitualmente mandaban a sus maridos a comprarlos. Los maridos y padres, jóvenes entre 25 y 35 años (rango medio de edad para tener niños tan pequeños), solían ir a la compra los viernes, algo reticentes, en el último momento posible. Estos pobres padres, con una vida social no demasiado boyante, a la vez que compraban pañales para sus bebés, aprovechaban para comprar cerveza, ya que no podrían salir a tomarlas al pub.


http://www.walmart.com/

También se cuenta que Wal-Mart utilizó este resultado para reubicar estos productos en lugares estratégicamente dispuestos: pusieron la cerveza cerca de los pañales. El resultado fue que los padres que habitualmente compraban cerveza después compraron todavía más, al estar tan cómodamente situada. Además, los que antes no compraban cerveza, empezaron a hacerlo al estar tan a mano, justo al lado a los pañales. Así, las ventas de cerveza tuvieron un aumento espectacular.

Este es un buen ejemplo de los beneficios que puede aportar la Minería de Datos y, en particular, el análisis de la cesta de la compra (market basket analysis) (*ver abajo).

El problema es que esta historia existe en diferentes versiones, a veces se habla de 7 Eleven en vez de Wal-Mart, otras veces se adorna con datos específicos de porcentajes de incremento de ventas... Además no se conoce quiénes pudieron realizar esos estudios y, de hecho, no existe documentación específica de ningún proyecto en esta línea en ninguna de las dos organizaciones. Por todo ello, no hay más remedio que pensar que se trata de una leyenda urbana, un bonito mito del mundo de la minería de datos.

Beer and Nappies - A Data Mining Urban Legend Data Mining – If Only It Really Were about Beer and Diapers

Ejemplo ilustrado del análisis de la cesta de la compra

Supongamos el siguiente ejemplo:

800.000 clientes 40.000 compraron pañales (5%) 60.000 compraron cerveza (7,5%) 16.000 compraron pañales y cerveza (2%)

El soporte es el porcentaje del total de transacciones que incluyen un determinado producto. En este ejemplo, la compra de pañales tiene un soporte del 5%.

La confianza mide hasta qué punto un producto depende del otro:

16.000 de los 40.000 clientes que compraron pañales también compraron cerveza (40%)

Por tanto, la regla de asociación pañales>cerveza tendría un soporte del 5% y una confianza del 40%. También se puede leer de otra forma:

el 5% de los clientes compraron pañales; de ellos, el 40% además compraron cerveza

Las compras de pañales son el antecedente de la regla (la parte izquierda) y las de cerveza, el consecuente (la parte derecha).

http://www.7-eleven.com/

http://web.onetel.net.uk/~hibou/Beer%20and%20Nappies.html

http://www.dmreview.com/news/1006133-1.html

Los valores del 5% y 7,5% de compras respectivamente con pañales y con cerveza se denominan confianza esperada: proporción de compras que incluyen un determinado producto, independientemente de los demás.

Por último, el lift (habitualmente sin traducción al español, aunque sería algo parecido a mejora) mide la proporción entre la confianza de una regla y la confianza esperada para el producto consecuente. En el ejemplo, la confianza de la regla pañales>cerveza es un 40%, y la confianza esperada de que un cliente cualquiera compre cerveza es un 7,5%, por tanto, el lift es 5,33 (40/7,5):

los clientes que compran pañales son 5,33 veces más propensos a comprar cerveza (que quienes no los compran)

El objetivo del análisis de la cesta de la compra es encontrar asociaciones con un lift lo más elevado posible, para maximizar el posible beneficio. Por supuesto, este mismo análisis se puede extender a asociaciones de tres o más productos.

http://cronicasdesofia.blogspot.com/2009/06/que-es-la-mineria-de-datos.html

EJEMPLO 5. USANDO MINERÍA DE DATOS PARA LA CONTINUA MEJORA DE CURSOS DE E-LEARNING 1. INTRODUCCIÓN Actualmente, el gran incremento del acceso a Internet ha provocado que la educación online o e-learning sea una realidad. Cada vez son más los centros de enseñanza públicos o privados que ponen a disposición de sus alumnos plataformas de aprendizaje (LMS) basadas en la web. WebCT (WebCT, 2006), Virtual-U (Virtual- U, 2006), TopClass (TopClass, 2006) son ejemplos de LMS de tipo comercial aunque cada vez cobran mayor protagonismo las plataformas de libre distribución como Moodle, ATutor, ILIAS entre otras. Estudios comparativos entre LMS podemos encontrar en (Itmazi, 2005). Sin embargo, la gran mayoría de los sistemas e-learning anteriores, muestran los cursos y materiales educativos de una forma estática, el alumno puede elegir un camino de navegación a través del curso que necesariamente no tiene que ser el más efectivo de acuerdo a sus conocimientos, intereses y necesidad. Una respuesta a este problema son los sistemas hipermedia adaptativos con fines educativos (Brusilovsky, 1998), que utilizan métodos y técnicas de varias como la minería de datos, la minería web y el modelado de usuarios, para construir un modelo que utilizan para adaptar el contenido y enlaces del curso hipermedia al usuario actual. Algunos ejemplos de Sistemas

http://cronicasdesofia.blogspot.com/2009/06/que-es-la-mineria-de-datos.html

Hipermedia Adaptativos basados en Web son: Interbook, ELM-ART, AHA, INDESACH. Entre los principales sistemas que aplican las técnicas de minería de datos en educación online están: los sistemas de personalización (Srivastava et al., 2000) del aprendizaje, los recomendadores (Li and Zaiane, 2004) que clasifican los alumnos y los contenidos para recomendar recursos e itinerarios óptimos y los de detección de irregularidades (Barnett and Lewis, 1994) que descubren patrones de navegación irregulares. Estos sistemas anteriores pueden clasificarse, según el campo de aplicación u orientación, en: 1) orientado hacia los alumnos, para sugerir buenas experiencias de aprendizaje a los estudiantes de acuerdo a sus preferencias, necesidades y nivel de conocimiento y 2) orientado hacia los profesores, con el objetivo de ayudar a los profesores y/o autores de los sistemas de e-learning para que puedan mejorar el funcionamiento o rendimiento de estos sistemas a partir de la información de utilización de los alumnos. Sus principales aplicaciones son: obtener una mayor realimentación de la enseñanza, conocer más sobre como los estudiantes aprenden en la web, evaluar a los estudiantes por sus patrones de navegación, clasificar a los estudiantes en grupos o reestructurar los contenidos del sitio web para personalizar los cursos. Esta aplicación es la menos investigada y la que más retos propone actualmente, constituyendo la base de nuestra propuesta. Conferência IADIS Ibero-Americana WWW/Internet 2006 191 En este artículo abordamos el uso de las técnicas de minería de datos aplicadas al e-learning pero desde un punto de vista muy poco utilizado que es el del profesor o creador del curso. El objetivo principal del sistema propuesto es detectar posibles problemas en el diseño de la estructura y los contenidos de un curso basándose en los datos de utilización del mismo por los alumnos. 2. METODOLOGÍA PROPUESTA PARA LA MEJORA DE CURSOS DE E-LEARNING La metodología CIECoM (Continuos Improvement of E-learning Courses Methodology, Metodología para la Mejora Continua de Cursos de E-learning) fue diseñada para detectar posibles problemas en el diseño y los contenidos de un curso e-learning. Esta metodología cíclica incluye una etapa de retroalimentación o mantenimiento del curso basado en los datos de utilización del mismo por los alumnos y consta de las siguientes etapas: • Construcción del curso. Es la primera etapa y es donde se construye el curso. El profesor suele ser

el encargado de construir el curso adaptativo proporcionando toda la información tanto de contenido como de estructura necesaria para el curso. Normalmente se suele utilizar una herramienta autor (Brusilovsky, 2003) genérica o específica para facilitar esta tarea. Al finalizar esta etapa el curso debe de ser publicado en un servidor web para que los alumnos puedan utilizarlo de forma remota. • Ejecución del curso. Los estudiantes utilizando un navegador web se deben de conectar al servidor web donde se encuentra localizado el curso para poder realizarlo. Mientras los alumnos ejecutan el curso de forma transparente se va recogiendo información de utilización y ésta se va almacenando en el servidor en los distintos ficheros logs. • Mejora del curso. Utilizando como entrada los datos de utilización del curso por los alumnos el sistema CIECoM aplica un algoritmo de minería sobre los datos para detectar posibles problemas. Los resultados de este proceso se muestran al profesor en forma de recomendaciones para que modifique la estructura o el contenido del curso Nuestro objetivo es, por tanto, descubrir información relevante desde el punto de vista didáctico y de la efectividad de la enseñanza en forma de reglas a partir de estos datos de seguimiento almacenados para todos los alumnos que ejecutan el curso. En las siguientes subsecciones se describen cada uno de los módulos que componen el sistema CIECoM (ver Figura 1). Figura. 1. Sistema CIECoM ISBN: 972-8924-20-8 © 2006 IADIS 192 2.1 Módulo de descubrimiento de conocimiento Se encarga de descubrir reglas de asociación sobre el conjunto de datos especificado previo preprocesado y transformación de los mismos, a un formato de datos que garantice una manipulación más rápida de esta información. La salida de este módulo se entrega para su análisis al módulo de análisis del interés de las reglas descubiertas. Sea I = {i1, i2 , ..., im} un conjunto de pares atributos-valor, llamados ítems. Sea D un conjunto de transacciones, donde cada transacción T es un conjunto de ítems tal que T⊆ I. Una regla de asociación es una implicación de la forma X⇒Y, donde X y Y son declaraciones acerca del valor de atributos, y a su vez, se tiene que X⊂I, Y⊂I, y X∩Y=∅ . Se define soporte S de una regla como la probabilidad de que un registro satisfaga tanto a X como a Y. La confianza se define como la probabilidad de que un registro satisfaga a Y

dado que satisface a X. El problema consiste pues en encontrar todas las reglas de asociación que satisfagan ciertas restricciones de soporte mínimo, llamado minsup y confianza mínima, llamada minconf, los cuales son parámetros especificados por el usuario. En (Zheng et al, 2001) se puede encontrar un estudio comparativo entre los principales algoritmos que existen actualmente para el descubrimiento de reglas de asociación: APriori (Agrawal et al, 1996), FP-Growth (Han et al, 1999), MagnumOpus (Webb, 1995), Closet (Pei et al, 2000). A partir del código fuente de cada algoritmo, donado por los autores, se comparan sus tiempos de ejecución sobre distintos tipos de bases de datos reales. Las conclusiones del estudio anterior revelan que el algoritmo más eficiente, para valores altos del soporte mínimo, que aseguran que la confianza vista se repita en un futuro, es Apriori. El algoritmo Apriori emplea la confianza y el soporte para encontrar todas las reglas que superen estos umbrales especificados por el usuario. Sin embargo, con este método se pueden obtener muchas reglas, por lo que un sistema de descubrimiento de conocimiento debe evaluar el interés de éstas y mostrar al usuario un número razonable de reglas interesantes que le sean útiles. Además se requiere que el usuario sea en cierto grado experto para que encuentre el balance adecuado entre el soporte y la confianza que le devuelva reglas interesantes. La mayoría de los algoritmos de minería de datos requieren establecer muchos parámetros de entrada, los cuales si no se establecen correctamente puede dar lugar a falsos patrones o que sobreestimemos la importancia de los patrones encontrados. Una mejora al algoritmo Apriori denominada Apriori Predictivo (Tobias, 2001) establece el problema a resolver de manera parecida. Se trata de encontrar las N mejores reglas de asociación, donde N es un número fijo. Se trata entonces de encontrar un balance adecuado entre el soporte y la confianza de forma que maximice la probabilidad de hacer una predicción correcta sobre el conjunto de datos. Para lograr esto se define y calcula, utilizando el método bayesiano, un parámetro llamado exactitud predictiva que nos dice el grado de exactitud de la regla encontrada. En el sistema CIECoM utilizamos este algoritmo, para encontrar reglas con tres ítems como máximo en el antecedente y un ítem en el consecuente, esto reduce considerablemente el espacio de búsqueda y hace más comprensibles las reglas encontradas. 2.2 Módulo de análisis del interés de las reglas

Hemos visto que el algoritmo Apriori Predictivo encuentra las mejores N reglas. Sin embargo, este método no asegura que las reglas obtenidas sean de interés para nuestro propósito de encontrar aquellas que le sean útiles al profesor para detectar problemas en el curso e-learning. Por tanto, necesitamos evaluarlas para encontrar las más interesantes. Para esto se utilizan medidas de interés de tipo objetivas tales como el soporte y la confianza citados, además de medidas puramente estadísticas como Chi-Cuadrado, el coeficiente de correlación, la ganancia o entropía entre otras, para medir la inferencia de dependencias entre variables de datos. No obstante, cada vez cobra mayor importancia las medidas subjetivas, o sea aquellas que están basadas en factores subjetivos que están dirigidos por el usuario. La mayoría de las aproximaciones para encontrar reglas interesantes de manera subjetiva, requieren de la participación del usuario para que este exprese, de acuerdo a sus conocimientos previos, qué reglas son interesantes para él. En (Liu, 2001) se presenta un sistema que compara las reglas descubiertas con el conocimiento que tiene el usuario del dominio de interés. A través de un lenguaje de especificación propio el usuario indica las bases de conocimiento existente en la materia en cuestión, a través de las relaciones entre los campos o items de la base de datos. La sintaxis del lenguaje tiene el mismo formato que las reglas de Conferência IADIS Ibero-Americana WWW/Internet 2006 193 asociación. Una vez se especifica el conocimiento del usuario, el sistema hace un análisis sintáctico de las reglas descubiertas comparándolas con las almacenadas en la base de conocimiento. Una implementación de este algoritmo adecuándolo a nuestro formato de datos y tipos de reglas se utiliza en nuestro módulo de análisis para clasificarlas las reglas en esperadas, si coinciden con la base de conocimiento que tenemos sobre el dominio o inesperadas en caso contrario. La base de conocimiento es un repositorio abierto de contenidos que está formado por reglas descubiertas por otros usuarios de la plataforma en anteriores experiencias o cursos y por reglas que proponen los expertos en la materia. Las reglas esperadas servirán de base a las nuevas recomendaciones de cambios para mejorar el curso y las inesperadas deberá analizarlas el profesor y determinar cuáles son interesantes en cuyo caso podrían ser candidatas a insertarse en el repositorio. 2.3 Módulo de recomendaciones

La salida del módulo anterior sirve como entrada al módulo de recomendaciones que está formado por dos bloques fundamentales: • Bloque de análisis de recomendaciones y modificación del curso. En este bloque se le muestran al profesor las reglas descubiertas en dos formatos dependiendo del tipo de reglas encontrada. Si la regla es esperada, se le muestra el problema detectado junto a la acción recomendada para solucionarlo. Si la regla es inesperada también se le muestra al profesor para que la analice y determine si es interesante, en cuyo caso puede insertarla en el repositorio de reglas para tenerla en cuenta en futuros análisis, en caso contrario se desecha la regla. • Bloque de repositorio de reglas. Constituye la base del conocimiento sobre el que se producen las recomendaciones. Del contenido y estructura de este módulo depende el éxito de las modificaciones que se hagan al curso. El repositorio inicialmente puede estar vacío, si aún el profesor no ha descubierto ninguna regla, o puede contener un conjunto iniciales de reglas de partida, que el usuario considere como conocimiento razonablemente preciso (Liu, 2001) sobre el dominio. 3. DATOS DE UTILIZACIÓN Para probar nuestra arquitectura necesitábamos datos sobre los que aplicar el proceso de minería. Durante el año académico 2004-2005 se llevó a cabo en Córdoba la primera experiencia piloto en España para la alfabetización tecnológica de mujeres en el entorno rural, denominado “Cordobesas Enredadas”. Este experimento se llevó a cabo con 90 alumnos provenientes de 3 pueblos de la provincia de Córdoba. Para este proyecto se desarrollaron 7 cursos basados en los temarios ECDL (Licencia Europea para Manejo del Ordenador) y que se basaban en el Sistema Operativo Linux (distribución Guadalinex) y el paquete de ofimática de libre distribución Open Office. Este proyecto fue financiado por la Diputación Provincial bajo la referencia ECDL/DIPUCO/MEM/04-0001bis. Los cursos se desarrollaron con la herramienta autor INDESAHC (De Castro et al, 2004), que permite la creación de cursos hipermedia adaptativos compatibles con Moodle. La definición del syllabus del curso está basada en un modelo del dominio jerárquico formado por unidades didácticas divididas en lecciones y donde cada lección contiene una serie de conceptos para la explicación o evaluación de los contenidos de la materia a través de escenarios ó páginas web. También se incluye un modelo de adaptación para adaptar los

contenidos al nivel de conocimiento del alumno. Para esto utiliza un esquema de ocultación de enlaces (De Bra and Calvi, 1998) previa clasificación de los contenidos del curso de acuerdo a distintos niveles de dificultad. La tabla 1, muestra los atributos de alto nivel relacionados con el curso hipermedia adaptativo que se agregan como tablas a Moodle. En cursiva se muestran los atributos de bajo nivel relacionados con otros recursos didácticos como foro, chat, cuestionario, tarea, que también se introducen desde la interfaz de INDESAHC. Una vez generado el curso y publicado en Moodle, éstos recursos se insertarán automáticamente y de acuerdo con la plantilla utilizada en las distintas secciones junto al curso hipermedia adaptativo. ISBN: 972-8924-20-8 © 2006 IADIS 194 Tabla 1. Atributos de alto nivel utilizados en el proceso de minería de datos, en cursiva los de bajo nivel. Nivel Atributo Descripción duration Duración estimada del curso según el profesor c_time Tiempo empleado para completar el curso c_score Nota media final del curso c_attempt Número de intentos antes de aprobar el curso c_quiz_attempt Número de intentos totales en el cuestionario c_quiz_time Tiempo total empleado en el cuestionario c_quiz_score Nota obtenida en el cuestionario c_assignment_score Nota de la tarea c_chat_messages Número de mensajes enviados al chat c_forum_read Número de mensajes leídos en el foro c_forum_post Número de mensajes enviados al foro Curso c_doc_view Si se ha visto el documento o enlace web u-lessons Número de lecciones del tema u_time Tiempo empleado para completar la unidad didáctica u_initial_score Nota del alumno en el pretest de la unidad u_final_score Nota final del alumno al completar la unidad u_attempt Número de intentos antes de aprobar la unidad u_forum_read Número de mensajes leídos en el foro u_forum_post Número de mensajes enviados al foro u_assignment_score Nota de la tarea Unidad c_doc_view Si se ha visto el documento o enlace web l_concepts Número de conceptos de la lección Lección l_time Tiempo empleado para completar la lección l_diffic_level Nivel de dificultad de la lección e_time Tiempo empleado para completar el ejercicio Ejercicio e_score Nota obtenida en el ejercicio 4. IMPLEMENTACIÓN

Para implementar la arquitectura propuesta y facilitar al profesor o autor del curso la realización del proceso de minería de datos hemos desarrollado en lenguaje Java una herramienta denominada CIECoM (ver Figura 2). Su principal característica es su especialización en educación, utilizando atributos concretos, filtros y restricciones específicas para datos de utilización de los cursos, por lo que se adapta mejor a entornos educativos que las herramientas de propósito general. La aplicación está formada por: • Preprocesado. En este panel el usuario primero selecciona el origen de datos sobre el que se va a realizar la minería. Aunque el formato de entrada principal es una base de datos MySQL de Moodle, CIECoM también permite trabajar con ficheros de datos tipo de Weka (Witten, 2005), siempre que contengan los atributos descritos anteriormente. Una vez seleccionados los datos, el programa muestra todos los atributos presentes que son de tipo numéricos. Con el objetivo de mejorar la comprensibilidad de las reglas descubiertas y reducir significativamente el tiempo de ejecución del algoritmo de búsqueda, es necesario discretizar estos atributos. La transformación a variable discreta se puede ver como una categorización de los atributos que toma un conjunto pequeño de valores. La idea básica (Hussain, 1999) consiste en particionar los valores de los atributos continuos dentro de una lista pequeña de intervalos. Cada intervalo resultante es una estimación de un valor discreto del atributo. Nuestro proceso de discretización va a utilizar tres posibles valores nominales: BAJO, MEDIO y ALTO y se han implementado tres métodos de transformación discreta: método de igual anchura, método de igual frecuencia, un método manual, donde el usuario establece los manualmente los límites de las categorías. En el caso de la discretización de tiempos, se le ha añadido la posibilidad de eliminar valores ruidosos que superen un umbral mínimo establecido para evitar datos erróneos como por ejemplo, que el alumno tenga en pantalla durante mucho tiempo un concepto o ejercicio, producto de que ha abandonado el ordenador sin salir antes de esa sección. Conferência IADIS Ibero-Americana WWW/Internet 2006 195 Figura 2. Interfaz de la aplicación CIECoM • Parámetros de configuración. En este módulo se muestran los parámetros que va a utilizar el

algoritmo de minería Apriori Predictivo, entre los cuales podemos encontrar el número de reglas que se quieren descubrir, así como una serie de restricciones que puede indicar el usuario, respecto a la cantidad de ítems máxima que pueden estar presentes en el antecedente o consecuente de las reglas a descubrir. Si el usuario no desea cambiar estos parámetros de configuración puede utilizar los que vienen establecidos por defecto. • Repositorio de reglas. Se muestra en la Figura 2 y constituye la base de conocimiento sobre la que se hace el análisis subjetivo de las reglas descubiertas. Este panel permite al usuario insertar una regla en el repositorio utilizando un formato predeterminado. Además, de la regla en sí, se incluyen dos campos fundamentales como son: el problema que detecta la regla propuesta y una posible recomendación para su solución. Para identificar cada acción de inserción se incluyen también datos adicionales como el autor, la fecha, y el tipo de curso en el que se descubrió esa regla. Partiendo de consideraciones pedagógicas, lógicas y de la experiencia acumulada en cursos e-learning, hemos propuesto, como punto de partida para incluir en el repositorio, un conjunto de reglas y sus respectivas recomendaciones, algunas de las cuales se muestran como ejemplo en la Tabla 2. Tabla 1. Ejemplos de reglas del repositorio utilizadas como base de conocimiento. Regla Problema detectado Acción recomendada Si c_assignment_score =ALTO entonces c_score = ALTA Mal diseño de la tarea Revisar el enunciado de la tarea Si e_time =ALTO entonces e_score = BAJO Problemas en el ejercicio Revisar el enunciado del ejercicio Si l_concepts = BAJO Y l_diffic_level = BAJO entonces l_time = ALTO Grado de dificultad de la lección mal definido Revisar el grado de dificultad asignado a priori Si u_final_score(i) = BAJO entonces c_score = ALTA Problema detectado en el tema i Consultar recomendaciones a nivel de tema • Resultados. Una vez configurado los parámetros de la aplicación o utilizando sus valores por defecto, el usuario ejecuta el algoritmo. En este panel se muestran los resultados obtenidos en una

tabla, con los siguientes campos: Regla ---- Problema detectado ---- Recomendación ---- Botón APLICAR La recomendación puede ser de dos tipos: ISBN: 972-8924-20-8 © 2006 IADIS 196 1) Activa, si ésta implica una modificación directa del contenido o estructura del curso. Las recomendaciones activas pueden estar relacionadas con: modificaciones en el enunciado de las preguntas o de las prácticas/tareas asignadas a los alumnos, cambios en los parámetros asignados previamente como la duración del curso o el nivel de dificultad de una lección, la eliminación de un recurso tipo foro, chat, etc. Un ejemplo de este tipo de recomendación son las tres primeras filas de la tabla 2. 2) Pasiva, si éstas detectan un problema más general y le indican al profesor que consulte otras recomendaciones más particulares. Un ejemplo de este tipo de recomendación se muestra es la cuarta fila de la tabla 2. En los casos que la recomendación sea activa, al pulsar el botón APLICAR se mostrará al usuario la zona del curso a la que hace alusión la recomendación o modificación. 5. RESULTADOS OBTENIDOS Y DISCUSIÓN Los resultados que a continuación se exponen corresponden a pruebas realizadas sobre el curso tres, denominado “Procesador de Textos”. A continuación se van a describir un par de reglas descubiertas de tipo esperadas o sea que coinciden con el conocimiento base y una regla inesperada, que además fue clasificada como interesante. Indicar que también se descubrieron muchas reglas que no brindaban información alguna de utilidad para nuestros propósitos, como por ejemplo, aquellas que incluían en el antecedente y consecuente atributos de tiempo y que relacionaban ítems de conceptos que no estaban relacionados. 1) Si (e_time [25] = ALTO) entonces (e_score[25] = BAJO), exact = 0.85 Esta regla significa que, si el tiempo empleado en el ejercicio es alto, entonces la nota del ejercicio es baja. Se descubrió que existía un problema en ese ejercicio del curso hipermedia adaptativo, que pertenecía al tema “Uso de la aplicación”, la lección “Primeros pasos con el procesador de texto” y concepto “Renombrar y guardar un documento”, que era un escenario de INDESAHC de tipo video interactivo donde el alumno debe simular utilizando el ratón los pasos necesarios para completar una actividad. En este caso particular, se comprobó que el enunciado de la pregunta era ambiguo y podía interpretarse de varias maneras, con lo cual

se corrigió. Otras reglas de formato similar se encontraron pero relacionadas con preguntas de tipo test o de relación de columnas. 2) Si (u_forum_read (Brusilovsky, 1998) = BAJO) Y (u_forum_post (Brusilovsky, 1998) = BAJO) entonces (u_final_score (Itmazi, 2005) = ALTO), exact = 0.75 Esta regla significa que, si los mensajes enviados y leídos del foro 2 que pertenece al tema 1 son bajos, entonces la nota del tema es alta. La regla descubre que ese foro del tema 1 no es necesario o que hay problemas con el tutor. Este tipo de regla descubierta cuestiona la necesidad de un foro a determinados niveles de la jerarquía del dominio, de hecho en nuestro caso se optó por eliminar el foro. 3) Si (l_concepts [21] = BAJO Y l_diffic_level [21] = BAJO entonces (l_time [21] = ALTO), exact = 0.63 Esta regla fue inesperada y significa que, si el número de conceptos de la lección es BAJO y el nivel de dificultad asignado a esa lección fue BAJO, entonces el tiempo empleado en la lección es ALTO. Analizando esta regla puede interpretarse que, como a nivel de lección no hemos utilizado ningún atributo relacionado con la nota, entonces el hecho de que los alumnos hayan pasado mucho tiempo haciendo la lección siendo ésta de poca dificultad y con pocos conceptos, puede indicar que el grado de dificultad de la lección ha sido mal asignado. De hecho, en este el diseñador del curso consideró que debía

cambiarse a MEDIO.

http://www.iadis.net/dl/final_uploads/200607L024.pdf

Agrawal, R., et al, 1996. A.I. Fast discovery of association rules. In Advances in Knowledge Discovery and Data Mining, Menlo Park, CA: AAAI Press, 307-328. Barnett, V. and Lewis, T., 1994. Outliers in Statistical Data. John Wiley & Sons. Brusilovsky, P. 1998. Adaptative Educational Systems on the World-Wide-Web: A Review. Int. Conf. on Intelligent Tutoring Systems. San Antonio. Brusilovsky, P., 2003. Developing adaptive educational systems: From Design Models to Authoring tools. Authoring Tools for Advanced Technology learning environments. pp. 377-409. Netherlands: Kluwer Academic Publishers. De Castro, C. et al. 2004. Herramienta autor indesahc para la creación de cursos hipermedia adaptativos. Revista latinoamericana de tecnología educativa (relatec). Vol. 3, 1. De Bra, P., and Calvi, L., 1998. AHA! An Open Adaptive Hypermedia Architecture. The New Review of Hypermedia and Multimedia, 4. Taylor Graham Publishers, pp. 115-139.

http://www.iadis.net/dl/final_uploads/200607L024.pdf

Mineria de Datos Con Weka

Documents

Transcript of Mineria de Datos Con Weka