cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha...

81
cenidet Centro Nacional de Investigación y Desarrollo Tecnológico Departamento de Ciencias Computacionales TESIS DE MAESTRÍA EN CIENCIAS Identificación de Regiones con Altas Tasas de Incidencia de Cáncer mediante la Integración y Uso de Técnicas de la Minería de Datos: Almacenes de Datos, Agrupamiento y Sistemas de Información Geográficos presentada por María del Rocío Boone Rojas Lic. en Computación por la Benemérita Universidad Autónoma de Puebla como requisito para la obtención del grado de: Maestría en Ciencias de la Computación Director de tesis: Dr. Joaquín Pérez Ortega Jurado: Dr. René Santaolaya Salgado – Presidente M.C. Olivia Fragoso Díaz – Secretario Dr. Joaquín Pérez Ortega – Vocal M.C. Humberto Hernández García – Vocal Suplente Cuernavaca, Morelos, México. 4 de Marzo de 2011

Transcript of cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha...

Page 1: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

cenidet

Centro Nacional de Investigación y Desarrollo Tecnológico Departamento de Ciencias Computacionales

TESIS DE MAESTRÍA EN CIENCIAS

Identificación de Regiones con Altas Tasas de Incidencia de Cáncer mediante la Integración y Uso de Técnicas de la Minería de Datos:

Almacenes de Datos, Agrupamiento y Sistemas de Información Geográficos

presentada por

María del Rocío Boone Rojas Lic. en Computación por la Benemérita Universidad Autónoma de Puebla

como requisito para la obtención del grado de: Maestría en Ciencias de la Computación

Director de tesis: Dr. Joaquín Pérez Ortega

Jurado: Dr. René Santaolaya Salgado – Presidente

M.C. Olivia Fragoso Díaz – Secretario Dr. Joaquín Pérez Ortega – Vocal

M.C. Humberto Hernández García – Vocal Suplente

Cuernavaca, Morelos, México. 4 de Marzo de 2011

Page 2: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,
Page 3: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,
Page 4: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

ii

Dedicatoria

A la inteligencia y amor infinito que sustenta toda forma de existencia.

A mis familias grande y pequeña. Mamá, Jana, Yola, Paty, Elba, René, Gerardo. Un ejemplo de solidaridad y amistad incondicional.

Leo, el amor y alegría que colma e ilumina mi vida.

Marco, dicen que somos como el día y la noche, pero creo que juntos podemos hacer un día.

A la memoria de:

Mi entrañable Padre, Sr. Alfonso Boone Rios Gracias por tu inteligente forma de motivarme a estudiar.

Mi asesor y tutor de Licenciatura,

Dr. Rodolfo Reyes Sánchez. Gracias por tu amistad y lecciones de vida.

Mis hermanos. Ing. Daniel Boone Rojas, Ing. Raúl Alfonso Boone Rojas, Sr. Guillermo Boone Rojas, Un pedazo de mi alma.

Mi nena. Sarah Soriano Boone. Mi mayor lección en la vida.

A mis tesistas. Mi orgullo.

Page 5: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

iii

Agradecimientos

A mi asesor. Dr. Joaquín Pérez Ortega. Hay muchas cosas que agradecer, sobre todo, las ideas, el apoyo y la confianza otorgada. En particular, el compartir las experiencias y los resultados preliminares para este proyecto.

Al comité tutorial.

M.C. Fragoso Díaz Olivia. M.C. Hernández García Humberto. Dr. Pérez Ortega Joaquín. Dr. Santaolaya Salgado René.

Su disposición, tiempo y contribuciones a este trabajo.

A mi compañera y egresada de la FCC

Lic. Rocío Pérez Osorno, del INEGI, Puebla, Pue. Gracias por compartir la experiencia, la asesoría y apoyo brindado en el proceso de graficado de los resultados de este trabajo.

A mis compañeros.

Dra. María de Lourdes Sandoval Solís , M.C. Marco Antonio Soriano Ulloa, Dr. Pedro García Juárez. Mi reconocimiento y agradecimiento por compartir sus conocimientos y experiencia en Matlab y en Matemáticas.

A los compañeros del Cenidet. Ady, Jesús y Miguel . Gracias por el apoyo y experiencias compartidas. Esther, Vic, Lau, y todos. Gracias por la amistad y los gratos momentos. Al personal administrativo del Cenidet. Gracias por las facilidades y atención brindadas. A las instituciones que me han brindado su apoyo para la realización de estos estudios. BUAP, Cenidet, Conacyt

Page 6: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

iv

Resumen La Minería de Datos es un campo multidisciplinario que se ha venido

desarrollando en paralelo con otras disciplinas tales como, la Estadística, las Bases de Datos, el Aprendizaje Automático y la Recuperación y Visualización de Información, entre otras. Además, se distingue de otras disciplinas porque involucra la generación de nuevas herramientas y técnicas para obtener conocimiento nuevo, útil, y original, de manera automática.

En la presente tesis se desarrolla un estudio para identificar regiones de municipios con alta tasa de incidencia de cáncer en México, basada en la integración y uso de técnicas especializadas de Minería de Datos, como son, los almacenes de datos, el agrupamiento y los Sistemas de Información Geográficos, con el propósito de promover acciones que contribuyan a disminuir los índices de mortandad por cáncer en México.

Con el uso de datos oficiales relacionados con la incidencia de cáncer en México y la localización geográfica real de municipios, en este trabajo se consigue integrar, diseñar e implementar un almacén de datos. Dicho almacén se basa, a nivel conceptual, en el modelo Multidimensional y, a nivel de implementación, en el modelo ROLAP (Relational On-Line Analytical Processing).

El almacén de datos integrado se utiliza como entrada para realizar tareas de agrupamiento de Minería de Datos, por afinidad de tasa de incidencia de cáncer y localización de los municipios, con base en el algoritmo K-Means y el entorno de programación de Matlab. Dicho entorno proporciona soluciones de calidad, ofreciendo un ambiente propicio para evaluar adecuadamente el algoritmo en su fase de clasificación.

La visualización de las regiones identificadas se lleva a cabo mediante técnicas y herramientas de Sistemas de Información Geográfica (en inglés, GIS). Las capacidades del GIS Arc-View, permiten la transferencia de formas (polígonos-puntos) y formatos (numérico-shape); mientras que el GIS IRIS del INEGI, permite tener una representación visual real de alta calidad de las regiones de municipios y, de sus centroides, por medio de la superposición de capas en un mapa de la orografía de la República Mexicana del INEGI.

Como resultado de esta investigación, se identificaron regiones de municipios con altas tasas de incidencia de cáncer cérvico-uterino, ubicados en las regiones del centro y suroeste del país. Así mismo, se identificaron regiones de municipios con altas tasas de incidencia de cáncer de hígado en las regiones del sur y sureste del país.

Page 7: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

v

TABLA DE CONTENIDO

Pág.

Lista de Figuras ........................................................................................................... viii

Lista de Tablas ............................................................................................................... x

1. INTRODUCCIÓN ......................................................................................................... 1

1.1 ANTECEDENTES ................................................................................................... 2

1.2 TRABAJOS RELACIONADOS ............................................................................... 3

1.3 DESCRIPCIÓN DEL PROBLEMA DE INVESTIGACIÓN .................................... 7

1.3.1 Modelado e Implementación del Almacén de Datos ........................................... 8

1.3.2 Tarea de Agrupamiento ...................................................................................... 8

1.3.3 Visualización de Resultados ............................................................................... 9

1.4 OBJETIVO DE LA TESIS ....................................................................................... 9

1.4.1 Objetivos Específicos ......................................................................................... 9

1.5 JUSTIFICACIÓN Y BENEFICIOS ........................................................................ 10

1.6 ALCANCES Y LIMITACIONES ........................................................................... 12

1.6.1 Alcances .......................................................................................................... 12

1.6.2 Limitaciones .................................................................................................... 12

1.7 ORGANIZACIÓN DEL DOCUMENTO ............................................................... 13

2. MARCO TEORICO: DESCUBRIMIENTO DE CONOCIMIENTO POR AGRUPAMIENTO ......................................................................................................... 15

2.1 EL PROCESO DE KDD Y LA MINERÍA DE DATOS ......................................... 15

2.2 ALMACENES DE DATOS.................................................................................... 17

2.3 EL PROBLEMA DE AGRUPAMIENTO Y EL ALGORITMO DE K-MEANS..... 20

2.3.1 Evaluación de los Modelos de Agrupamiento ................................................... 22

2.4 MINERÍA DE DATOS ESPACIALES ................................................................... 22

Page 8: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

vi

Pág.

3. EL PROCESO DE INTEGRACIÓN DE TECNOLOGÍAS Y EL DISEÑO E IMPLEMENTACIÓN DEL ALMACÉN DE DATOS ..................................................... 24

3.1 EL PROCESO DE KDD APLICADO A LA IDENTIFICACIÓN DE REGIONES CON ALTAS TASAS DE INCIDENCIA DE CÁNCER EN MÉXICO ........................ 24

3.2 INTEGRACIÓN, DISEÑO E IMPLEMENTACIÓN DEL ALMACÉN DE

DATOS ........................................................................................................................ 28

3.2.1 Fuentes de Datos, Bases de Datos Poblacionales y Geográficas ........................ 28

3.2.2 El modelo Multidimensional del Almacén de Datos ......................................... 30

3.2.3 El modelo ROLAP del Almacén de Datos ........................................................ 31

4. EVALUACIÓN DE K-MEANS EN MATLAB. RESULTADOS EN LA IDENTIFICACIÓN DE CÁNCER CÉRVICO-UTERINO Y DEL HÍGADO POR REGIONES DE MÉXICO ............................................................................................... 32

4.1 K-MEANS EN MATLAB Y SU EVALUACIÓN .................................................. 33

4.2 AGRUPAMIENTO MEDIANTE K-MEANS SOBRE INCIDENCIA

DE CÁNCER ............................................................................................................... 36

4.2.1 Caso de Cáncer Cérvico-Uterino ...................................................................... 37

4.2.1.1 Análisis General de Resultados sobre Cáncer Cérvico-Uterino .................. 38

4.2.2 Caso de Cáncer de Hígado ............................................................................... 39

4.2.2.1 Análisis General de Resultados sobre Cáncer de Hígado ........................... 40

5. VISUALIZACIÓN DE RESULTADOS ...................................................................... 42

5.1 EL GIS IRIS DEL INEGI ....................................................................................... 42

5.2 REPRESENTACIÓN DEL CONOCIMIENTO MEDIANTE IRIS ......................... 44

5.3 VISUALIZACIÓN Y VALIDACIÓN DE PATRONES PARA EL CÁNCER CÉRVICO-UTERINO .................................................................................................. 46

5.4 VISUALIZACIÓN Y VALIDACIÓN DE PATRONES PARAEL CÁNCER DE HÍGADO...................................................................................................................... 49

Page 9: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

vii

Pág.

6. CONCLUSIONES Y PERSPECTIVAS ....................................................................... 53

6.1 CONCLUSIONES .................................................................................................. 53

6.2 PERSPECTIVAS ................................................................................................... 54

Anexo A. Procedimiento para el Graficado de Regiones de Municipios en IRIS ................ 55

Anexo B. Publicaciones Derivadas de este Trabajo .......................................................... 64

Referencias ...................................................................................................................... 66

Page 10: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

viii

Lista de Figuras

Pág.

Fig. 1.1 Disciplinas, Tecnologías y Herramientas involucradas en el estudio realizado ....... 7

Fig. 2.1 Mapa conceptual del proceso KDD y la Minería de Datos .................................. 16

Fig. 2.2 El Almacén de Datos como un integrador de información ................................... 18

Fig. 2.3 Visualización de un Hecho en un Modelo Multidimensional ............................... 19

Fig. 2.4 Ejemplo de Temas en una Base de Datos Espacial ............................................... 23

Fig. 3.1 Aplicación del Proceso de KDD para el estudio sobre incidencia de cáncer ......... 25

Fig. 3.2 Modelo Multidimensional del Almacén de Datos sobre Incidencia de Cáncer...... 29

Fig. 3.3 Visualización de un Hecho en un Modelo Multidimensional ............................... 30

Fig. 4.1 Datos del Iris Data Set ......................................................................................... 34

Fig. 4.2 Total de Suma de Distancias ............................................................................... 35

Fig. 4.3 Porcentaje de Puntos Intercambiados................................................................... 35

Fig. 4.4 Los 10 municipios con las Tasas de Incidencia más altas de Cáncer Cérvico-Uterino............................................................................................................................. 39

Fig. 4.5 Los 10 municipios con las Tasas de Incidencia más altas de Cáncer de Hígado ... 41

Fig. 5.1 IRIS- Información Referenciada GeoEspacialmente Integrada en un sistema ....... 42

Fig. 5.2 Imagen Hipsográfica original del mapa de la República Mexicana ...................... 44

Fig. 5.3 Municipios con más de 100 mil habitantes .......................................................... 45

Fig. 5.4 Agregación de Capa del centroide de un grupo de municipios para IRIS ............. 46

Fig. 5.5 Regiones con Alta Tasa de Incidencia de Cáncer Cérvico-Uterino ....................... 47

Fig. 5.6 Las tres regiones con las Tasas más Altas de Incidencia de Cáncer Cérvico-

Uterino............................................................................................................................. 47

Fig. 5.7 Regiones con Alta Tasa de Incidencia de Cáncer de Hígado ................................ 49

Fig. 5.8 Las tres Regiones con las Tasas de Incidencia más Altas de Cáncer de Hígado .... 50

Fig. A.1 Consulta en IRIS por municipios de más de 100 mil habitantes .......................... 55

Fig. A.2 Polígonos de localización de municipios de más de 100 mil habitantes ............... 56

Fig. A.3 Transformación de un polígono a un punto mediante ArcMap-ArcInfo............... 57

Fig. A.4 Representación de municipios mediante un punto ............................................... 57

Fig. A.5.1 Acceso a ArcMap-ArcInfo para proporcionar tabla de coordenadas ................. 59

Page 11: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

ix

Pág.

Fig. A.5.2 Opciones de ArcMap para especificar tabla y campos de coordenadas ............. 59

Fig. A.5.3 Opciones de ArcMap-ArcInfo para exportar datos en formato shape................ 60

Fig. A.5.4 Especificación de archivo de salida shape en ArcMap-ArcInfo ........................ 60

Fig. A.6.1 Proceso para anexar capas en IRIS .................................................................. 61

Fig. A.6.2 Especificación de archivos shape para grupos y centroides en IRIS ................. 61

Fig. A.7 Especificación de propiedades de graficado de puntos en IRIS ........................... 62

Fig. A.8 Ejemplo – Seis Regiones de municipios por densidad de población ................... 63

Page 12: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

x

Lista de Tablas

Pág.

Tabla 1.1 Trabajos relacionados ........................................................................................ 6

Tabla 4.1 Información de las Bases de Datos Experimentales ...........................................34

Tabla 4.2 Número de Iteraciones y de Puntos Intercambiados para Bases de Datos Experimentales ............................................................................................................... 36

Tabla 4.3 Grupo 8 – Atlixco, Cáncer Cérvico-Uterino .......................................................37

Tabla 4.4 Grupo 4 – Apatzingán, Cáncer Cérvico-Uterino ................................................37

Tabla 4.5 Grupo 7 – Tapachula, Cáncer Cérvico-Uterino ..................................................37

Tabla 4.6 Datos de los Diez municipios con las Tasas de Incidencia más altas de Cáncer Cérvico-Uterino ............................................................................................................... 38

Tabla 4.7 Grupo 10 – Poza Rica de Hidalgo, Cáncer de Hígado .......................................39

Tabla 4.8 Grupo 16 – Minatitlán, Cáncer de Hígado .........................................................40

Tabla 4.9 Grupo 18 – Orizaba, Cáncer de Hígado .............................................................40

Tabla 4.10 Datos de los 10 municipios con las Tasas de Incidencia más altas de Cáncer de Hígado ............................................................................................................................. 41

Tabla 5.1 Grupo Atlixco – Puebla .....................................................................................48

Tabla 5.2 Grupo Apatzingán .............................................................................................48

Tabla 5.3 Grupo Tapachula ...............................................................................................48

Tabla 5.4 Grupo Poza Rica de Hidalgo .............................................................................50

Tabla 5.5 Grupo Orizaba ...................................................................................................51

Tabla 5.6 Grupo Minatitlán, Veracruz – Macuspana, Tabasco ...........................................51

Tabla A.1 Ejemplo – Población del Municipio de Puebla ..................................................56

Tabla A.2 Ejemplos de Coordenadas de municipios ..........................................................58

Page 13: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

1

Capítulo 1

INTRODUCCIÓN

La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando

en paralelo con otras disciplinas tales como, la Estadística, las Bases de Datos, el Aprendizaje Automático y la Recuperación y Visualización de la Información, entre otras. Además, se distingue de otras disciplinas porque involucra la generación de nuevas técnicas y herramientas para obtener conocimiento útil, novedoso y original, de manera automática.

Por otra parte, una de las tendencias más dominantes actualmente, es la integración de técnicas y tecnologías derivadas de diversas disciplinas, con el objetivo de resolver problemas específicos en diferentes ámbitos de la ciencia y de la investigación. La Minería de Datos es una de las disciplinas más representativas de esta tendencia.

La investigación realizada en el presente trabajo, condujo al desarrollo de un proceso de Minería de Datos para la identificación de regiones de municipios con alta tasa de incidencia de cáncer en México, basada en la integración y uso de técnicas y herramientas especializadas de la Minería de Datos, como son, los Almacenes de Datos, el Agrupamiento y los Sistemas de Información Geográficos.

Page 14: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

2

Con la experiencia adquirida en este trabajo, buscamos establecer los elementos metodológicos necesarios para resolver problemas similares sobre Bases de Datos poblacionales, mediante el uso de técnicas de Minería de Datos.

El contenido de este capítulo está relacionado con la descripción del problema de investigación y sus implicaciones. Por un lado, se establece el objetivo general y los objetivos específicos del trabajo de tesis, así como su justificación y beneficios, y sus alcances y limitaciones. Por otro lado, se ubica el contexto de la investigación, citando los trabajos más representativos y relacionados con el objeto de estudio de la presente investigación. Finalmente, se indica de manera breve el contenido de cada capítulo que forma parte de este documento.

1.1. ANTECEDENTES

El presente trabajo de tesis forma parte de una serie de trabajos de investigación en el área de Minería de Datos, aplicada a Bases de Datos poblacionales y de enfermedades epidemiológicas en México. Estos trabajos se han venido desarrollando en el Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET) desde hace ya varios años, con el propósito de contribuir con los estudios que se realizan en el ámbito de la salud para la identificación de regiones de municipios con altas tasas de incidencia de cáncer y de factores de riesgo relacionados. Así mismo, como parte de la presente investigación, se ha incursionado en el análisis y estudio de métodos heurísticos y de técnicas especializadas de la Minería de Datos como las técnicas de agrupamiento, con el propósito de realizar posibles propuestas de mejora de los algoritmos involucrados. Los productos y resultados obtenidos, se han reportado en diversas publicaciones, entre las que destacan [Pérez 2007b], [Pérez 2007a], [Pérez 2009], y en los trabajos de tesis de posgrado que se citan a continuación: a) Desarrollo de un Prototipo para la Aplicación de Técnicas de Minería de Datos a

una Base de Datos real de registros de cáncer de base poblacional, [Barrón 2008]. El prototipo se centra en el análisis de factibilidad para la aplicación de Minería de Datos en la Base de Datos de cáncer de bases poblacionales. En dicho trabajo se hace un estudio del estado del arte y se aplica un algoritmo de agrupamiento a una Base de Datos poblacional con la finalidad de obtener la factibilidad de su aplicación. b) Mejoramiento de la eficiencia y eficacia del Algoritmo de Agrupamiento K-Means

mediante una Nueva Condición de Convergencia, [Basave 2005]. Se propone un mejoramiento a la eficiencia y eficacia del algoritmo K-Means estándar con base en una aportación a la condición de convergencia. Para validar la propuesta realizada se realizaron pruebas experimentales con bases de datos del UCI Machine Learning

Page 15: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

3

Repository [UCI] y una Base de Datos del problema de Bin-Packing. Los resultados se contrastaron con las versiones de K-Means en SPSS [SPSS], Weka [Weka] y el algoritmo K-Means estándar. c) Adecuación de una Metodología de la Minería de Datos para su Aplicación a una

Base de Datos real de Registros de Cáncer de Base Poblacional, [Salinas 2007] . Se realiza una particularización de la metodología Cross Industry Process Estándar for Data Mining (CRISP-DM) [CRISP-DM], aplicada al desarrollo de un prototipo de un sistema de Minería de Datos para la búsqueda de patrones grupales de municipios con afinidad en localización geográfica y tasas de mortalidad en una Base de Datos poblacional de cáncer de pulmón y estómago en México. La visualización de los grupos de municipios localizados, se basa en las coordenadas relativas a un mapa digitalizado de la República Mexicana.

d) Desarrollo de una metodología para la selección de Atributos y Generación de

Indicadores para la Aplicación de Minería de Datos a una Base de Datos Real de Registros de Cáncer en Base Poblacional, [Mexicano 2007].

Se propone un nuevo enfoque de selección de atributos para realizar tareas de la Minería de Datos. Para ilustrar y validar el enfoque que se propone, se desarrolla una tarea de agrupamiento mediante el algoritmo de K-Means para identificar patrones con altas tasas de mortandad de cáncer de pulmón y de estómago. Además, se integran e implementan Almacenes de Datos sobre incidencia de cáncer en México, en base a Bases de Datos relacionales que incluyen como atributos las coordenadas de ubicación de los municipios, relativas a un mapa digitalizado de la República Mexicana.

1.2 TRABAJOS RELACIONADOS

La gran mayoría de los trabajos que se han publicado sobre la aplicación de las técnicas de la Minería de Datos al estudios del cáncer, consisten en estudios muy especializados, y a nivel de investigación, acerca de las características de las células cancerosas y recientemente, sobre los factores genéticos del cáncer. Sin embargo, existen pocos trabajos relacionados con el estudio de grupos de población con incidencia de cáncer.

A continuación, se citan los trabajos más relevantes relacionados con este trabajo.

Page 16: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

4

a) Constructing Over view+Detail Dendogram Matrix Views, [Chen 2009].

En el contexto de la Minería de Datos, este trabajo presenta una estrategia basada en el análisis general y detallado de dendogramas que permiten la visualización de jerarquías de grupos, y que incorporan una medida de ponderación de los nodos en el dendograma. La estrategia adoptada permite encontrar patrones de interés, lo que se detalla mediante un caso de estudio basado en datos demográficos y de mortalidad a nivel de condados de los Estados Unidos de América (EEUU), sobre la incidencia de cáncer cervical.

b) Subgroup Discovery in Cervical Cancer Using Data Mining Techniques, [Thangavel

2006].

En esta investigación los autores identifican patrones desde una Base de Datos de pacientes de cáncer cervical, mediante una Base de Datos proporcionada por uno de los centros de cáncer de Tamilnadu, India. El objetivo principal consistió en determinar cuáles factores influyen en el diagnóstico del cáncer cervical para una región determinada. La metodología para el descubrimiento de subgrupos en el cáncer cervical se implementó en un Data Mining Server (DMS), disponible en http://dms.irb.hr para uso público. Además, se desarrolló un nuevo método de Minería de Datos que combina el aprendizaje de máquina basado en inducción de subgrupos interesantes con el análisis estadístico de descubrimiento de subgrupos.

c) Data Mining for Cancer Management in Egypt, [Labib 2005].

En este trabajo se discute el proceso de diseño de un prototipo para soportar el estudio de la Leucemia Linfoblástica Aguda (LLA) Infantil. Los resultados obtenidos proporcionan una información valiosa acerca de la distribución y segmentación de la enfermedad en Egipto y que se puede asociar a posibles factores de riesgo. Respecto a la implementación, se utiliza la herramienta de Minería de Datos Clementine y como técnica, los árboles de decisión. Los datos utilizados en esta investigación se obtuvieron de Institutos de cáncer especializados.

d) Developing Prognostic Systems of Cancer Patients by Ensemble Clustering, [Dechang 2009].

En este trabajo se desarrolla una herramienta para la predicción de supervivencia de pacientes con cáncer, basada en el análisis de Bases de Datos disponibles y en la aplicación del algoritmo de PAM y el agrupamiento jerárquico.

Page 17: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

5

e) A New Clustering Method for Time Series to Discover Geographical Cancer Trends from 1960 to 2000, [Summa 2007].

Los autores de este trabajo realizan un estudio para establecer una tipología de países basado en series de tiempo de mortalidad por cáncer. Se utilizan técnicas de Minería de Datos para la extracción del conocimiento de las Bases de Datos de la Organización Mundial de la Salud, que representan la evolución del cáncer por grupos de países en los periodos comprendidos de, 1960 a 2000 y de 1980 a 2000. También se establece una organización piramidal de las series de tiempo sobre mortandad por cáncer. La tabla 1.1 incluye como encabezado un conjunto de atributos sobre los trabajos mencionados anteriormente, que permite realizar una comparación de los mismos. La primera columna indica la referencia del trabajo, mientras que las columnas dos, tres y cuatro se relacionan con el problema que aborda el trabajo, la solución que plantea y los productos obtenidos como resultado, respectivamente. Finalmente, la última columna indica el ámbito geográfico de la investigación. Como se puede observar en la tabla 1.1, los trabajos desarrollados y relacionados con el ámbito de la investigación del problema que se plantea, comparten las siguientes características:

• Son estudios específicos para ciertos tipos de cáncer y se han realizado para otros países.

• Involucran un uso limitado de técnicas de Minería de Datos y ofrecen, en consecuencia, productos específicos que atienden a sus propias necesidades.

Con excepción de [Summa 2007], el cual se centra en un estudio global que involucra un conjunto de países. El presente trabajo de investigación maneja como ámbito geográfico el país de México, y se destacan las siguientes diferencias:

• Se implementa un almacén que integra Bases de Datos poblacionales sobre incidencia de cáncer en México, a nivel municipal.

• Identifica y permite visualizar espacialmente las regiones de municipios con altas tasas de incidencia de cáncer.

• Se hace uso de técnicas especializadas de Minería de Datos, como son los almacenes de datos, el agrupamiento, y Sistemas de Información Geográficos.

• Se proporciona una metodología que puede ser aplicada al estudio sobre la incidencia de otro tipo de enfermedades epidemiológicas en el país.

Page 18: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

6

Tabla 1.1 Trabajos Relacionados.

Referencia Problema que aborda Solución Producto Ámbito

[Chen 2009]

Identificar patrones de interés sobre incidencia de cáncer cervical en condados de los Estados Unidos de América.

Estrategia para el

análisis de dendogramas para identificar patrones

de interés.

Estrategia

para identificar patrones

de interés.

EEUU

[Thangavel 2006]

Identificar factores relacionados con el diagnóstico del cáncer cervical en una región de la India.

Método para

identificar patrones en B.D.

sobre cáncer cervical

Método de Minería de Datos para

identificar y analizar

subgrupos de datos

relacionados con el

diagnostico de cáncer.

India

[Labib 2005]

Establecer la distribución y segmentación de la población con incidencia de Leucemia Linfoblástica Aguda (LLA) infantil.

Prototipo para identificar y segmentar la

población con factores de riesgo.

Prototipo para

identificar factores de riesgo de

LLA infantil.

Egipto

[Dechang 2009]

Pronóstico de supervivencia de pacientes con cáncer. Caso de estudio - Cáncer de Pulmón.

Desarrollo de una herramienta para el pronóstico de supervivencia de

pacientes con cáncer.

Herramienta para el

pronóstico de supervivencia de pacientes con cáncer.

EEUU

[Summa 2007]

Establecer las tendencias de tipos de cáncer por grupos de países y por periodos.

Establecer tipología de países basada en series de tiempo de la mortalidad del

cáncer

Tipología de países basada en series de tiempo de la mortalidad por cáncer.

Grupos de

países

Este trabajo de

tesis

Identificar regiones de municipios con altas tasas de incidencia de cáncer en México.

Desarrollar un proceso basado en el uso e

integración de técnicas especializadas

de Minería de Datos (almacenes de datos,

agrupamiento y Sistemas de Información

Geográficos).

1. Almacén de datos de mortalidad.

2. Identificar regiones de

municipios con alta tasa de

incidencia de cáncer. 3. Metodología

para el estudio de incidencia de cáncer.

México

Page 19: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

7

1.3 DESCRIPCIÓN DEL PROBLEMA DE INVESTIGACIÓN

A nivel mundial se considera que el cáncer es la primera causa de mortalidad. En México, de acuerdo a diversas fuentes oficiales, también es una de las principales causas de mortandad. Identificar las regiones con altas tasas de incidencia de cáncer en México, permitirá evidenciar la necesidad de crear programas preventivos, de orientación y de control en tales regiones, así como realizar actividades de planeación pertinentes, lo que en cierta medida, contribuirá a disminuir la mortalidad por cáncer en México.

En el ámbito de la salud de nuestro país, se han realizado diversos trabajos de investigación relacionados con la incidencia de algunos tipos de cáncer o de factores de riesgo asociados [Hidalgo 2006], [Hernández 2007], [Martínez 2004]; los cuales se basan principalmente en el uso de técnicas estadísticas y sobre ciertas regiones específicas. En el presente trabajo de tesis, dado un almacén de datos que integra información relacionada con la incidencia de cáncer de todos los municipios mayores a cien mil habitantes, se plantea desarrollar un proceso para identificar y representar espacialmente las regiones de municipios con altas tasas de incidencia de cáncer, mediante el uso e integración de técnicas especializadas de Minería de Datos (almacenes de datos, agrupamiento y Sistemas de Información Geográficos). Los resultados se muestran a través de los casos de cáncer cérvico-uterino y del hígado. Desde el punto de vista computacional, se plantea utilizar e integrar técnicas especializadas de Minería de Datos para obtener una solución con alcance en todo el país, que permita adicionalmente reducir los tiempos de desarrollo; conseguir resultados de mejor calidad, y facilitar las tareas de actualización y mantenimiento.

Fig. 1.1 Disciplinas, Tecnologías y Herramientas involucradas en el estudio realizado.

Page 20: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

8

El estudio realizado involucra la integración de diversas disciplinas, tecnologías y herramientas especializadas, que se vinculan principalmente con la Minería de Datos y la epidemiología descriptiva (ver figura 1.1). Los trabajos realizados anteriormente en CENIDET sobre la incidencia de cáncer en el país, [Barrón 2008], [Mexicano 2007] y [Salinas 2007], han permitido identificar los principales términos y conceptos relacionados con la epidemiología descriptiva, la cual constituye el campo de aplicación del presente trabajo.

Además, en el presente estudio, se han retomado las experiencias y resultados anteriores, que ofrece un enfoque alternativo y complementario para abordar el problema planteado, basado en el uso e integración de técnicas especializadas de Minería de Datos, permitiendo formalizar resultados previos, tales como, el modelado del almacén de datos sobre incidencia de cáncer y mejorar la calidad de presentación de los resultados obtenidos, en este caso, mediante su representación espacial real con el uso de Sistemas de Información Geográficos.

A continuación se describen los principales aspectos involucrados en el estudio realizado.

1.3.1 Modelado e Implementación del Almacén de Datos

Preparar los datos para realizar la tarea de agrupamiento requiere diseñar un almacén de datos poblacional de cáncer basado, a nivel conceptual, en el modelo Multidimensional y, a nivel de implantación, en el modelo ROLAP (Relational On-Line Analytical Processing). En este caso, se considera que un país tiene como hecho básico, defunciones, que pueden tener asociados atributos tales como índice de mortandad, tasa, media, varianza, etc., que se pueden detallar en varias dimensiones tales como: causa de la defunción, lugar de la defunción y tiempo/fecha de la defunción, entre otras. Y con granularidad municipio, para la dimensión lugar (p. ej. Atlixco); censo, para la dimensión tiempo (p. ej. censo-2000) y cáncer, para la dimensión causa (p. ej. cáncer cérvico-uterino). Basado en el modelo ROLAP, la implementación del Almacén de Datos se realiza mediante Bases de Datos relacionales. 1.3.2 Tarea de Agrupamiento

La tarea de agrupamiento se plantea realizarla mediante el algoritmo de K-Means dentro del entorno de programación de Matlab [MathWorks], el cual se evalúa y valida mediante pruebas realizadas sobre bases de datos del UCI Machine Learning Repository (UCI), y se aplica a Bases de Datos poblaciones de cáncer cérvico-uterino y del hígado en México. La evaluación del algoritmo se realiza con el propósito adicional de establecer un marco de referencia que permita evaluar la factibilidad de mejorar el desempeño del algoritmo, mediante la simplificación del cálculo de distancias.

Page 21: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

9

Para validar la calidad de los resultados, uno de los criterios que se establecen, de acuerdo a la literatura especializada [Hernández 2004], consiste en evaluar y observar el comportamiento de la función de los errores cuadráticos de los grupos y cotejar los resultados de las regiones de cáncer identificadas con resultados publicados en el área de la salud (lo cual se realiza en el presente trabajo).

1.3.3 Visualización de Resultados

Para realizar la visualización del componente espacial del almacén de datos y de las regiones de municipios identificadas, se han utilizado recursos de los Sistemas de Información Geográficos, tales como el GIS IRIS del INEGI. Este sistema reúne una gran cantidad de información tanto poblacional como geográfica del país, derivada de diversas actividades que comprenden la realización de censos, entre otras. El GIS IRIS permite recuperar información relacionada con la población y con la ubicación geográfica real de los municipios. Dado que la información espacial de la ubicación de los municipios se almacena como polígonos y en el formato estandarizado shape, se requiere procesar dicha información para trasladarla a un punto relativo al centro de su polígono y que se pueda representar mediante coordenadas (x,y), lo cual permite su procesamiento numérico mediante el algoritmo de K-Means en Matlab. Dicha transformación se logra mediante las herramientas del GIS ArcView. Una vez realizada la tarea de agrupamiento, cuyos resultados nos proporcionan los grupos de municipios y sus centroides correspondientes, es necesario utilizar nuevamente las herramientas de ArcView para trasladar los resultados numéricos al formato shape, a fin de que se puedan, finalmente, visualizar los grupos y centroides identificados, por medio del GIS IRIS mediante la superposición de capas en un mapa de la orografía de la República Mexicana, del mismo INEGI. 1.4 OBJETIVO DE LA TESIS

Este trabajo tiene como objetivo identificar y visualizar espacialmente regiones de municipios con altas tasas de incidencia de cáncer en México, mediante el uso e integración de tecnologías y herramientas especializadas de Minería de Datos, en particular, Almacenes de Datos, Agrupamiento y Sistemas de Información Geográficos.

1.4.1 Objetivos Específicos

Como objetivos específicos se plantean los siguientes.

• Utilizar e integrar tecnologías y herramientas especializadas de la Minería de Datos.

• Formalizar el desarrollo del Almacén de Datos de las Bases de Datos recopiladas en trabajos previos mediante su modelado basado en los modelos multidimensional y

Page 22: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

10

ROLAP.

• Actualizar el componente espacial del almacén de datos anteriores para considerar las coordenadas de la ubicación geográfica real de los municipios.

• Realizar la tarea de agrupamiento mediante el algoritmo de K-Means en Matlab y evaluar la factibilidad de mejorar su desempeño basado en la optimización de su etapa de clasificación.

• Mejorar la representación visual de los patrones identificados mediante el uso de Sistemas de Información Geográficos.

• Abordar el estudio de los casos del cáncer cérvico-uterino y del hígado. • Establecer una metodología que sea factible de aplicar a la realización de estudios

similares, a los que se realizan en el presente trabajo, sobre otro tipo de enfermedades epidemiológicas.

1.5 JUSTIFICACIÓN Y BENEFICIOS

A nivel mundial se considera que el cáncer es la primera causa de mortalidad. En México, de acuerdo a diversas fuentes oficiales, también es una de las principales causas de mortandad. Existen diversas instituciones que realizan programas generales informativos preventivos y de control, entre las que destacan el Instituto Nacional del Cáncer [INC1] y el Instituto Nacional de Cancerología [INC2] . Identificar las regiones con altas tasas de incidencia de cáncer en México, permitirá poner en evidencia la necesidad de crear programas preventivos, de orientación y de control en dichas regiones, así como realizar actividades de planeación por las autoridades correspondientes, lo que sin duda, puede contribuir a disminuir la mortalidad por cáncer en México. De especial interés ha sido realizar el presente estudio, ya que en México, el cáncer cérvico-uterino es la causa principal de muerte por cáncer entre las mujeres [Martínez 2004]. Por otra parte, diversas fuentes oficiales ya han reconocido los graves problemas de alcoholismo que existen en diferentes regiones del país, el cual constituye uno de los principales factores de riesgo para el desarrollo de cirrosis hepática y por ende, de cáncer del hígado, por lo cual, también resulta de interés su investigación. En [Mexicano 2007], se indica que desde el punto de vista computacional, existen aplicaciones de técnicas estadísticas sobre estratos sociales, aplicación de Minería de Datos sobre información genómica de células de cáncer y tratamiento de imágenes de tumores cancerosos.

Page 23: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

11

De acuerdo con la literatura especializada, los estudios de la Minería de Datos sobre Bases de Datos poblacionales, no es algo que se haya trabajado en México y, según nuestro conocimiento, los estudios realizados dentro del proyecto de CENIDET, del cual forma parte el presente trabajo, son los primeros realizados en dicha área de aplicación. De tal forma que el presente estudio permitirá en primer lugar, identificar las regiones con altas tasas de incidencia de cáncer cérvico-uterino y del hígado en el país y, en segundo lugar, establecer los elementos metodológicos necesarios para realizar estudios de esta naturaleza, bajo el enfoque de la integración y utilización de tecnologías y herramientas especializadas de la Minería de Datos.

El desarrollo del estudio, proporcionará los siguientes beneficios.

a) Se desarrolla un proceso mediante la integración y el uso de herramientas y tecnologías especializadas de Minería de Datos. Esto permitirá simplificar los tiempos de desarrollo, obtener resultados de mejor calidad y facilitar las tareas de actualización y mantenimiento de la misma.

b) El modelado del almacén de datos formalizará el diseño y se podrá actualizar y dar

seguimiento a la información para los estudios realizados. Así mismo, permitirá analizar la información bajo diferentes perspectivas y plantear otro tipo de estudios.

c) Con respecto a la realización del agrupamiento mediante K-Means en Matlab, se

establecerá un marco de referencia para evaluar el algoritmo en su fase de clasificación y para evaluar la factibilidad de simplificar los cálculos asociados. Además, se evaluará el alcance de las facilidades que proporciona dicho entorno de programación para realizar tareas de agrupamiento.

d) En cuanto a la visualización de los resultados mediante Sistemas de Información

Geográfica, permitirá mejorar la calidad de la representación geográfica de los municipios. El uso de la información oficial del INEGI, en cuanto a la ubicación espacial de los mismos, permitirá tener una representación geográfica real de los municipios.

e) El estudio desarrollado establecerá una metodología factible de aplicar en la

resolución de problemas similares, mediante el presente enfoque de Minería de Datos.

Page 24: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

12

1.6 ALCANCES Y LIMITACIONES

A continuación se mencionan los alcances y limitaciones del presente trabajo.

1.6.1 Alcances

• El modelo del almacén de datos desarrollado, es un modelo general para el problema que se plantea. Para estudios más especializados, se deberá actualizar el diseño a fin de obtener un conjunto de datamart que permita estudiar los diferentes aspectos sobre la incidencia de cáncer en el país. Por ejemplo, se puede diseñar el almacén de datos correspondiente a los municipios e incluir variables más detalladas y relacionadas con el nivel de industrialización, nivel socioeconómico, servicios de salud, tipo de zona, etc.

• Se consideran las Bases de Datos de datos poblacionales de acuerdo al censo del año 2000. El diseño del almacén de datos permitirá incorporar y dar seguimiento a los datos derivados de los futuros censos.

• La evaluación del algoritmo de K-Means se realiza bajo el entorno de programación de Matlab, debido a que este ambiente proporciona las opciones adecuadas para dar seguimiento a la ejecución del algoritmo, en este caso, en los aspectos relacionados con su fase de evaluación. A diferencia del modo “supervisor” de la suite Weka, ésta no proporciona toda la información necesaria para tal propósito. Una evaluación más amplia implicará investigar y documentar herramientas alternativas para la Minería de Datos. Sin embargo, la presente evaluación establece un marco de referencia que muestra que es factible mejorar el desempeño del algoritmo en su fase de clasificación.

• La ubicación espacial de los municipios y la cartografía correspondiente para su visualización, corresponde al MARCO GEOESTADÍSTICO MUNICIPAL 2005 [INEGI 2005]. El GIS IRIS del INEGI permite la recuperación de zonas urbanas a un nivel de detalle mucho mayor, por ejemplo, localidades o manzanas que pudieran requerirse para realizar estudios mucho más específicos.

1.6.2 Limitaciones

• Se diseña e implementa el Almacén de Datos para Bases de Datos sobre incidencia de los casos de Cáncer Cérvico-Uterino y del Hígado.

• Para propósitos de implementación del Almacén de Datos, se consideran los siguientes atributos:

a) clave (concatenación de las claves oficiales de estado y municipio de acuerdo al INEGI).

Page 25: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

13

b) estado (nombre oficial de cada estado).

c) municipio (nombre oficial del municipio).

d) incidencia (número de decesos por causa de cáncer por municipio).

e) tasa (proporción de decesos por cada 100 mil habitantes).

f) población_total_municipio (número de habitantes por municipio.)

g) coordenada_x (valor de coordenada x de la localización geográfica relativa al centro del municipio).

h) coordenada_y (valor de coordenada y de la localización geográfica relativa al centro del municipio).

i) Los valores del conjunto de atributos se derivan de los registros oficiales del INEGI correspondientes al censo del año 2000 y al marco geoestadístico 2005.

• La tarea de agrupamiento se realiza por afinidad de tasa de incidencia de cáncer (tasa) y de localización de los municipios (coordenadas x, y).

• El estudio se restringe a los municipios de más de 100,000 habitantes, lo cual obedece a convenciones del área de la salud.

1.7 ORGANIZACIÓN DEL DOCUMENTO

El presente documento de tesis consta de seis capítulos y se organizan de la siguiente manera. Seguido de la presente introducción, en el Capítulo 2 se presentan los conceptos y términos del Proceso de Adquisición del Conocimiento, con énfasis en el descubrimiento del conocimiento mediante una tarea de agrupamiento sobre Bases de Datos espaciales. En el capítulo 3, se describe el proceso general de integración de tecnologías que se ha realizado para la identificación de regiones con incidencia de cáncer, así como el proceso de integración, modelado e implementación del almacén de datos correspondiente. El capítulo 4, incluye una revisión del algoritmo de K-Means bajo el entorno de programación de Matlab, así como de los resultados de la tarea de agrupamiento realizada para identificar la incidencia de cáncer cérvico-uterino y del hígado.

Page 26: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

14

Relacionado con el capítulo anterior, el capítulo 5 proporciona la descripción del proceso realizado para lograr la visualización de los patrones identificados mediante el GIS IRIS del INEGI, así como la validación correspondiente. Finalmente en el capítulo 6 se mencionan las conclusiones y perspectivas asociadas al presente trabajo.

Page 27: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

15

Capítulo 2 Marco Teórico: Descubrimiento de

Conocimiento por Agrupamiento

Con base en [Hernández 2004], [Witten 2005] y [Xu 2005] en el presente capítulo se

proporciona una breve descripción de los conceptos y aspectos metodológicos que sustentan el desarrollo del presente trabajo. Se describe el concepto de Minería de Datos como parte de un proceso más general llamado Proceso de Descubrimiento de conocimiento en Bases de Datos (por sus siglas en inglés, Knowledge Discovery in Databases, KDD). Así como la ubicación de los modelos, tareas y técnicas asociadas, en particular, con la tarea de agrupamiento y la Minería de Datos Espaciales.

2.1. EL PROCESO DE KDD Y LA MINERÍA DE DATOS

Pese al uso frecuente del término Minería de Datos, este sólo es una etapa, que se considera la más importante, dentro de un proceso más general llamado proceso de adquisición de conocimiento a partir de los datos. En [Hernández 2004] se establece que el KDD es “el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de los datos”.

Como parte del desarrollo de este trabajo, se construyó un mapa conceptual representado en la figura 2.1, el cual proporciona una abstracción general de los conceptos, relaciones, términos y técnicas que involucra el KDD, y para propósitos del presente capítulo, este mapa sirve de apoyo para establecer la metodología y los elementos que sustentan el desarrollo del presente trabajo.

En particular, en [Hernández 2004] se establece que la Minería de Datos es el proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos. Como se puede observar en la

Page 28: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

16

figura 2.1, la Minería de Datos es una de las fases, del proceso de KDD, cuyas actividades asociadas se citan a continuación.

Figura 2.1 Mapa Conceptual del proceso KDD y la Minería de Datos.

a) La Fase de Integración y Recopilación.

• Se determinan las fuentes de información y dónde conseguirlas. • Se transforman los datos a un formato común. • Es posible que se integre un almacén de datos a fin de resolver, entre otras cosas, los

conflictos. b) La Fase de Selección, Limpieza y Transformación.

• Se eliminan o corrigen los datos incorrectos. • Se elige la estrategia a seguir con los datos incompletos. • Se seleccionan las variables o atributos relevantes para la tarea de minería de datos a

realizar.

Page 29: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

17

c) La Fase de Minería de Datos. • Se decide cuál es la tarea a realizar, (p. ej. clasificar, agrupar, etc). • Se decide el tipo de modelo, (p. ej. Modelo en forma de reglas). • Se elige el método que se va a utilizar (p. ej. funciones lineales, árboles de

decisión). Existen diferentes formas de representar los modelos y cada una de ellas determina el tipo de técnica que se puede utilizar para inferirlos. En la práctica, los modelos y tareas asociadas pueden ser de dos tipos: predictivos y descriptivos. Los modelos predictivos pretenden estimar valores futuros o desconocidos de variables de interés, a las que se denominan variables objetivo o dependientes, a partir de otras llamadas, variables independientes. Ejemplo de tareas que producen este tipo de modelos son la Clasificación y la Regresión. Por otra parte, los modelos descriptivos, identifican patrones que explican o resumen los datos, es decir, sirven para explorar las propiedades de los datos examinados, no para predecir nuevos datos. Ejemplos de tareas que dan lugar a este tipo de modelos son las de Agrupamiento (Clustering) y las reglas de asociación. d) La Fase de Evaluación e Interpretación

• Se evalúa la calidad de los patrones descubiertos por el algoritmo aplicado y se analizan por los expertos.

Idealmente se espera que los patrones tengan tres cualidades: precisos, comprensibles e interesantes, las cuales se equilibrarán de acuerdo a su área de aplicación. Una práctica común para evaluar y probar un modelo es partir los datos en dos conjuntos, el conjunto de entrenamiento (training set) y el conjunto de prueba (test set), con el objeto de garantizar que la validación de la precisión del modelo es una medida independiente. e) La Fase de Difusión

• Se hace uso del nuevo conocimiento y se comparte con los usuarios. El modelo construido y validado se puede utilizar básicamente para dos propósitos: para recomendar acciones basadas en el modelo y en los resultados y, para aplicar el modelo a diferentes conjuntos de datos. 2.2. ALMACENES DE DATOS

Un almacén de datos es un conjunto de datos históricos, internos o externos, y descriptivos de un contexto o área de estudio, que están integrados y organizados de tal forma que permite aplicar eficientemente herramientas para resumir, describir y analizar los

Page 30: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

18

datos con el fin de contribuir en la toma de decisiones estratégicas [Hernández 2004]. El almacén de datos pasa a ser un integrador o recopilador de información de diferentes fuentes, como se observa en la figura 2.2. El modelo conceptual de datos más extendido para los almacenes de datos es el modelo multidimensional. Los datos se organizan en entorno a los hechos, que tienen atributos o medidas que pueden verse en mayor o menor detalle según ciertas dimensiones. Es interesante comprobar que las medidas responden generalmente a la pregunta cuánto, mientras que las dimensiones dan respuesta al cuando, qué, donde, etc. La forma que tienen estos conjuntos de hechos y sus dimensiones hace que se llamen popularmente almacenes de datos en estrella simple o copo de nieve (cuando hay caminos alternativos en las dimensiones). En general no es posible representar todo el almacén de datos como una sola estrella, ni siquiera, jerárquica. Por esta razón, para cada sub-ámbito de una organización se puede construir una estructura de estrella. Por lo tanto, el almacén de datos estará formado por muchas estrellas, formando una constelación y cada una de estas estrellas que representa un ámbito específico se denomina popularmente datamart.

Fig. 2.2 El Almacén de Datos como un integrador de información.

Cuando el número de dimensiones no excede de tres, podemos representar cada combinación de niveles de agregación como un cubo. El cubo está formado por casillas, con una casilla para cada valor entre los posibles para cada dimensión a su correspondiente nivel de agregación. Sobre esta “vista”, cada casilla representa un hecho. Por ejemplo, en la figura 2.3 se representa un cubo tridimensional en donde las dimensiones producto, lugar, y tiempo se han agregado por artículo, ciudad y trimestre. La representación de un hecho, como se ha visto anteriormente, corresponde por tanto a una casilla en dicho cubo. En este caso se representa el hecho “El primer trimestre de 2004 la empresa vendió en Valencia por un importe de 22,000 euros el producto Taurin 33cl”.

Page 31: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

19

Esta visualización hace que incluso cuando tengamos más de tres dimensiones, se hable propiamente de un hipercubo como un conjunto de niveles de agregación para todas las dimensiones. Los sistemas de almacenes de bases de datos pueden implementarse utilizando dos tipos de esquemas físicos:

• ROLAP (Relational OLAP) – Físicamente, el almacén de datos se construye sobre una base de datos relacional.

• MOLAP (Multidimensional OLAP) – Físicamente, el almacén de datos se construye sobre estructuras basadas en matrices multidimensionales.

Una de las formas más eficientes de implementar un datamart multidimensional mediante bases de datos relacionales, se basa en ignorar casi completamente la estructura de los datos de las fuentes de origen y utilizar una nueva estructura denominada startflake [Hernández 2004]. Esta estructura combina los esquemas de estrella y de estrella jerárquica.

Para construir esta estructura se construyen tres tipos de tablas:

• Tablas copo de nieve (snowflake tables) – Para cada nivel de agregación de una dimensión se crea una tabla. Cada tabla tiene una clave primaria y tantas claves ajenas como sean necesarias para conectar con los niveles superiores.

• Tablas de hechos (fact tables) – Se crea una única tabla de hechos por datamart. Se

incluye un atributo para cada dimensión.

• Tablas estrella (star tables) – Para cada dimensión se crea una tabla que tiene un atributo para cada nivel de agregación diferente en la dimensión.

Fig. 2.3 Visualización de un Hecho en un Modelo Multidimensional.

Page 32: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

20

En el capítulo 3 se presentan ejemplos de aplicación del modelo multidimensional y del modelo ROLAP.

2.3. EL PROBLEMA DE AGRUPAMIENTO Y EL ALGORITMO DE K-MEANS

De acuerdo a [Hansen 2005], el análisis de agrupamiento consiste en resolver el siguiente problema muy general: dado un conjunto X de n entidades/objetos, que frecuentemente se representan mediante puntos del espacio d-dimensional, encontrar subconjuntos de X que son homogéneos y/o bien-separados. Homogeneidad quiere decir que las entidades en el mismo cluster deben ser similares y que las entidades en clusters diferentes deben de diferir una de otra. Estos conceptos se pueden precisar de diversas formas, lo cual se traduce en muchos problemas de agrupamiento y aún más, en algoritmos heurísticos o exactos. De tal forma que el agrupamiento o clustering es un tema muy basto. Los trabajos de [Xu 2005] y [Wu 2008] proporcionan un buen panorama general acerca del tema de agrupamiento e incluye un conjunto de referencias fundamentales.

De acuerdo a [Hansen 2005], las n entidades a ser agrupadas se pueden representar mediante puntos xj = (xj1, xj2, …., xjd) en Rd para j = 1, …., n; los k centroides se deben calcular y se pueden representar como mi Є Rd para i = 1, …, k. El problema de agrupamiento, visto como un problema de optimización se puede expresar de la forma siguiente:

min �= ∑ ∑ ��,�(∑ (��,�− � �,�)����

�����

���� )

es decir, minimizar la suma de las distancias al cuadrado de cada objeto a su centróide mi.

sujeto al valor de la variable de decisión zij que es igual a 1 si el punto j es asignado al cluster i, a partir de su centroide y es 0 en otro caso. Y en donde,

∑∑

=

== n

j ji

n

j ljjili

z

xzm

1 ,

1 ,,, , ∀ ki ...,,2,1= y

el nuevo centroide mi. se calcula utilizando la nueva clasificación.

Entre los algoritmos de agrupamiento basados en la minimización de una función objetivo o en el error al cuadrado, quizás el más ampliamente utilizado y estudiado es el llamado algoritmo de K-Means. Este algoritmo ha sido formulado por varios investigadores en diferentes disciplinas, entre los que destacan [Lloyd 2002], [MacQueen 1967] y [Forgy 1965], y se compone de los siguientes pasos:

dl ...,,2,1=

Page 33: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

21

1. Establecer los K puntos que representan el grupo de centroides iniciales.

2. Asignar cada objeto al grupo que tiene el centroide más cercano.

3. Cuando todos los objetos han sido asignados, volver a calcular las posiciones de los K centroides.

4. Repita los pasos 2 y 3 hasta que los centroides ya no se muevan. Esto produce una separación de los objetos en grupos cuya métrica a minimizar se puede calcular.

En relación a este algoritmo, en [Pérez 2007b] se especifican y detallan los pasos anteriores: Paso 1. Inicialización. Se definen un conjunto de objetos a particionar, el número de grupos y un centroide por cada grupo. Algunas implementaciones del algoritmo estándar determinan los centroides iniciales de forma aleatoria; mientras que otros procesan los datos y determinan los centroides mediante cálculos. Paso 2. Clasificación. Para cada objeto de la base de datos, se calcula su distancia a cada centroide, se determina el centroide más cercano, y se incorpora el objeto al grupo relacionado con ese centroide. El criterio de distancia más utilizado es la norma Euclideana. Paso 3. Cálculo de Centroides. Para cada grupo generado en el paso anterior se vuelve a calcular su centroide. Paso 4. Condición de convergencia. Se han utilizado varias condiciones de convergencia, de las cuales las más utilizadas son las siguientes: converger cuando no existe un intercambio de objetos entre los grupos, o converger cuando la diferencia entre los centroides de dos iteraciones consecutivas es más pequeña que un umbral dado. Si la condición de convergencia no se satisface, se repiten los pasos dos, tres y cuatro del algoritmo. Existe una amplia gama de trabajos de investigación dedicados a tratar de mejorar la eficiencia y eficacia de este algoritmo, enfocándose en aspectos específicos de cada uno de sus pasos. Por ejemplo, en [Pérez 2007b] se ha propuesto un nuevo criterio de convergencia para K-Means y en este trabajo, se analiza la factibilidad de simplificar los cálculos en la fase de clasificación. Adicionalmente, en [Pérez 2009] se han identificado y analizado las diferentes líneas de investigación sobre K-Means y algunos trabajos relacionados.

Page 34: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

22

2.3.1 Evaluación de los Modelos de Agrupamiento

Los modelos de agrupamiento son difíciles de evaluar debido a que no existe una clase o valor de referencia a partir del cual se pueda medir las veces que el modelo resultante predice correctamente.

Desde el punto de vista numérico, una medida de evaluación para un modelo de agrupamiento utilizado frecuentemente, es aquella que nos indica que tan compactos son los grupos del modelo. Con base en el planteamiento de la sección 2.3, es la suma de los errores cuadráticos de cada grupo. En este caso, el modelo está formado por los M grupos.

En [Hernández 2004], se indica que la mejor evaluación de este tipo de modelos es saber si el modelo resultante de la fase de aprendizaje tiene un comportamiento útil cuando se utiliza en su área de aplicación.

2.4. MINERÍA DE DATOS ESPACIALES

Aunque la gran mayoría de las Bases de Datos que se procesan en los proyectos de Minería de Datos son Bases de Datos estructuradas, como las relacionales, existen algunas aplicaciones que requieren otros tipos de Bases de Datos que contienen datos complejos y/o heterogéneos, dando lugar a diferentes tipos de Minería de Datos, tales como, la Minería de Datos espaciales, multimedia, temporales, etc.

Una Base de Datos espacial es una Base de Datos que contiene datos pertenecientes a un determinado espacio, p. ej. Una Base de Datos sobre los inmuebles de una ciudad. Un concepto clave en las Bases de Datos espaciales es, lógicamente, la dimensión espacio. Esta dimensión establece el marco de referencia donde ubicar los datos. Ejemplos de espacios de dos dimensiones son: el mapa urbano de una ciudad y el diseño de una placa VLSI (very large scale integration), y en tres dimensiones: un modelo del cerebro, una proteína, etc.

Una Base de Datos espacial debe ser capaz de tratar con una gran cantidad de datos, así como de tecnología para tratar datos espaciales.

Un sistema de información espacial o geográfica SIG (en inglés, GIS – Geographic Information Systems) es un conjunto de métodos, herramientas y datos que permiten capturar, almacenar, analizar, transformar y presentar toda la información geográfica y de sus atributos almacenada en una base de datos espacial. Por ejemplo, en la figura 2.4 se presenta el tipo de temas que se pueden procesar como capas de información en un GIS.

Page 35: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

23

Fig. 2.4 Ejemplo de Temas en una Base de Datos Espacial.

Para la extracción de conocimiento desde Bases de Datos espaciales, el número de técnicas de Minería de Datos desarrolladas específicamente para este tipo de información es escaso. Sin embargo, las tareas de agrupamiento resultan ser muy adecuadas para este tipo de información, en virtud de que se pretende encontrar grupos de elementos, de manera que los componentes de los grupos sean lo más parecidos entre ellos y lo más diferentes con respecto a los elementos externos al grupo.

Dado que los algoritmos de agrupamiento se basan en distancias entre los componentes, se puede tener directamente en cuenta el componente espacial, para procesarlo junto con algunas otras variables mediante el algoritmo de K-Means.

En los capítulos siguientes, se documenta la aplicación de los conceptos y elementos metodológicos anteriormente presentados para identificar regiones con altas tasas de incidencia de cáncer en el país.

Page 36: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

24

Capítulo 3 El Proceso de Integración de Tecnologías

y el Diseño e Implementación

del Almacén de Datos

Con el propósito de establecer un referente para la descripción del proceso que se ha

desarrollado en esta investigación, en este capítulo (basado en el proceso de KDD) se describe el proceso general de integración de tecnologías que se ha realizado, con el fin de identificar las regiones con alta incidencia de cáncer en el país. Así mismo, se describe el proceso de integración, diseño e implementación del almacén de datos que sustenta el presente estudio.

3.1 EL PROCESO DE KDD APLICADO A LA IDENTIFICACIÓN DE REGIONES CON ALTAS TASAS DE INCIDENCIA DE CÁNCER EN MÉXICO

En esta sección se describe la metodología adoptada para el desarrollo del presente

trabajo. Dicha metodología se basa en las etapas del proceso de KDD y en la integración de tecnologías especializadas de Minería de Datos, las cuales son, Almacenes de Datos, Agrupamiento y Sistemas de Información Geográficos.

En la figura 3.1 se proporciona un esquema de la aplicación de las fases del proceso de KDD, las tecnologías y herramientas asociadas con cada producto o actividad involucrada, así como las entradas y salidas correspondientes a cada fase del proceso.

Page 37: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

25

Fig. 3.1 Aplicación del proceso de KDD para el estudio sobre incidencia de cáncer.

Page 38: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

26

Además de las fases que se describen a continuación, existe una fase previa de análisis de necesidades de la organización y definición del problema. En dicha fase se establecen los objetivos de la tarea de Minería de Datos a desarrollar, la cual para este caso, consiste en encontrar las regiones de municipios con altas tasas de incidencia de cáncer en el país, con el objetivo de promover acciones que contribuyan a disminuir los índices de mortandad por cáncer en México. A continuación se describen las actividades asociadas a cada fase del proceso de Minería de Datos desarrolladas en este trabajo. Su descripción se complementa en las secciones y capítulos subsecuentes de este documento. a) La Fase de Integración y Recopilación de la Información del Trabajo de Tesis Se acudieron a las fuentes de datos oficiales para obtener la información censal relacionada con los datos poblacionales y la localización geográfica real de los municipios, a través de INEGI [INEGI]; y para obtener la información relacionada con los índices de mortandad por cáncer en el país, con las Bases de Datos del Instituto Nacional de Salud [INSP] . La conformación de las Bases de Datos recopiladas se realizó a través de los sistemas y subsistemas disponibles de dichos organismos; el Sistema de Información Geográfico IRIS del INEGI [IRIS] y el Subsistema SCRIS del Instituto Nacional de Salud [INSP] . La información recopilada se integró en un almacén de datos. El diseño del almacén de datos se basa en el modelo multidimensional, a nivel conceptual, y en el modelo ROLAP, a nivel de implementación. b) La Fase de Selección, Limpieza y Transformación de los Datos del Trabajo de

Tesis Con base en los índices de mortandad por cáncer de los municipios, y con el objeto de estandarizar los valores, se realizó el cálculo de la tasa de mortandad. Esta tasa es un indicador poblacional que determina la proporción de decesos por cada cien mil habitantes y ofrece información más significativa cuando se requiere establecer regiones con alta incidencia de cáncer. Debido a que IRIS almacena la representación geográfica de los municipios por medio de un polígono y en el formato vectorial estandarizado shape, surgió la necesidad de disponer de un proceso de transferencia de formas y formatos. El objetivo de tener este proceso es disponer de una representación numérica de la localización espacial de cada municipio y, que en este caso, correspondiera a un punto (x, y). Este punto es relativo al centro del polígono de localización del municipio y en el plano cartesiano, y se consiguió a través de las herramientas del GIS ArcInfo de ESRI [ESRI] .

Page 39: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

27

En relación con la preparación de los datos para la tarea de Minería de Datos a realizar, se seleccionaron los atributos de tasa de incidencia y coordenadas de localización (x, y) de los municipios desde el almacén de datos. c) La Fase de Minería de Datos del Trabajo de Tesis Para establecer las regiones de municipios con altas tasas de incidencia de cáncer, se realizó una tarea de agrupamiento por afinidad de tasa de incidencia y de localización de los municipios. Para ello, se utilizó el algoritmo de K-Means, el cual proporciona como resultado un modelo conformado por grupos de municipios y sus respectivos centroides. Dada la representación numérica de la localización geográfica de cada municipio por medio de un punto (x, y), junto con la tasa de incidencia de cáncer (tasa), y con el entorno de programación Matlab [MathWorks] se llevó a cabo la tarea de agrupamiento de Minería de Datos, a través del algoritmo de K-Means, con el propósito de generar los patrones y/o grupos de municipios y los centroides correspondientes. d) La Fase de Evaluación e Interpretación del Trabajo de Tesis Con objeto de facilitar y apoyar las tareas de evaluación e interpretación de las regiones encontradas en la fase anterior, se desarrolló una representación visual para las mismas, a través de las facilidades proporcionadas por el Sistema de Información Geográfico IRIS del INEGI. Este sistema incorpora también la cartografía necesaria para la visualización de los patrones identificados en el estudio. Para poder visualizar cada grupo de municipios y el centroide correspondiente, fue necesario realizar la transferencia de formatos de datos numéricos a formato shape, de manera similar a lo realizado en la fase de selección y limpieza, utilizando las facilidades de las herramientas del Sistema de Información Geográfico ArcInfo. Una vez que los resultados tienen el formato adecuado, éstos se transfieren como capas al GIS IRIS para su visualización sobre el mapa de la orografía de la República Mexicana, también del INEGI. Por otra parte, con objeto de validar los resultados obtenidos en su campo de aplicación, para cada tipo de cáncer investigado, se cotejaron los resultados con aquellos estudios realizados en el área de la salud.

Page 40: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

28

e) La Fase de Difusión del Trabajo de Tesis En la fase anterior, para las regiones identificadas con las tasas de incidencia más altas de cáncer cérvico-uterino y de hígado en México, junto con referencias de estudios realizados en el área de salud, se encontró un conjunto de posibles factores asociados. Dichos factores permiten indicar para cada caso un conjunto de medidas que coadyuven a reducir los índices de mortandad para los estos tipos de cáncer en el país. En las siguientes secciones y capítulos se describen aspectos y detalles que complementan las etapas anteriores. 3.2 INTEGRACIÓN, DISEÑO E IMPLEMENTACIÓN DEL ALMACÉN DE

DATOS

En esta sección se describen los aspectos relacionados con la integración, diseño e implementación del almacén de datos, asociado con el estudio realizado. 3.2.1 Fuentes de Datos, Bases de Datos Poblacionales y Geográficas

La principal fuente de datos para el estudio realizado, son los registros oficiales del Instituto Nacional de Estadística Geografía e Informática (INEGI) de México. Sin embargo, existen diferentes organismos e instrumentos ya desarrollados que ofrecen un conjunto de facilidades para procesar y recuperar la información de manera más especializada.

El Instituto Nacional de Salud Pública (INSP) cuenta con un Núcleo de Acopio y Análisis de Información de Salud (NAAIS) y un subsistema llamado Sistema de Consulta Remota de Información en Salud (SCRIS), que en particular, permite realizar consultas a las Bases de Datos por mortalidad en casos de cáncer. Además, permite configurar las Bases de Datos resultantes mediante opciones, tales como, nivel de agregación (nacional, estados), división (jurisdicción, municipios), año, rango de edad, género y causas (p. ej. Tumores/Neoplasias). Los datos sobre la incidencia de los diferentes tipos de cáncer se obtuvieron de los registros oficiales anteriores y fueron procesados para ser estandarizados, para así obtener el indicador demográfico, tasa promedio, por medio de la siguiente fórmula:

000,100*poblacionincidenciatasa =

Esta fórmula expresa el número de muertes por cada cien mil habitantes de acuerdo a la población registrada en el municipio, en este caso, según censo del año 2000. Además, obedece a las convenciones del área de la salud, que establecen que con objeto de estudiar

Page 41: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

29

las enfermedades epidemiológicas, únicamente se consideren los municipios mayores a cien mil habitantes.

Por otra parte, la información relativa a la población y a la localización geográfica real de los municipios fue obtenida de las Bases de Datos oficiales del INEGI, por medio de su Sistema de Información Geográfica IRIS. Este sistema cuenta con información estadística y geográfica que abarca una gran cantidad de temas de índole demográfico, social y económico. Además, comprende aspectos sobre el medio físico, los recursos naturales y la infraestructura. Este acervo de datos estadísticos y geográficos se obtuvo a través de diversas actividades como son, la realización de censos de población y vivienda, censos económicos, así como la generación de cartografía básica y censal.

Fig. 3.2 Modelo Multidimensional de Almacén de Datos sobre Incidencia de Cáncer.

La información correspondiente a la localización geográfica de los municipios, se procesó por medio de las técnicas que se describen en el capítulo 5 y Anexo A del presente documento. El objetivo de este procesamiento es obtener una referencia de la localización física real del municipio por medio de un punto (x, y), que fuera también numéricamente más adecuado para la tarea de agrupamiento a realizar.

La información de las Bases de Datos de las instituciones anteriores, fue integrada en un almacén de datos, y de acuerdo a las convenciones ya mencionadas del área de la salud, únicamente se consideraron los municipios de más de cien mil habitantes, para este estudio.

Page 42: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

30

3.2.2 El Modelo Multidimensional del Almacén de Datos

El diseño del almacén de datos está basado en el modelo multidimensional, a nivel conceptual [Hernández 2004]. En el modelo se pueden distinguir las dimensiones CAUSA, TIEMPO y LUGAR. Se considera que un país tiene como hecho básico, decesos, el cual puede tener atributos asociados como número de casos, índice de incidencia, tasa, media, varianza, etc., detallándose en varias dimensiones como, causa de la defunción, lugar de la defunción y fecha de la defunción, etc.

En la figura 3.2 se representan los hechos decesos y tres dimensiones con varios niveles de agregación. Las flechas se pueden leer como “se agrega en”. Además, cada dimensión tiene una estructura jerárquica no necesariamente lineal.

Fig. 3.3 Visualización de un Hecho en un Modelo Multidimensional.

Cuando el número de dimensiones no excede de tres, podemos representar cada combinación de niveles de agregación como un cubo. El cubo está formado por casillas, con una casilla para cada valor entre los posibles para cada dimensión a su correspondiente nivel de agregación. Sobre esta “vista”, cada casilla representa un hecho. En la figura 3.3 se muestra un cubo tridimensional correspondiente al hecho: De acuerdo al censo del año 2000, en el municipio de Atlixco, ocurrieron 15 decesos por cáncer cérvico-uterino, en donde las dimensiones Causa, Lugar y Tiempo se han agregado por tipo de enfermedad (Cáncer), Municipio y Censo. La representación de un hecho corresponde, por tanto, a una casilla en dicho cubo. El valor de la casilla es la medida observada (en este caso, es el número de decesos).

Page 43: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

31

3.2.3 El Modelo ROLAP del Almacén de Datos Una de las formas más eficientes de implementar un modelo multidimensional con Bases de Datos relacionales, es a través del modelo ROLAP [Hernández 2004]. En nuestro caso, las tablas correspondientes al modelo ROLAP tienen los siguientes esquemas:

Tablas copo de nieve (snowflake tables)

Dimensión Causa

ENFERMEDAD(Clave_Enfermedad, nombre, IdGama, IdCategoria)

GAMA(IdGama, IdCategoría, descripción)

CATEGORIA(IdCategoria, descripción)

Dimensión Lugar

ESTADO(Clave_Estado, nombre, población_total)

MUNICIPIO(Clave_Municipio, Clave_Estado, nombre, población_total, Loc_x, Loc_y,

extensión, tipo_zona, nivel_socioeconómico)

Dimensión Tiempo

AÑO(IdAño)

CENSO(IdCenso, IdAño, Número, nombre)

Tabla de Hechos (Fact Tables)

DECESO(IdEnfermedad, IdCenso, IdMunicipio, no_casos, tasa, media, varianza)

Tablas Estrella (Star Tables)

TIEMPO(Idaño, IdCenso)

CAUSA(IdEnfermedad, IdGama, IdCategoría)

LUGAR(IdCiudad, IdMunicipio)

El almacén de datos implementado se utiliza como entrada para realizar la tarea de agrupamiento que se describe en el siguiente capítulo.

Page 44: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

32

Capítulo 4 Evaluación de K-Means en Matlab.

Resultados en la identificación de Cáncer

Cérvico-Uterino y del Hígado por Regiones

de México

El presente trabajo forma parte de un proyecto global enfocado a realizar propuestas

de mejora al algoritmo de K-Means en aspectos tales como, su eficacia y eficiencia, que han sido reportados en diversas publicaciones [Basave 2005], [Pérez 2007b] y [Pérez 2007a], así como su aplicación en el campo de la salud.

En el presente capítulo se indican los resultados de la evaluación del algoritmo bajo el entorno de programación de Matlab [MathWorks] y se establece un marco de referencia para mostrar que es factible mejorar el desempeño del algoritmo, a través de la simplificación de los costosos cálculos del criterio de similitud, en este caso, de la norma euclideana. Así mismo, se incluyen los resultados del agrupamiento realizado por medio de K-Means de Matlab, basado en la afinidad de localización de los municipios y en la tasa de incidencia, con el propósito de identificar regiones con altas tasas de incidencia de cáncer cérvico-uterino y del hígado del país.

Page 45: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

33

4.1 K-MEANS EN MATLAB Y SU EVALUACIÓN Para realizar la tarea de agrupamiento de la Minería de Datos, se utilizó la versión del

algoritmo de K-Means de Matlab (Laboratorio de Matrices y Entorno de Programación) de The Math Works Inc. [MathWorks], la cual tiene la siguiente sintaxis general:

[IDX, C, SUMD, D] = KMEANS(X, K)

K-Means particiona los puntos de una matriz de datos X de N-por-P dentro de K clusters.

Devuelve como resultados:

• Un vector IDX de N por 1 con los índices de cluster de cada punto. • Localización de los K centroides de cluster en la matriz C de K-por-P. • Suma de las distancias de los puntos a los centroides dentro de cada cluster en el

vector SUMD de 1-por-K • La distancia de cada punto a su centroide en la matriz D.

Con el propósito de establecer un marco de referencia y ejemplificar que es factible simplificar los cálculos relacionados con el criterio de similitud del algoritmo de K-Means, se realizó una evaluación de su desempeño en el entorno de programación de Matlab, utilizando las bases de datos Iris, Glass y Wine del UCI Machine Learning Repository. Algunos de los resultados de las pruebas realizadas, se reportan en las publicaciones [Pérez 2007a] y [Pérez 2009] .

El UCI Machine Learning Repository [UCI] representa una colección de bases de datos ampliamente utilizada por la comunidad de investigadores de Aprendizaje Automático, en particular, para el análisis empírico de los algoritmos de esta disciplina. Actualmente, se manejan 177 bases de datos y se mantiene actualizado de manera constante. Como ejemplo, una de las fuentes de datos ampliamente conocida por los especialistas en Minería de Datos, es la Base de Datos IRIS, la cual se identifica originalmente como Iris Data Set y su descripción general es la siguiente.

Iris Data Set; Creado por R.A. Fisher [Fisher 1936] y donado a la [UCI] .

Page 46: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

34

El Iris dataset contiene 3 clases de 50 instancias cada una. Cada clase se relaciona con un tipo de planta Iris, es decir, Iris Setosa, Iris Versicolor e Iris Virginica. Una clase es linealmente separable de las otras dos, mientras que las últimas no son linealmente separables unas de otras. Sus atributos son, longitud de sépalo, anchura de sépalo, longitud de pétalo y anchura de pétalo; todos los atributos se miden en centímetros.

Fig. 4.1 Datos del Iris Data Set.

La figura 4.2 muestra una representación en tres dimensiones para los datos de Iris data set [UCI], y con propósito ilustrativo, se han considerado sólo los atributos longitud de sépalo, longitud de pétalo y anchura de pétalo.

A continuación, la tabla 4.1 presenta un resumen de la información de las Bases de Datos del repositorio UCI, utilizadas en las pruebas experimentales realizadas.

Tabla 4.1 Información de las Bases de Datos Experimentales.

Base de Datos Núm. de Grupos Núm. de Atributos Núm. de Instancias Iris 3 4 150

Glass 7 9 214 Wine 3 13 178

00.5

11.5

22.5

02

4

68

4

5

6

7

8

Petal WithPetal Lenght

Sep

al L

engh

t

Page 47: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

35

Como resultado de las pruebas realizadas para la base de datos IRIS, y respecto a la calidad de la solución del algoritmo, en la figura 4.2 se muestra el comportamiento de la función de error, que acorde a [Hernández 2004], se establece como una medida de la calidad del agrupamiento. En la gráfica 4.2 se puede observar que ésta medida decrece según el algoritmo converge, lo que significa que los grupos tienden a ser compactos y diversos entre sí.

Fig. 4.2 Total de Suma de Distancias.

Por otra parte, con respecto a los puntos intercambiados, en la figura 4.3 se puede observar claramente cómo el porcentaje de puntos intercambiados decrece también, en la medida en que el algoritmo converge. Esto significa que el número de intercambios de puntos más significativo ocurre en las primeras iteraciones del algoritmo.

Fig. 4.3 Porcentaje de Puntos Intercambiados.

La tabla 4.2, incluye una síntesis de los resultados de 25 pruebas realizadas sobre cada una de las Bases de Datos experimentales. En ella se distinguen de izquierda a derecha, los siguientes atributos: nombre de la Base de Datos, número de iteraciones mínimo, promedio y máximo, el número de puntos intercambiados de la primera a la segunda iteración,

0 2 4 6 8 10 12 1450

100

150

200

250

300

350

400

450

No. de iteraciòn

Tota

l de

Sum

a de

Dis

t.

0 2 4 6 8 10 12 140

10

20

30

40

50

60

70

80

90

100

No. de iteraciòn

% d

e Pt

os. I

nter

c

Page 48: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

36

mínimo, promedio y máximo y el promedio del porcentaje de puntos intercambiados de la primera a la segunda iteración.

Tabla 4.2 Número de Iteraciones y de Puntos Intercambiados para B.D. Experimentales.

Base De Datos Núm. de Iteraciones

Puntos Intercambiados De 1ª a 2ª Iteración

Prom. % Puntos 1a-2a Iteración

Min. Prom. Max. Min. Prom. Max.

IRIS 3 7.2 14 3 18.8 73 87.44 GLASS 6 17.32 28 26 54 98 74.77 WINE 5 8.44 13 5 20.72 43 88.36

Los resultados observados en las pruebas realizadas permiten establecer un marco de referencia. Esto demuestra que durante la primera y segunda iteración del algoritmo, se realiza el mayor intercambio de puntos y, en consecuencia, el cálculo de la medida de similitud o distancia (norma Euclideana), sólo es necesario efectuarla sobre la mayoría de los puntos (en estas dos primeras iteraciones) y, en los pasos subsecuentes, sólo se necesita realizar en forma selectiva. Por lo anterior, es posible simplificar los cálculos que realiza el algoritmo y, por consiguiente, mejorar su tiempo de ejecución.

En este trabajo se ha desarrollado una versión propia del algoritmo de K-Means para Matlab y se plantea en un futuro, actualizar esta versión para considerar la mejora del algoritmo propuesta.

4.2 AGRUPAMIENTO MEDIANTE K-MEANS SOBRE INCIDENCIA DE CÁNCER Para esta investigación se realizó una tarea de agrupamiento de acuerdo a la afinidad

de localización de los municipios y a su tasa de incidencia. Se realizaron un conjunto de pruebas experimentales sobre los almacenes de datos para municipios con más de 100,000 habitantes acorde al censo del año 2000. Se consideraron grupos de tamaño k igual a 5, 10, 15, 20 y 30. El mejor resultado se obtuvo para k igual a 20, con relación a estudios previamente realizados [Pérez 2007a], [Mexicano 2007], [Salinas 2007] y en concordancia con los resultados publicados en el área de medicina [Hidalgo 2006], [Rangel 2010], y [Hernández 2007]. Como un caso de estudio, en este capítulo se presentan los resultados obtenidos mediante K-Means de Matlab y para los almacenes de datos de cáncer cérvico-uterino y de hígado. En el capítulo 5, junto con la visualización de estos resultados, se realiza un análisis y validación de los mismos en su campo de aplicación.

Page 49: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

37

4.2.1 Caso Cáncer Cérvico-Uterino Las tablas 4.3, 4.4 y 4.5 muestran los resultados del agrupamiento realizado para los

tres grupos de municipios con las tasas de incidencia más altas de cáncer Cérvico-Uterino. En dichas tablas se distinguen los atributos correspondientes a la Clave del Municipio, Nombres del Estado y Municipio, la Población Total, el Número de Decesos (ND), la Tasa de Incidencia y las coordenadas de localización (x_coord, y_coord) relativas al centro del Municipio. Así mismo y a manera de referencia, se incluyen las medidas estadísticas de media y desviación estándar, asociadas al grupo correspondiente.

Tabla 4.3 Grupo 8 – Atlixco, Cáncer Cérvico-Uterino.

Clave Estado Municipio Pob_total ND Tasa x_coord y_coord 21019 Puebla Atlixco 117111 15 12,80 2873087,768 771823,2257 17006 Morelos Cuautla 153329 14 9,13 2820360,194 762132,1781 21132 Puebla San Martín Texmelucan 121071 8 6,60 2874236,793 812332,9584 21114 Puebla Puebla 1346916 54 4,00 2903484,384 787614,6556 Media 8.13 Desviación Estándar 3.74

Tabla 4.4 Grupo 4 – Apatzingán, Cáncer Cérvico-Uterino.

Clave Estado Municipio Pob_total ND Tasa x_coord y_coord 16006 Michoacán de Ocampo Apatzingán 117949 13 11,0 2455776,05 774866,47 06007 Colima Manzanillo 125143 11 8,78 2252094,55 794141,47 16052 Michoacán de Ocampo Lázaro Cárdenas 171100 13 7,59 2451765,25 677081,25 06002 Colima Colima 129958 8 6,15 2326017,8 790116,44 16102 Michoacán de Ocampo Uruapan 265699 7 2,63 2496420,343 823145,69 Media 7.23 Desviación Estándar 1.00

Tabla 4.5 Grupo 7 – Tapachula, Cáncer Cérvico-Uterino.

Clave Estado Municipio Pob_total ND Tasa x_coord y_coord 07089 Chiapas Tapachula 271674 27 9,93 3546650,583 362341,6826 30039 Veracruz-Llave Coatzacoalcos 267212 23 8,60 3299609,35 703731,4796 30108 Veracruz-Llave Minatitlán 153001 13 8,49 3306480,752 656608,9289 07019 Chiapas Comitán de Domínguez 105210 8 7,60 3551424,437 514181,7133 07078 Chiapas San Cristóbal de las Casas 132421 9 6,79 3529919,402 544094,3168 27005 Tabasco Comalcalco 164637 11 6,68 3416743,41 727259,7238 27002 Tabasco Cárdenas 217261 11 5,06 3376597,24 713458,6068 27008 Tabasco Huimanguillo 158573 8 5,04 3376026,208 665966,9785 07101 Chiapas Tuxtla Gutiérrez 434143 21 4,83 3445721,409 557766,1928

Page 50: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

38

27006 Tabasco Cunduacán 104360 5 4,79 3428282,625 705448,0846 04003 Campeche Carmen 172076 8 4,64 3590524,246 759410,4346 27012 Tabasco Macuspana 133985 6 4,47 3513723,912 684865,8386 27004 Tabasco Centro 520308 23 4,42 3460478,052 701131,2864 07059 Chiapas Ocosingo 146696 2 1,36 3619938,076 562008,0323 Media 5.91 Desviación Estándar 2.23

4.2.1.1 Análisis General de Resultados sobre Cáncer Cérvico-Uterino La tabla 4.6, muestra los resultados con las tasas más altas de incidencia de cáncer Cérvico-Uterino por municipios del país, que encabezan los grupos correspondientes. Del mismo modo, la figura 4.4 representa una gráfica de las tasas de incidencia anteriores junto con la media y desviación estándar del país.

Tabla 4.6 Datos de los Diez Municipios con las Tasas de Incidencia más altas de Cáncer Cérvico-Uterino.

Clave Estado Municipio Población Decesos Tasa 21019 Puebla Atlixco 117111 15 12,80 16006 Michoacán Apatzingán 117949 13 11,02 07089 Chiapas Tapachula 271674 27 9,93 17006 Morelos Cuautla 153329 14 9,13 28021 Tamaulipas El Mante 112602 10 8,88 06007 Colima Manzanillo 125143 11 8,78 30039 Veracruz-Llave Coatzacoalcos 267212 23 8,60 18017 Nayarit Tepic 305176 26 8,51 30108 Veracruz-Llave Minatitlán 153001 13 8,49 30118 Veracruz-Llave Orizaba 118593 10 8,43 Media General del País 4.70 Desviación Estándar del País 1.95

Page 51: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

39

Fig. 4.4 Los 10 Municipios con las Tasas de Incidencia más altas de Cáncer Cérvico-Uterino.

Cómo se puede observar en la figura 4.4, el municipio de Atlixco se encuentra muy por arriba de los estándares relativos y la tasa promedio de incidencia de este tipo de cáncer en México. Además, sobresalen los municipios de Apatzingán y Tapachula, lo que pone en evidencia la urgente necesidad de impulsar programas preventivos y de control en tales regiones, con el objeto de evitar los factores de riesgo asociados a este tipo de cáncer. Dichos factores ya han sido identificados por los especialistas en el área [Hidalgo 2006], [Rangel 2010]. 4.2.2 Caso Cáncer de Hígado

Las tablas 4.7, 4.8 y 4.9 muestran los resultados del agrupamiento realizado para los

tres grupos de los municipios con las tasas más altas de incidencia de cáncer de hígado identificadas en este trabajo. Evidentemente se utilizan los mismos atributos para las tablas que en el caso del cáncer cérvico-uterino.

Tabla 4.7 Grupo 10 – Poza Rica de Hidalgo, Cáncer de Hígado.

Clave Estado Municipio Pob_total ND Tasa x_coord y_coord 30131 Veracruz-Llave Poza Rica de Hidalgo 152838 19 12,43 2972682,41 955162,72 30102 Veracruz-Llave Martínez de la Torre 119166 11 9,23 3015482,15 910909,20 30189 Veracruz-Llave Túxpam 126616 11 8,68 2975514,05 999219,19 30124 Veracruz-Llave Papantla 170304 14 8,22 2987797,14 942597,84 13028 Hidalgo Huejutla de Reyes 108239 7 6,46 2867245,86 1019263,04 30160 Veracruz-Llave Temapache 102946 4 3,88 2943835,74 1004326,22 Media 8.15 Desviación Estándar 2.85

Page 52: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

40

Tabla 4.8 Grupo 16 – Minatitlán, Cáncer de Hígado.

Clave Estado Municipio Pob_total ND Tasa x_coord y_coord 30108 Veracruz-

Llave Minatitlán 153001 17 11,11 3306480,752 656608,92

07089 Chiapas Tapachula 271674 18 6,62 3546650,583 362341,68 04003 Campeche Carmen 172076 10 5,81 3590524,246 759410,43 07078 Chiapas San Cristóbal de las Casas 132421 7 5,28 3507045,625 554960,89 30039 Veracruz-

Llave Coatzacoalcos 267212 14 5,23 3299609,35 703731,47

27012 Tabasco Macuspana 133985 7 5,22 3513723,912 684865,83 07059 Chiapas Ocosingo 146696 7 4,77 3619938,076 562008,03 27004 Tabasco Centro 520308 24 4,61 3460478,052 701131,28 27005 Tabasco Comalcalco 164637 7 4,25 3416743,41 727259,72 27002 Tabasco Cárdenas 217261 9 4,14 3376597,24 713458,60 27006 Tabasco Cunduacán 104360 4 3,83 3428282,625 705448,08 07101 Chiapas Tuxtla Gutiérrez 434143 16 3,68 3445721,409 557766,19 07019 Chiapas Comitán de Domínguez 105210 3 2,85 3551424,437 514181,713 27008 Tabasco Huimanguillo 158573 1 0,63 3376026,208 665966,97 Media 4.86 Desviación Estándar 2.30

Tabla 4.9 Grupo 18 – Orizaba, Cáncer de Hígado.

Clave Estado Municipio Pob_total ND Tasa x_coord y_coord 30118 Veracruz-Llave Orizaba 118593 14 11,80 3013810,38 771379,03 20184 Oaxaca Sn Juan Bautista Tuxtepec 133913 11 8,21 3125707,14 686858,81 20067 Oaxaca Oaxaca de Juárez 256130 20 7,80 3061420,52 578190,80 30044 Veracruz-Llave Córdoba 177288 13 7,33 3031793,35 779254,02 30193 Veracruz-Llave Veracruz 457377 32 6,99 3105136,40 810888,57 30028 Veracruz-Llave Boca del Río 135804 9 6,62 3117799,48 803422,35 30141 Veracruz-Llave San Andrés Tuxtla 142343 9 6,32 3211996,59 735619,63 30087 Veracruz-Llave Xalapa 390590 20 5,12 3035012,78 847727,59 21156 Puebla Tehuacán 226258 8 3,53 2982287,05 727073,07 Media 7.08 Desviación Estándar 2.27

4.2.2.1 Análisis General de Resultados sobre Cáncer de Hígado La tabla 4.10, muestra los resultados con las tasas más altas de incidencia de cáncer

de hígado por municipios del país. Además, la figura 4.5 incluye una gráfica de las tasas de incidencia anteriores junto con la media y desviación estándar del país.

Page 53: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

41

Tabla 4.10 Datos de los 10 Municipios con las Tasas de Incidencia más altas de Cáncer de Hígado.

Clave Estado Municipio Población Decesos Tasa 30131 Veracruz-Llave Poza Rica de Hidalgo 152838 19 12,43 30118 Veracruz-Llave Orizaba 118593 14 11,80 30108 Veracruz-Llave Minatitlán 153001 17 11,11 12055 Guerrero Taxco de Alarcón 100245 10 9,97 30102 Veracruz-Llave Martínez de la Torre 119166 11 9,23 30189 Veracruz-Llave Túxpam 126616 11 8,68 28009 Tamaulipas Ciudad Madero 182325 15 8,22 30124 Veracruz-Llave Papantla 170304 14 8,22 20184 Oaxaca San Juan Bautista Tuxtepec 133913 11 8,21 28021 Tamaulipas El Mante 112602 9 7,99 Media Gral. Del País 4.33 Desviación Estándar del País 2.18

Como se puede observar en la figura 4.5, los municipios de Poza Rica, Orizaba y Minatitlán, se encuentran muy por arriba de los estándares relativos y tasa promedio de incidencia del país. Esto plantea la imperiosa necesidad de impulsar en esas regiones, programas preventivos enfocados a tratar de controlar o eliminar los factores de riesgo sobre la incidencia de cáncer del hígado. Dichos factores ya han sido identificados por especialistas en el área de la salud [Hernández 2007], tales como la Hepatitis B, Hepatitis C, y la cirrosis hepática, entre otros.

Fig. 4.5 Los 10 Municipios con las Tasas de Incidencia más altas de Cáncer de Hígado.

Page 54: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

42

Capítulo 5 Visualización de Resultados

Las facilidades del GIS IRIS desarrollado por el INEGI, ha permitido visualizar las

regiones de municipios con incidencia de cáncer identificadas en este proyecto. En el presente capítulo se describen las características generales del GIS IRIS, los recursos utilizados para conseguir la visualización mencionada, el proceso realizado para generar las gráficas correspondientes, así como la ilustración y validación del modelo encontrado.

5.1 EL GIS IRIS DEL INEGI

Fig. 5.1 IRIS - Información Referenciada GeoEspacialmente Integrada en un Sistema.

IRIS versión 4.01 es un GIS desarrollado por el INEGI, el cual cuenta con información estadística y geográfica que abarca una gran cantidad de temas de índole demográfico, social y económico; además comprende aspectos sobre el medio físico, los recursos naturales y la infraestructura. Esta colección de datos estadísticos y geográficos se obtuvo a través de diversas actividades como son, la realización de censos de población y vivienda, censos económicos, y a partir de la generación de cartografía básica y censal.

Page 55: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

43

Con objeto de especificar una descripción general de los servicios que ofrece el GIS IRIS, a continuación se incluye una muestra de la descripción que realiza el INEGI [IRIS]: IRIS, bajo el concepto de un Sistema de Información Geográfica, cuenta con servicios que facilitan el estudio de los objetos geográficos a través del conocimiento de su ubicación espacio-temporal, y de sus atributos asociados. Estos servicios brindan al usuario la posibilidad de:

Dimensionar en forma gráfica la información contenida: acercamientos, selección de capas de información, localizaciones, mediciones, etcétera.

Analizar e interpretar los contenidos geográficos y tabulares: operaciones matemáticas, mapas temáticos, gráficos estadísticos, análisis espacial, análisis estadístico básico, etcétera.

Integrar información a través de proyectos: incorporación de información vectorial y ráster, asociación de información documental y tabular, administración de propiedades de despliegue.

Crear, modificar y exportar objetos geográficos vectoriales y tablas de información, modificar la fuente de los datos, y cambiar las proyecciones cartográficas.

Además, brinda una ventaja estratégica para los usuarios al contener información geográfica y estadística integrada, para su inmediata aplicación. Para la ejecución de IRIS 4, se requiere una computadora personal con las siguientes características básicas:

• Procesador Pentium III. • Windows 2000 • 256 Mb de memoria RAM. • 2 GB disponibles en disco duro. • 64 MB de memoria de video. • Unidad lectora de disco compacto. • Monitor SVGA o superior.

Para este proyecto, se utilizó la información estadística en IRIS para obtener la información relacionada con la densidad de población de los municipios. La información geográfica en IRIS se utilizó para obtener un mapa base con la orografía sobre la imagen hipsográfica original del mapa de la República Mexicana y la cartografía correspondiente a la división política a nivel municipal. Esto permitió disponer de la localización geográfica real de los municipios y visualizar mejor los resultados de la agrupación realizada. En las siguientes secciones se proporciona una referencia relacionada con este proceso.

Page 56: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

44

5.2 REPRESENTACIÓN DEL CONOCIMIENTO MEDIANTE IRIS

Para visualizar las regiones de municipios que se generan por afinidad de localización y tasa de incidencia (mediante el algoritmo de K-Means en Matlab), se utilizó como base el mapa de la orografía de la República Mexicana diseñado por el INEGI para el sistema Marco Geoestadístico Municipal 2005 (MGM2005) [INEGI 2005], que se encuentra en IRIS (ver figura 5.2).

A nivel de referencia, es importante señalar que los mapas en IRIS, tienen los siguientes parámetros cartográficos:

• Sistema de representación gráfico, Proyección Conforme de Lambert. • Coordenadas que se expresan en metros. • Formato digital, Datum ITRF 92. • Elipsoide: GRS80

Fig. 5.2 Imagen Hipsográfica original del mapa de la República Mexicana.

En IRIS también se dispone de la división política a nivel estatal y municipal, permitiendo una vista de todos los municipios del país en coordenadas reales. En la figura 5.3 se muestra la representación de los municipios de más de cien mil habitantes mediante un punto. Para poder visualizar un punto sobre cada uno de los municipios, se proporciona una Base de Datos Geográfica con las coordenadas reales de los municipios y en formato shape (Ver Anexo A).

Page 57: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

45

Fig. 5.3 Municipios con más de 100 mil habitantes.

La visualización de grupos y centroides mediante IRIS se logra a través de la agregación de capas a nuestro mapa de referencia, mediante archivos en formato shape que contienen datos relacionados con las coordenadas de los municipios y con los centroides calculados. En un proceso iterativo para cada grupo, se agrega una capa correspondiente a los elementos del grupo y otra al centroide (ver figura 5.4). A través de las facilidades de edición de IRIS, se seleccionan las propiedades de visualización para cada municipio y centroide, tales como símbolo, color y tamaño. En particular, el centroide se representa mediante la amplificación del símbolo seleccionado. Por ejemplo, como resultado del trabajo anterior, en la figura 5.5, se presenta la visualización de las regiones identificadas y correspondientes a la incidencia de cáncer cérvico-uterino.

Page 58: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

46

Fig. 5.4 Agregación de Capa del centroide de un grupo de municipios para IRIS.

Finalmente, en relación al proceso de visualización anterior, cabe señalar que para poder utilizar los recursos disponibles en IRIS para este proyecto, ha sido necesario auxiliarse de otras herramientas de software, tales como el GIS ArcInfo de ESRI, con el propósito de realizar un conjunto de transferencias de formas (polígonos-puntos) y formatos (numérico-shape) de la información. El objetivo de esto es lograr la compatibilidad entre las herramientas utilizadas, es decir, el entorno de programación, Matlab y el GIS IRIS; debido a que se necesita procesar datos numéricos para realizar los cálculos en Matlab, e información geográfica y en formato shape para la visualización de patrones mediante IRIS. En el Anexo A se proporciona una descripción del proceso global que se ha realizado para lograr dichas transferencias. 5.3 VISUALIZACIÓN Y VALIDACIÓN DE PATRONES PARA CÁNCER

CÉRVICO-UTERINO

Se aplicó el algoritmo de K-Means en Matlab para realizar un agrupamiento por afinidad de localización y de tasa de incidencia. Se realizaron un conjunto de pruebas experimentales sobre el almacén de datos de cáncer cérvico-uterino para municipios con más de 100,000 habitantes de acuerdo al censo del 2000. Se consideraron grupos de tamaño 5, 10, 15, 20 y 30. El mejor resultado se obtuvo con el tamaño 20, de acuerdo a estudios realizados previamente [Pérez 2007a] y en concordancia con los resultados publicados en el área de medicina [Rangel 2010].

Page 59: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

47

Fig. 5.5 Regiones con Alta Tasa de Incidencia de Cáncer Cérvico-Uterino.

En la figura 5.5 se muestran las veinte regiones identificadas y con el propósito de diferenciar cada una de ellas, se emplean diferentes símbolos y colores para cada región. Se resalta el municipio con la tasa de incidencia más alta de la región, por medio del símbolo correspondiente pero en forma amplificada.

Entre las regiones identificadas, se resaltan tres regiones que incorporan los municipios con las tasas de incidencia de cáncer cérvico-uterino más altas del país y corresponden a los municipios de Atlixco, Apatzingán y Tapachula. Estas regiones se muestran en la figura 5.6 y se analizan, además, algunos parámetros estadísticos asociados con dichas regiones.

Fig. 5.6 Las tres Regiones con las Tasas más Altas de Incidencia de Cáncer Cérvico-Uterino.

Page 60: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

48

Como se puede observar en las tablas 5.1, 5.2 y 5.3, el grupo de Atlixco reporta la tasa promedio de incidencia más alta (8.13) y está integrada por cuatro municipios. Por otra parte, los grupos de Tapachula y de Apatzingán tienen tasas de promedio de incidencia (7.23) y (5.91), y se conforman de cinco y catorce municipios, respectivamente.

Tabla 5.1 Grupo Atlixco – Puebla.

Estado Municipio Población Tasa Puebla Atlixco 117111 12,8 Morelos Cuautla 153329 9,13 Puebla San Martín Texmelucan 121071 6.60 Puebla Puebla 1346916 4.00 Tasa promedio 8.13 Desviación Estándar 3.74

Tabla 5.2 Grupo Apatzingán.

Estado Municipio Población Tasa

Michoacán de Ocampo Apatzingán 117949 11.0 Colima Manzanillo 125143 8.78 Michoacán de Ocampo Lázaro Cárdenas 171100 7.59 Colima Colima 129958 6.15 Michoacán de Ocampo Uruapan 265699 2.63 Tasa Promedio 7.23 Desviación Estándar 1.00

Cabe resaltar, que como resultado de la tarea de agrupamiento realizada, se descubrió que el municipio de Atlixco es el que registra la tasa de incidencia más alta del país, sin embargo, hasta ahora no había sido reportado en otro tipo de estudios. Por otra parte, algunos municipios de Chiapas ya han sido citados en otro tipo de estudios estadísticos en el área de la salud [Rangel 2010], con una alta incidencia de cáncer cérvico-uterino, que para este caso, nos proporciona una referencia para validar nuestros resultados en el ámbito de la salud.

Tabla 5.3 Grupo Tapachula

Estado Municipio Población Tasa

Chiapas Tapachula 271674 9.93 Veracruz-Llave Coatzacoalcos 267212 8.60 Veracruz-Llave Minatitlán 153001 8.49 Chiapas Comitán de Domínguez 105210 7.60 Chiapas San Cristóbal de las Casas 132421 6.79 Tabasco Comalcalco 164637 6.68 Tabasco Cárdenas 217261 5.06 Tabasco Huimanguillo 158573 5.04 Chiapas Tuxtla Gutiérrez 434143 4.83 Tabasco Cunduacán 104360 4.79 Campeche Carmen 172076 4.64 Tabasco Macuspana 133985 4.47 Tabasco Centro 520308 4.42

Page 61: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

49

Chiapas Ocosingo 146696 1.36 Tasa promedio 5.91 Desviación estándar 2.23

En cuanto a otras referencias para la validación de nuestros resultados, los tres grupos identificados, con las tasas de incidencia más altas (Atlixco, Apatzingán y Tapachula), coinciden con las características de la población señaladas en trabajos del área de medicina [Hidalgo 2006], [Martínez 2004] y [Rangel 2010], en aspectos como, las situaciones de pobreza, la falta de preparación, el inicio de la actividad sexual a temprana edad y la falta de acceso a servicios efectivos de salud. Esto nos permite establecer, acorde a las referencias anteriores, que el agrupamiento realizado es válido en su campo de aplicación. 5.4 VISUALIZACIÓN Y VALIDACIÓN DE PATRONES PARA CÁNCER DE

HÍGADO

En el caso del agrupamiento efectuado para la identificación de las regiones con altas tasas de incidencia de cáncer del hígado, se llevó a cabo un proceso similar al del cáncer cérvico-uterino. En la figura 5.7 se muestran las regiones identificadas, mediante convenciones similares a las que se utilizaron en el caso anterior.

Fig. 5.7 Regiones con Alta Tasa de Incidencia de Cáncer de Hígado.

Entre las regiones identificadas, destacan tres regiones que incorporan los municipios que cuentan con las tasas de incidencia de cáncer de hígado más altas del país, y están encabezadas por los municipios de Poza Rica de Hidalgo, Minatitlán y Orizaba.

Page 62: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

50

Fig. 5.8 Las tres Regiones con las Tasas de Incidencia más Altas de Cáncer del Hígado.

La figura 5.8 muestra las regiones previamente mencionadas y se analizan a continuación, algunos parámetros estadísticos asociados con dichas regiones.

Como se puede observar en las tablas 5.4, 5.5, y 5.6, el grupo de Poza Rica de Hidalgo reporta la tasa promedio de incidencia más alta (8.15) y está conformada por cuatro municipios. Por otro lado, los grupos de Orizaba y de Minatitlán manejan tasas de incidencia de (11.8) y (9.93), y se componen de cinco y catorce municipios, respectivamente.

Tabla 5.4 Grupo Poza Rica de Hidalgo.

Estado Municipio Pob_Total Tasa Veracruz-Llave Poza Rica de Hidalgo 152838 12,4314634

Veracruz-Llave Martínez de la Torre 119166 9,23082087

Veracruz-Llave Túxpam 126616 8,6876856

Veracruz-Llave Papantla 170304 8,22059376

Hidalgo Huejutla de Reyes 108239 6,46716987

Veracruz-Llave Temapache 102946 3,88553222

Tasa Promedio 8.15 Desviación Estándar. 2.85

Con respecto a la validación de los resultados que se han obtenido, se pueden realizar las siguientes observaciones.

Page 63: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

51

Tabla 5.5 Grupo Orizaba.

Estado Municipio Pob_Total Tasa Veracruz-Llave Orizaba 118593 11,8050812 Oaxaca San Juan Bautista Tuxtepec 133913 8,21428838 Oaxaca Oaxaca de Juárez 256130 7,80853473 Veracruz-Llave Córdoba 177288 7,33270159 Veracruz-Llave Veracruz 457377 6,99641652 Veracruz-Llave Boca del Río 135804 6,62719802 Veracruz-Llave San Andrés Tuxtla 142343 6,3227556 Veracruz-Llave Xalapa 390590 5,12045879 Puebla Tehuacán 226258 3,53578658 Tasa Promedio 7.08 Desviación Estándar 2.27

De acuerdo a instituciones especializadas en estudios del cáncer [INC1], [INC2], se consideran como principales factores de riesgo (10 al 20 por ciento de los casos) para el desarrollo de cáncer de hígado, la infección por el virus de la hepatitis B y C y la cirrosis alcohólica. En este último caso, con una incidencia más alta en el género masculino, el cual además, de acuerdo a los últimos estudios realizados [SCIENCE 2010], tiene un factor genético de riesgo.

Tabla 5.6 Grupo Minatitlán, Veracruz – Macuspana, Tabasco.

Estado Municipio Pob_total Tasa Ver. -Llave Minatitlán 153001 11,11 Chiapas Tapachula 271674 6,62 Campeche Carmen 172076 5,81 Chiapas San Cristóbal de las Casas 132421 5,28 Ver.-Llave Coatzacoalcos 267212 5,23 Tabasco Macuspana 133985 5,22 Chiapas Ocosingo 146696 4,77 Tabasco Centro 520308 4,61 Tabasco Comalcalco 164637 4,25 Tabasco Cárdenas 217261 4,14 Tabasco Cunduacán 104360 3,83 Chiapas Tuxtla Gutiérrez 434143 3,68 Chiapas Comitán de Dominguez 105210 2,85 Tasa Promedio 4.86 Desviación Estándar 2.30

Page 64: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

52

Con relación a las regiones identificadas con alta incidencia de cáncer de hígado, se puede observar que se ubican tanto al norte como al sur del estado de Veracruz (ver figura 5.8), que de acuerdo a diversas autoridades de salud de la región [Barranca 2010], se caracteriza por padecer problemas de alcoholismo, y que posiblemente, en este caso, pueda inducir al desarrollo de este tipo de cáncer en la región.

Por otra parte, en el caso de los municipios ubicados en la región del estado de Tabasco, y acorde a los estudios realizados en [Hernández 2007], se ha observado una alta tasa de incidencia de hepatitis B, con preponderancia en el centro del estado. Esto nos permite establecer la existencia de un factor de riesgo en la región.

Consideramos que los factores anteriormente observados constituyen una referencia básica para validar la agrupación realizada. Los trabajos complementarios sobre el estudio desarrollado deberán considerar otras variables tales como, la existencia de factores de riesgo, género y edad, entre otras; permitiendo disponer de más elementos para realizar un análisis y validación más amplios.

En resumen, la visualización de las regiones identificadas permite ubicar la existencia de grupos de municipios con altas tasas de incidencia de cáncer cérvico-uterino, localizados en las regiones del centro y suroeste del país. Así mismo, permite ubicar la existencia de grupos de municipios con altas tasas de incidencia de cáncer del hígado, localizados en las regiones del sur y sureste del país.

En consecuencia, los resultados obtenidos y visualizados, resaltan la necesidad de impulsar programas preventivos para que, por un lado, se busque disminuir los factores de riesgo asociados a la incidencia de los diversos tipos de cáncer identificados en este trabajo de tesis y además, en los trabajos previos desarrollados en el CENIDET; y, por otro lado, se puedan crear programas efectivos para el control y tratamiento del cáncer en el país, los cuales pueden contribuir a disminuir los índices de mortandad por cáncer en el país.

Page 65: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

53

Capítulo 6

Conclusiones y Perspectivas

6.1 CONCLUSIONES

Se logró una integración y utilización exitosa de las tecnologías especializadas de Minería de Datos, Almacenes de Datos, Agrupamiento y Sistemas de Información Geográficos, para identificar regiones del país con altas tasas de incidencia de cáncer. El enfoque adoptado para el desarrollo del estudio realizado, ha permitido obtener resultados de alta calidad simplificando los tiempos de desarrollo y facilitando las actividades de actualización y mantenimiento.

La modelación del almacén de datos facilitará la operación, mantenimiento y actualización de la misma. La aplicación del modelo multidimensional para el diseño conceptual del almacén de datos resultó ser muy adecuado, en virtud de que este modelo es fácilmente escalable y permite el análisis de la información bajo diversas perspectivas. Por otra parte, la implementación del almacén de datos, basado en el modelo ROLAP, ha permitido tomar ventaja de facilidades desarrolladas para las Bases de Datos relacionales.

Con relación a la visualización de los resultados, el procesamiento del componente espacial de nuestro almacén de datos, mediante el GIS IRIS del INEGI, ha permitido tener una representación visual de alta calidad de nuestros resultados, basada en la localización física real de los municipios y sobre un mapa de la orografía de la República Mexicana del INEGI. En particular ha permitido experimentar y conocer técnicas de transferencias de formas (Polígonos-Puntos) y formatos (Numérico-Shape) a través de las herramientas del GIS ArcView.

Page 66: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

54

Respecto a la agrupación realizada, mediante el algoritmo de K-Means bajo el entorno de programación Matlab, se logró evaluar adecuadamente el algoritmo dentro de su fase de clasificación y se obtienen resultados de calidad. Se identificaron municipios con altas tasas de incidencia de cáncer cérvico-uterino, localizados en las regiones del centro y suroeste del país. Del mismo modo, se identificaron municipios con altas tasas de incidencia de cáncer del hígado, localizados en las regiones del sur y sureste del país.

Con objeto de validar los agrupamientos realizados, los resultados fueron cotejados con diversos trabajos especializados y publicados en el área de la salud. Por ejemplo, se detectó que para los municipios de las zonas del sureste del país ya existen estudios que señalan la incidencia de hepatitis B en la zona, y de la existencia de problemas graves de alcoholismo y, en consecuencia, de cirrosis hepática, los cuales resultan ser factores de riesgo para el desarrollo del cáncer del hígado.

Consideramos que el tipo de factores como los anteriormente observados, constituyen una referencia básica para validar la agrupación desarrollada.

Además, los resultados observados, resaltan la necesidad de impulsar programas preventivos para, en primer lugar, tratar de eliminar los factores de riesgo asociados a la incidencia de los diversos tipos de cáncer identificados en este trabajo de tesis y, en los trabajos previos desarrollados en el CENIDET, y en segundo lugar, crear programas efectivos para el control y tratamiento del cáncer en el país, lo que puede contribuir a reducir los índices de mortandad por cáncer en el país.

6.2 PERSPECTIVAS Con respecto a la modelación del almacén de datos realizado, se espera que en futuros

estudios se procesen las variables de los municipios incluidas en este diseño, pero que aún no han sido contempladas, tales como, género, el nivel socioeconómico, el tipo de región y el acceso a los servicios de salud, entre otras; mediante el análisis de la información bajo otro tipo de perspectivas. Se espera, además, que los datos en los almacenes de datos desarrollados, se puedan utilizar en otro tipo de aplicaciones. Los resultados del presente trabajo ofrecen los elementos metodológicos necesarios para continuar los estudios de Minería de Datos relacionados con la incidencia de los diferentes tipos de cáncer en el país, así como sus posibles causas y factores relacionados. Este trabajo de tesis y los trabajos ya desarrollados dentro del proyecto encabezado por el Dr. J. Pérez, proporcionan una metodología para realizar investigaciones de Minería de Datos sobre bases de datos poblacionales de salud, en particular, sobre la incidencia de otro tipo de enfermedades epidemiológicas, como por ejemplo, diabetes, influenza, VIH (sida), entre otras.

Page 67: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

55

ANEXO A

Procedimiento para el Graficado de Regiones de Municipios en IRIS

En el presente anexo se describe el proceso global para realizar la

representación de patrones mediante el GIS IRIS del INEGI.

Dentro del contexto de IRIS, el primer paso de nuestro proceso requiere realizar una recuperación de la información, de los municipios de más de 100,000 habitantes, relacionada con la población total y la ubicación geográfica de los municipios. Esto se realiza mediante una consulta a la base de datos geográfica, de la forma en la que se ilustra en la figura A.1.

Fig. A.1 Consulta en IRIS por municipios de más de 100,000 habitantes.

Page 68: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

56

Como resultado de esta consulta, se obtiene la siguiente información:

a) Información gráfica como la que se muestra en la figura A.2, en la cual se resaltan los polígonos que delimitan el área de los municipios que cumplen con la condición, y se encuentra almacenada en formato Shape1.

b) Información tabular con los atributos correspondientes a los municipios, relacionada con su población, Por ejemplo, en la tabla A.1, se presenta información correspondiente al municipio de Puebla.

Tabla A.1 Ejemplo – Población del Municipio de Puebla.

NOMBRE DEL CAMPO

DESCRIPCIÓN DE LA

INFORMACIÓN

EJEMPLO PARA MUNICIPIO 114

MUNICIPIO Municipio Puebla ESTADO Estado Puebla CLAVE Clave de municipio 21114 OID Identificador 1,016 P001 Población total 1,346,916

Fig. A.2 Polígonos de localización de municipios de más de 100 mil habitantes.

Para poder realizar la tarea de agrupamiento de los municipios, en base a su localización, es necesario disponer de una representación numérica simplificada de su localización. Para ello, se realiza un proceso de transformación de los polígonos de localización para cada municipio a un punto relativo al centro de su localización (representado mediante coordenadas x, y). Dicha transformación se realiza por medio de las facilidades y herramientas del GIS ArcInfo de Esri. La figura A.3, muestra el proceso correspondiente.

Page 69: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

57

Fig. A.3 Transformación de un polígono a un punto mediante ArcMap – ArcInfo.

Como resultado del proceso anterior, se obtiene para cada municipio sus coordenadas (x, y) relativas al centro de su localización. Esto permite representar a cada municipio mediante un punto en nuestro mapa de referencia (ver figura A.4) y disponer de la tabla numérica correspondiente, que puede ser procesada mediante nuestro algoritmo de agrupamiento. Por ejemplo, la Tabla A.3 proporciona la información correspondiente a los diez primeros municipios considerados.

Fig. A.4 Representación de municipios mediante un punto.

Page 70: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

58

Tabla A.2 Ejemplo de Coordenadas de municipios.

clave Pob_total x_coord y_coord

01001 643419 2466669.113 1092486.654

02001 370730 1266493.587 2061286.094

02002 764602 1246215.556 2245791.959

02004 1210820 1096906.499 2323660.783

03003 196907 1613084.719 1366853.42

03008 105469 1709854.225 1270885.643

04002 216897 3725459.896 893816.7427

04003 172076 3590524.246 759410.4346

05002 110487 2511907.185 1928460.895

05018 193744 2576915.284 1647242.471

Una vez que se tiene la información anterior, es posible realizar la tarea de agrupamiento mediante el algoritmo K-Means de Matlab, basada en su afinidad de localización geográfica y en su tasa de incidencia de cáncer (la cual se calcula a partir de los datos sobre incidencia de cáncer en las Bases de Datos del Instituto Nacional de Salud Pública [INSP]).

Como resultado de la tarea anterior, se obtienen los grupos de municipios, así como los centroides correspondientes. Con el propósito de visualizar los patrones y centroides obtenidos mediante el GIS IRIS, es necesario realizar un proceso de transformación de nuestros datos numéricos a un formato adecuado para su representación geográfica. En el caso de IRIS, se requiere que la información se proporcione en el formato vectorial shape. Para este fin, se utilizan nuevamente las facilidades y herramientas de ArcInfo.

El proceso anterior implica inicialmente que los resultados, se almacenen en un archivo de base de datos (con extensión DBF), el cual sirve de entrada para ArcMap de ArcInfo, con objeto de trasladar nuestra información al formato shape1.

Las figuras A.5.1, A.5.2, A.5.3 y A.5.4 muestran los pasos del proceso anterior en ArcMap de ArcInfo, y éstos se llevan a cabo para cada uno de los grupos y centroides, los cuales se procesan como capas dentro de este GIS.

Page 71: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

59

Fig. A.5.1 Acceso a ArcMap-ArcInfo para proporcionar tabla de coordenadas.

Fig. A.5.2 Opciones de ArcMap para especificar tabla y campos de coordenadas.

Page 72: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

60

Fig. A.5.3 Opciones de ARcMap-ArcInfo para exportar datos en formato shape.

Fig. A.5.4 Especificación de archivo de salida shape en ArcMap-ArcInfo.

Page 73: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

61

Una vez que se tienen las capas correspondientes a cada grupo y centroide, es posible introducir una por una bajo el entorno de IRIS para su graficación. Las figuras A.6.1 y A.6.2 muestran las opciones correspondientes.

Fig. A.6. 1 Proceso para anexar capas en IRIS.

Fig. A.6.2 Especificación de archivos shape para grupos y centroides en IRIS.

Page 74: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

62

Iris proporciona facilidades de edición para cada una de las capas de grupos y centroides (ver figura A.7). Por ejemplo, se puede seleccionar el símbolo para representar cada punto, así como propiedades, tales como, tamaño, color y contorno del símbolo. En particular, y con el objetivo de resaltar el centroide de cada grupo, amplificamos el tamaño del símbolo correspondiente.

Fig. A.7 Especificación de propiedades de graficado de puntos en IRIS.

Finalmente, como un ejemplo ilustrativo del tipo de resultados que se obtienen del proceso anterior, en la figura A.8 se muestra cómo se visualizan los resultados de una prueba experimental realizada sobre distribución en seis regiones de municipios de más de cien mil habitantes, por afinidad de localización y de densidad de población.

1Nota. El formato shapefile (SHP) [ESRI] es un formato vectorial estandarizado ampliamente documentado, que se utiliza para el intercambio de información geográfica entre GIS, introducido inicialmente por el ArcView GIS de ESRI.

Un Shapefile es un formato de almacenamiento digital donde se guarda la localización de los elementos geográficos y los atributos asociados a ellos. Un shapefile se compone de varios archivos, donde él número mínimo requerido es tres y tienen las siguientes extensiones:

Page 75: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

63

Fig. A.8 Ejemplo – Seis regiones de municipios por densidad de población.

• .shp - Es el archivo que almacena las entidades geométricas de los objetos. • .shx - Es el archivo que almacena el índice de las entidades geométricas. • .dbf - El dBASE, o base de datos, es el archivo que almacena la información

de los atributos de los objetos.

Además de estos tres archivos requeridos, opcionalmente se pueden utilizar otros para mejorar el funcionamiento en las operaciones de consulta a la base de datos, información sobre la proyección cartográfica, o almacenamiento de metadatos. Estos archivos son:

• .sbn y .sbx - Almacena el índice espacial de las entidades. • .fbn y .fbx - Almacena el índice espacial de las entidades para los shapefiles

que son inalterables (solo lectura). • .ain y .aih - Almacena el índice de atributo de los campos activos en una

tabla o el tema de la tabla de atributos. • .prj - Es el archivo que guarda la información referida a sistema de

coordenadas. • .shp.xml - Almacena los metadatos del shapefile.

Page 76: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

64

ANEXO B

Publicaciones Derivadas de este Trabajo

A continuación se detallan las publicaciones arbitradas que fueron obtenidas durante el proceso de desarrollo del presente trabajo de tesis. El listado se refiere tanto a artículos nacionales como internacionales. Artículo Internacional

1. Reseach issues on K-means Algorithm: An Experimental Trial Using Matlab.

Joaquín Pérez Ortega1, Ma. Del Rocío Boone Rojas2, María J. Somodevilla Garcìa2

1 Centro Nacional de Investigación y Desarrollo Tecnológico, Cuernavaca Mor. Méx. 2 Benemérita Universidad Autónoma Puebla, Fac. Cs. de la Computación, México.

[email protected],{rboone,marias}@cs.buap.mx

Referencia: “Advances on Semantic Web and New Technologies”. ISSN: 1613-0073, Vol. 534. http://ceur-ws.org/

Artículo Nacional

2. Identificación de Regiones con Tasa Alta de Incidencia de Cáncer

Cérvico-uterino en México mediante el Algoritmo de K-means

Joaquín Pérez Ortega1 Ma. Del Rocío Boone Rojas1,2, Adriana Mexicano Santoyo1, Miguel Angel Rodríguez Tapia2

1 Centro Nacional de Investigación y Desarrollo Tecnológico, Cuernavaca Mor. Mex. 2 Benemérita Universidad Autónoma Puebla, Fac. Cs. de la Computación, México.

[email protected],[email protected],[email protected]

Referencia: “Investigación para el Avance Educativo en Ciencias de la Computación”. ISBN: 978 607 487 120 3 http://sifcc.cs.buap.mx/congreso2009/index.html

Page 77: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

65

Resumen en Memorias de Congreso Nacional y Cartel Correspondiente.

3. Marco de Referencia para Evaluar el Desempeño del Algoritmo de k-medias en Matlab Basado en su Fase de Clasificación.

Joaquín Pérez Ortega1, Ma. Del Rocío Boone Rojas1,2, Pedro García Juárez2, María de Lourdes Sandoval Solis2, Miguel Angel Rodríguez Tapia2

1 Centro Nacional de Investigación y Desarrollo Tecnológico, Cuernavaca Mor. Mex. 2 Benemérita Universidad Autónoma Puebla, Fac. Cs. de la Computación, México.

[email protected],{rboone,sandoval,pgarcia}@cs.buap.mx,[email protected] Referencia. Memorias: Investigación. XLIII Congreso Nacional de la Sociedad Matemática Mexicana. 1-5 de Noviembre del 2010. Universidad Autónoma de Chiapas. Tuxtla Gutiérrez, Chis.

Artículos Internacionales en Proceso de Publicación.

4. Development and Implementation of Data Warehouse to Identify Regions with High Incidence Rates of Cancer in México through a Task Clustering

Spatial Data Mining.

Joaquín Pérez Ortega1, María del Rocío Boone Rojas1,2, María Josefa Somodevilla García2, Mariam Viridiana Meléndez Hernández2

1 Centro Nacional de Investigación y Desarrollo Tecnológico, Cuernavaca Mor. Mex. 2 Benemèrita Universidad Autónoma Puebla, Fac. Cs. de la Computaciòn, México. [email protected],{rboone,marias}@cs.buap.mx,[email protected]

A publicarse en la revista del III Workshop on Semantic Web and New Technologies.

5. Identificación de Regiones con Altas Tasas de Incidencia de Cáncer en México mediante la Integración de Técnicas de la Minería de Datos.

Joaquín Pérez Ortega1, María del Rocío Boone Rojas1,2,Mariam Viridiana Meléndez Hernández2

1 Centro Nacional de Investigación y Desarrollo Tecnológico, Cuernavaca Mor. Mex. 2 Benemérita Universidad Autónoma Puebla, Fac. Cs. de la Computación, México.

[email protected],[email protected],[email protected]

A publicarse dentro de la Revista del 3er. Foro Latinoamericano de Ingeniería y Tecnología de la Benemérita Universidad Autónoma de Puebla.

Page 78: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

66

REFERENCIAS

[Barranca 2010] Barranca, R. 2010, Alcoholismo, Principal Adicción en Veracruz. Disponible: http://www.imagendelgolfo.com.mx [2010].

[Barrón 2008] Barrón V., M.A. 2008, Desarrollo de un Prototipo para la Aplicación de Técnicas de Minería de Datos a una Base de Datos real de registros de Cáncer de Base Poblacional. Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET).

[Basave 2005] Basave T., R.I. 2005, Mejoramiento de la Eficiencia y Eficacia del Algoritmo de Agrupamiento K-Means mediante una nueva condición de convergencia. Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET).

[Chen 2009] Chen, J., MacEachren, A.M. & Peuquet, D.J. 2009, "Constructing Overview Detail Dendrogram-Matrix Views", Visualization and Computer Graphics, IEEE Transactions on, Vol. 15, No. 6, pp. 889-896.

[CRISP-DM] CRISP-DM Consortium, CRISP-DM - CRoss Industry Standard Process for Data Mining. Disponible: http://www.crisp-dm.org [2008, 10/02].

[Dechang 2009] Dechang, C., Kai, X., Donald, H., Li, S. & Arnold, M. 2009, "Developing Prognostic Systems of Cancer Patients by Ensemble Clustering", Journal of Biomedicine and Biotechnology, 2009.

[ESRI] ESRI. The GIS Software Leader (ArcView). Disponible: http://www.esri.com [2010].

[Fisher 1936] Fisher, R.A. 1936, "The use of Multiple Measurements in Taxonomic Problems", Annals of Eugenics, Vol. 7, Part II, pp. 179-188.

[Forgy 1965] Forgy, E. 1965, "Cluster Analysis of Multivariate Data: Efficiency vs. Interpretability of Classifications", Biometrics, Vol. 21, No. 3, pp. 768.

[Hansen 2005] Hansen, P., Ngai, E., Cheung, B.K. & Mladenovic, N. 2005, "Analysis of global k-means, an incremental heuristic for minimum sum-of-squares clustering", Journal of classification, Vol. 22, No. 2, pp. 287-310.

Page 79: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

67

[Hernández 2004] Hernández Orallo, J., Ramírez Quintana, M.J. & Ferri Ramirez, C. 2004, Introducción a la Minería de Datos, España, Madrid: Pearson educación SA.

[Hernández 2007] Hernández-Guzmán, J., Salvador de la C., A., Alejo A., J.A. & Jiménez P., A. 2007, Evaluación de Casos de Hepatitis Tipo B del estado de Tabasco, en el periodo 2003-2007. Disponible: http://www.scribd.com/doc/10195901/Hepatitis-B-en-Tabasco-México [2010].

[Hidalgo 2006] Hidalgo-Martínez, A.C. 2006, "El cáncer cérvico-uterino, su impacto en México y el porqué no funciona el programa nacional de detección oportuna", Revista Biomédica, Vol. 17, pp. 81-84.

[INC1] INC1, Instituto Nacional de Cancerología (México). Disponible: http://www.infocancer.org.mx/factores-de-riesgo-cancer-de-higado [2010].

[INC2] INC2, Instituto Nacional del Cáncer (USA). Disponible: http://www.cancer.gov/espanol [2010].

[INEGI] INEGI, Instituto Nacional de Estadística, Geografía e Informática (México). Disponible: http://www.inegi.gob.mx [2010].

[INEGI 2005] INEGI 2005, Marco Geoestadístico Municipal (MGM2005).

[INSP] INSP, Instituto Nacional de Salud Pública, Núcleo de Acopio y Análisis de Información (NAAIS) México. Disponible: http://sigsalud.insp.mx/naais [2010].

[IRIS] IRIS, SNIEG, Sistema Nacional de Información Estadística y Geográfica. Disponible: http://mapserver.inegi.gob.mx [2010].

[Labib 2005] Labib, N.M. & Malek, M.N. 2005, "Data Mining for Cancer Management in Egypt Case Study: Childhood Acute Lymphoblastic Leukemia", Transactions on Engineering, Computing & Technology, Vol. 8, pp. 309-314.

[Lloyd 2002] Lloyd, S. 2002, "Least squares quantization in PCM", Information Theory, IEEE Transactions on, Vol. 28, No. 2, pp. 129-137.

[MacQueen 1967] MacQueen, J. 1967, "Some Methods for Classification and Analysis of Multivariate Observations", Proceedings of the fifth Berkeley Symposium on Mathematical Statistics and Probability; California, USA, pp. 14.

[Martínez 2004] Martínez, F.J. 2004, "Epidemiología del Cáncer del Cuello Uterino.", Medicina Universitaria, UANL, México, Vol. 6, No. 22, pp. 39-46.

Page 80: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

68

[MathWorks] MathWorks, MathWorks - MatLab and Simulink for Technical Computing. Disponible: http://www.mathworks.com [2010].

[Mexicano 2007] Mexicano S., A. 2007, Desarrollo de una Metodología para la Selección de Atributos y Generación de Indicadores para la Aplicación de Minería de Datos a una Base de Datos Real de Registros de Cáncer en Base Poblacional. Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET)

[Pérez 2009] Pérez, J., Rojas, M.D.R.B. & Somodevilla, M.J. 2009, "Research issues on K-means Algorithm: An Experimental Trial Using Matlab", Second Workshop on Semantic Web and New Technologies, pp. 83-96.

[Pérez 2007a] Pérez, J., Henriques, M.F., Pazos, R., Cruz, L., Reyes, G., Salinas, J. & Mexicano, A. 2007a, "Mejora al algoritmo de agrupamiento K-means mediante un nuevo criterio de convergencia y su aplicación a Bases de Datos poblacionales de cáncer", Taller Latino Iberoamericano de Investigación de Operaciones.

[Pérez 2007b] Pérez, J., Pazos, R.R., Cruz, R.L., Reyes, S.G., Basave, T.R. & Fraire, H.H. 2007b, "Improving the efficiency and efficacy of the K-means clustering algorithm through a new convergence condition", Proceedings of the 2007 international conference on Computational science and its applications-Volume Part III Springer-Verlag, pp. 674.

[Rangel 2010] Rangel-Gómez, G., Palacio-Mejía, L.S., Hernández-Avila, M. & Lazcano-Ponce, E. Cáncer cervical, una enfermedad de la pobreza: diferencias en la mortalidad por áreas urbanas y rurales en México. Disponible: http://dialnet.uniroja.es/servlet/oaiart?codigo=792841 [2010].

[Salinas 2007] Salinas C., J. 2007, Desarrollar la Adecuación de una Metodología de Datos para su Aplicación a una Base de Datos Real de Registros de Cáncer de Base Poblacional. Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET).

[SCIENCE 2010] S. Translational Medicine 2010, Cáncer de Hígado afecta más a hombres. Disponible: http://www.eluniversal.com.mx/articulos/vi_58693.html [2010].

[SPSS] SPSS, Data Mining, Statistical Analysis Software. Disponible: http://www.spss.com/es/ [2010].

Page 81: cenidet · Capítulo 1 INTRODUCCIÓN La Minería de Datos es un campo multidisciplinario que se ha venido desarrollando en paralelo con otras disciplinas tales como, la Estadística,

69

[Summa 2007] Summa, M.G., Steyaert, J.M., Vautrain, F. & Weitkunat, R. 2007, "A New Clustering Method for Time Series to Discover Geographical Cancer Trends from 1960 to 2000", Annals of Epidemiology, Vol. 17, No. 9, pp. 744.

[Thangavel 2006] Thangavel, K., Jaganathan, P. & Esmy, P. 2006, "Subgroup Discovery in Cervical Cancer Analysis using Data Mining", AIML Journal, Vol. 6, No. 1, pp. 29-36.

[UCI] UCI, Machine Learning Repository. Disponible: http://www.ics.uci.edu/~mlearn/ [2010].

[Weka] Weka, Data Mining with open source machine learning software in java. Disponible: http://www.cs.waikato.ac.nz/ml/weka/ [2010].

[Witten 2005] Witten, I.H. & Frank, E. 2005, Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann Pub.

[Wu 2008] Wu, X., Kumar, V., Ross Quinlan, J., Ghosh, J., Yang, Q., Motoda, H., McLachlan, G.J., Ng, A., Liu, B. & Yu, P.S. 2008, "Top 10 Algorithms in Data Mining", Knowledge and Information Systems, Vol. 14, No. 1, pp. 1-37.

[Xu 2005] Xu, R. & Wunsch, D. 2005, "Survey of Clustering Algorithms", IEEE Transactions on Neural Networks, Vol. 16, No. 3, pp. 645-678.