Análisis y procesamiento de datos para descubrir conocimiento
-
Upload
alex-rayon-jerez -
Category
Business
-
view
283 -
download
1
description
Transcript of Análisis y procesamiento de datos para descubrir conocimiento
![Page 1: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/1.jpg)
El proceso de análisis y explotación de datos en proyectos de Business
IntelligenceMódulo 02: Análisis y procesamiento de datos para
descubrir conocimiento
Alex Rayón [email protected]
Octubre, 2014
![Page 2: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/2.jpg)
¿Que hemos visto hasta ahora?
![Page 3: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/3.jpg)
Índice de contenidos
● Modelo de datos● Dimensiones de datos● Procesamiento de datos en un ETL● Técnicas de descubrimiento de conocimiento● Text mining● Análisis de Rdes Sociales
![Page 4: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/4.jpg)
Índice de contenidos
● Modelo de datos● Dimensiones de datos● Procesamiento de datos en un ETL● Técnicas de descubrimiento de conocimiento● Text mining● Análisis de Redes Sociales
![Page 5: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/5.jpg)
Modelo de datosIntroducción
Proceso ModeloPlataforma explotación
Datos
Ciclo de análisis de datos
Representación para explotación
Información y conocimiento
1 2 3
Día 2
![Page 6: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/6.jpg)
Modelo de datosIntroducción (II)
● Representación de los datos para ponerlos en explotacióno Hay que considerar todo lo que vimos en el primer día
→ especialmente los datos capturados que han sido normalizados
● No se puede hacer Data mining sin máso Se necesita un marco teórico → una representación
conceptual del dominio o contexto en el que se está trabajando
![Page 7: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/7.jpg)
Modelo de datosIntroducción (III)
![Page 8: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/8.jpg)
Modelo de datosUsos de datos
● Desde una perspectiva de Teoría del Conocimiento, tres usos de datos:o Deducción
Preguntas a resolver con la Base de Datos que se dispone (enfoque estadístico tradicional)
o Inducción
Analizar los datos con la esperanza de encontrar algo (Data Mining)
o Abducción
Deducción + Inducción
![Page 9: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/9.jpg)
Modelo de datosUsos de datos (II)
Fuente: http://matedisyalgeline.blogspot.com.es/p/la-induccion-se-refiere-al-movimiento.html
![Page 10: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/10.jpg)
Modelo de datosMapa conceptual
Concepto 1
Concepto 2
Concepto 3
Concepto n
Conceptos/Entidades (elemento abstracto de
información)
Relaciones entre conceptos
![Page 11: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/11.jpg)
Modelo de datosMapa conceptual (II)
Nos ayuda a entender el dominio/contexto y a facilitar el entendimiento mutuo entre todas las
personas que están implicados en el proyecto
Source: http://www.economist.com/blogs/economist-explains/2013/05/economist-explains-14
Source: http://www.economist.com/news/finance-and-economics/21578041-containers-have-been-more-important-globalisation-freer-trade-humble
![Page 12: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/12.jpg)
Modelo de datosMapa conceptual (III)
● El modelo de datos, el mapa conceptual, describe los conceptos y las relaciones que se emplean para el proyecto BI en el día a díao Expresadas en su propio lenguaje
o Permite que toda la organización participe en el mantenimiento del mismo
Fuente: http://en.wikipedia.org/wiki/Esperanto_orthography
![Page 13: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/13.jpg)
Índice de contenidos
● Modelo de datos● Dimensiones de datos● Procesamiento de datos en un ETL● Técnicas de descubrimiento de conocimiento● Text mining● Análisis de Redes Sociales
![Page 14: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/14.jpg)
Dimensiones de datosIntroducción
● Una dimensión de base de datos es una colección de objetos relacionados, denominados atributos, que se pueden usar para proporcionar información sobre los datos o Atributos típicos de una dimensión
de producto pueden ser el nombre, la categoría, la línea, el tamaño y el precio del producto
Fuente: http://datawarehouse.es.tl/Funcionalidad.htm
![Page 15: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/15.jpg)
Dimensiones de datosIntroducción (II)
● Estos objetos están enlazados a una o varias columnas de una o varias tablas de una vistadel origen de datoso De manera predeterminada, estos atributos están
visibles como jerarquías de atributo y se pueden utilizar para comprender los datos de hechos en un cubo
o Los atributos se pueden organizar en jerarquías definidas por el usuario que proporcionan rutas de navegación para ayudar a los usuarios al examinar los datos
![Page 16: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/16.jpg)
Dimensiones de datos¿Nuestro objetivo?
¿Cuál es nuestro objetivo en todo proyecto de
Business Intelligence?
![Page 17: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/17.jpg)
Dimensiones de datos¿Nuestro objetivo? Dar respuestas :-)
● Por cada pregunta → una respuestao Una respuesta → una dimensión de datos
● Se recomienda preparar cada dimensión de datos en una rama de Pentaho Kettle diferenteo De esta manera, se podrá ir modificando cada
respuesta según las necesidades cambiantes sin afectar al resto de preguntas - respuestas
![Page 18: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/18.jpg)
Índice de contenidos
● Modelo de datos● Dimensiones de datos● Procesamiento de datos en un ETL● Técnicas de descubrimiento de conocimiento● Text mining● Análisis de Redes Sociales
![Page 19: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/19.jpg)
Procesamiento datos ETLDefinición y características
● Una herramienta ETLo Extrae datos desde varias fuentes de datos
(normalmente datos heredados)o Transforma los datos
Desde → estar optimizados a transacciones A → estar optimizados para el análisis y el
reporting Sincronizar los datos que provienen de diferentes
fuentes de datos Normaliza y limpia los datos
o Carga los datos en un aplicación de destino (normalmente una Base de Datos)
![Page 20: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/20.jpg)
Procesamiento datos ETL¿Por qué necesito esta herramienta?
● Ahorran tiempo y dinero evitando tener que desarrollar código manual de integración de datos
● Es difícil para los administradores de Base de Datos conectar fuentes de diferentes fabricantes sin tener que emplear una herramienta externa
● Si tuviera que eventualmente integrarse una nueva Base de Datos, habría que rehacer el código de integración de manera manual
![Page 21: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/21.jpg)
Procesamiento datos ETLPentaho Kettle
Kettle
Una herramienta de Extracción, Transformación y Carga (ETL) cuyas capacidades son
aprovechadas a través de un enfoque de metadatos
![Page 22: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/22.jpg)
Procesamiento datos ETLPentaho Kettle (II)
● Tiene una interfaz de usuario (GUI) muy sencilla de utilizar
● Tiene una comunidad de desarrolladores con más de 13.500 personas registradas
● Utiliza un motor Java que procesa las tareas para mover datos entre las diferentes fuentes de datos y archivos
![Page 23: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/23.jpg)
Procesamiento datos ETLPentaho Kettle (III)
![Page 24: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/24.jpg)
Procesamiento datos ETLPentaho Kettle (IV)
Source: http://download.101com.com/tdwi/research_report/2003ETLReport.pdf
![Page 25: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/25.jpg)
Procesamiento datos ETLPentaho Kettle (V)
Source: Pentaho Corporation
![Page 26: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/26.jpg)
Procesamiento datos ETLPentaho Kettle (VI)
● Tareas que puede ejecutaro Integración de datoso Limpieza de datoso Normalización de datoso Migración de datoso Exportación de datoso etc.
![Page 27: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/27.jpg)
Procesamiento datos ETLTransformaciones
● Manipulación de fechas y strings
● Validación de datos / Reglas de negocio
● Join
● Cálculos matemáticos
● Cálculo estadístico
● Criptografía
● Control del fujo
● Scripting
● etc.
![Page 28: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/28.jpg)
Procesamiento datos ETL¿Para qué me puede servir?
● Espejar los datos entre maestro y esclavo
● Sincronizar dos fuentes de datos
● Procesar datos de múltiples fuentes y llevarlas hasta múltiples destinos
● Cargar los datos en un Sistema de Gestión de Base de Datos
● Manipulación gráfica de los datos
● Datamart / Datawarehouse
![Page 29: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/29.jpg)
Procesamiento datos ETL¿Para qué me puede servir? (II)
Actividad BI.02.1. Dimensiones + Modelo de datos
● Entidades + relaciones entre entidades
● Sustentación teórica
● Dimensiones
● Definir las diferentes ramas en Pentaho Kettle
● Orientar las transformaciones hacia las dimensiones y el modelo de datos para explotación final
![Page 30: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/30.jpg)
Índice de contenidos
● Modelo de datos● Dimensiones de datos● Procesamiento de datos en un ETL● Técnicas de descubrimiento de conocimiento● Text mining● Análisis de Redes Sociales
![Page 31: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/31.jpg)
Descubriendo conocimientoMétodos
Fuente: https://interestingittips.wordpress.com/2011/10/
![Page 32: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/32.jpg)
Descubriendo conocimientoMétodos
1. Métodos predictivos
1. Descubrimiento estructuras
1. Minería de relaciones
![Page 33: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/33.jpg)
Descubriendo conocimiento1) Métodos predictivos
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
![Page 34: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/34.jpg)
Descubriendo conocimiento1) Métodos predictivos (II)
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
![Page 35: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/35.jpg)
Descubriendo conocimiento1) Métodos predictivos (III)
● La clasificación es una de las tareas más importantes en minería de datos
● Obtener un modelo, patrón o función que discrimine entre dos o más clases excluyentes
● Medida tradicional para evaluar:o Error (también inversamente accuracy): % de
instancias mal clasificadas (respecto al conjunto de test o utilizando validación cruzada / bootstrapping)
![Page 36: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/36.jpg)
Descubriendo conocimiento1) Métodos predictivos (IV)
● Un clasificador permite asistir en la toma de decisiones(entre diferentes acciones)o Swets, J.A., Dawes, R.M.,
& Monahan, J. (2000). “Better decisions through science” Scientific American, 283, 82-87.
![Page 37: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/37.jpg)
Descubriendo conocimiento1) Métodos predictivos (V)
Árboles de decisión
● Plantea el problema desde distintas perspectivas de acción
● Permite analizar de manera completa todas las posibles soluciones
● Provee de un esquema para cuantificar el coste del resultado y su probabilidad de uso
● Ayuda a realizar las mejores decisiones con base a la información existente y a las mejores suposiciones
● Su estructura permite analizar las alternativas, los eventos, las probabilidades y los resultados
![Page 38: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/38.jpg)
Descubriendo conocimiento1) Métodos predictivos (VI)
![Page 39: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/39.jpg)
Descubriendo conocimiento1) Métodos predictivos (VII)
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
![Page 40: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/40.jpg)
Descubriendo conocimiento1) Métodos predictivos (VIII)
Regresión lineal
● Puede definirse como un esquema de relación entre una variable Y (EXÓGENA O A EXPLICAR) y otra(s) variable(s) X (X1X2 ... Xk ) (endógena(s) o explicativa(s), tal que:
Y = FUNCIÓN LINEAL (X) + PERTURBACIÓN ALEATORIA (Modelo Lineal Simple)
Y = FUNCIÓN LINEAL (X1, X2, ... Xk ) + PERTURBACIÓN ALEATORIA(Modelo Lineal General)
![Page 41: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/41.jpg)
Descubriendo conocimiento1) Métodos predictivos (IX)
Regresión lineal (cont.)
● Las hipótesis (básicas) que se asuman sobre la perturbación aleatoria permitirán realizar el análisis estadístico inferencial
● Las razones para la introducción de una perturbación aleatoria, son fundamentalmente:o Efecto de variables no consideradaso Efectos imprevistos (catástrofes, modas, etc.)o Errores de observación o medición
![Page 42: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/42.jpg)
Descubriendo conocimiento1) Métodos predictivos (X)
Regresión lineal (cont.)
● Utilidades del modelo lineal:
o Verificar la existencia de la relación lineal
o Estimar (contrastar) la (una) relación lineal concreta (estructural)
Supone actuar sobre los coeficientes de la relación lineal
o Predecir la variable y en función de x o (x1, x2, … xk)
![Page 43: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/43.jpg)
Descubriendo conocimiento1) Métodos predictivos (XI)
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
![Page 44: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/44.jpg)
Descubriendo conocimiento1) Métodos predictivos (XII)
Regresión lineal (cont.)
● Una vez ajustada la recta de regresión a la nube de observaciones, es importante disponer de una medida que mida la bondad del ajuste realizado
● Permitirá decidir si el ajuste lineal es suficiente o se deben buscar modelos alternativos
![Page 45: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/45.jpg)
Descubriendo conocimiento1) Métodos predictivos (XIII)
Existe una dependencia funcional lineal, las observaciones están sobre la recta de regresión. r = R2 = 1, recta de regresión: y = x.
Fuente: http://dm.udc.es/asignaturas/estadistica2/sec6_8.html
![Page 46: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/46.jpg)
Descubriendo conocimiento1) Métodos predictivos (XIV)
La relación lineal entre las variables es muy pequeña y no parece que exista otro tipo de relación entre ellas, la nube de puntos indica que las variables son casi independientes
r = 0'192, R2 = 0'037, recta de regresión: y = 6'317 + 0'086xContraste de regresión: FR = 0'687 ∈ F1,18 → p - valor = 0'418. Se acepta la no influencia de la
variable regresora en Y.
Fuente: http://dm.udc.es/asignaturas/estadistica2/sec6_8.html
![Page 47: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/47.jpg)
Descubriendo conocimiento1) Métodos predictivos (XV)
Existe una dependencia funcional entre las observaciones pero no de tipo lineal, por tanto la correlación es muy pequeña
r = 0'391, R2 = 0'153, recta de regresión: y = 32'534 - 1'889x.Contraste de regresión: FR = 3'252 ∈ F1,18 → p - valor = 0'088. Se acepta que no existe relación
lineal con α = 0'05. Se debe de hacer un ajuste del tipo parabólico Y = α0 + α1x + α2x2
Fuente: http://dm.udc.es/asignaturas/estadistica2/sec6_8.html
![Page 48: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/48.jpg)
Descubriendo conocimiento1) Métodos predictivos (XVI)
Usando Clasificadores en WEKA
![Page 49: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/49.jpg)
Procesamiento datos ETLAplicaciones para Tenzing
Actividad BI.02.2. Predicción
● Pensar 2 o 3 casos de uso
● Implementar sobre WEKA a partir de los datos normalizados de Pentaho
● Interpretar las conclusiones
● Pensar representación
● Presentar conclusiones
![Page 50: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/50.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras
Clustering
Source: http://inside-bigdata.com/2013/12/18/tech-tip-power-pitfalls-clustering/
Source: http://www.cs.bilkent.edu.tr/~saksoy/research.html
![Page 51: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/51.jpg)
● Identifica de forma automática agrupacioneso clústeres de elementos de acuerdo a una medida de similitud entre elloso El objetivo fundamental de las técnicas de clustering
consiste en identificar grupos o clústeres de elementos tal que: La similitud media entre elementos del mismo
clúster sea alta: similitud intra-clúster alta La similitud media entre elementos de distintos
clústeres sea baja: similitud inter-clúster baja
Descubriendo conocimiento2) Descubrimiento de estructuras (II)
Clustering
![Page 52: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/52.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (III)
Clustering
Existen principalmente dos tipos diferentes de técnicas de clustering:
![Page 53: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/53.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (IV)
Clustering
● Clustering jerárquicoo Construye un dendograma o árbol que representa las
relaciones de similitud entre los distintos elementos
Clustering jerárquico aglomerativo: se comienza con tantos clústeres como individuos y consiste en ir formando (aglomerando) grupos según su similitud
Clustering jerárquico de división: se comienza con un único clúster y consiste en ir dividiendo clústeres según la disimilitud entre sus componentes.
![Page 54: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/54.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (V)
Clustering
● Clustering de particióno Clustering de partición entorno a centroides (PAM) realiza
una distribución de los elementos entre un número prefijado de clústeres o grupos
Recibe como dato de entrada el número de clústers a formar además de los elementos a clasificar y la matriz de similitudes
o Explorar todas las posibles particiones es computacionalmente intratable
Por lo tanto, suelen seguirse algoritmos aproximados guiados por determinadas heurísticas
![Page 55: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/55.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (VI)
Clustering
● Clustering de particióno En lugar de construir un árbol el objetivo en PAM consiste
en agrupar los elementos entorno a elementos centrales llamados centroides a cada clúster
mC=argmin m∈C∑ mj∈Cdist(m,mj)
![Page 56: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/56.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (VII)
Clustering
● Clustering de partición
Fuente: http://www.cs.us.es/~fran/curso_unia/clustering.html
![Page 57: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/57.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (VIII)
Clustering
● Durante el flujo de trabajo de clustering existen tres puntos claves donde se toman decisiones que determinan la identificación final de grupos o clústeres de genes:o Elección de la medida de similitud o distancia
o Elección del algoritmo de clustering
o Elección del número de clústers a identificar
![Page 58: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/58.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (IX)
Clustering
● Para determinar la mejor elección posible es necesario fijar un criterio para mediar la calidad del resultado proporcionado por un flujo de trabajo de clusteringo El objetivo general perseguido por las técnicas de
clustering consiste en identificar grupos o clústeres compactos
o Es decir, clusteres con una similitud intra-clúster alta y una similitud inter-clúster baja → esta idea intuitiva se formaliza en el concepto de silueta de un cluster
![Page 59: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/59.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (X)
ClusteringComo medida de la distancia intracluster de un elemento del clúster si se toma:
a(si)= ∑ sj∈Cd(sj,si) |C|-1
Fuente: http://www.cs.us.es/~fran/curso_unia/clustering.html
![Page 60: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/60.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (XI)
ClusteringComo medida de la distancia intercluster se toma:
b(si)=mink ∑ sj∈Ckd(si,sj) |Ck|
Fuente: http://www.cs.us.es/~fran/curso_unia/clustering.html
![Page 61: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/61.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (XII)
Análisis factorial
Source: http://www.mathworks.es/machine-learning/examples.html?file=/products/demos/machine-learning/cluster_genes/cluster_genes.html
![Page 62: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/62.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (XIII)
Análisis factorial
● Reducir una matriz de datos a dimensionesestructurales más pequeñas
● Permite apreciar hasta dónde existe algún patrón subyacente de relaciones en los datos de la matriz
● Reduce las medidas a un conjunto más pequeño de factoreso Los factores pueden ser tomados como variables
originarias que explican las interrelaciones observadas en los datos
![Page 63: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/63.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (XIV)
Análisis factorial
● Fue creado por Spearman (1904)
● Su propósito era el de probar su Teoría de la Inteligencia
● Él sostenía que en todas las habilidades mentales subyacía un factor general (común) que denominó g y factores específicos independientes
![Page 64: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/64.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (XV)
Análisis factorial
![Page 65: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/65.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (XVI)
Análisis factorial
● El Análisis de Factores (AF) parte del supuesto de que en un conjunto de variables intercorrelacionadas, dichas relaciones recíprocas podrían deberse a la presencia de una o más variables (factores subyacentes) relacionadas en grados diversos con aquellaso El propósito, así, del AF es identificar esos factores o
variables comunes, más generales, que los datos mismos
![Page 66: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/66.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (XVII)
Análisis factorial
● Desde el punto de vista matemático, un factor puede ser definido como cualquier combinación lineal de variables en la matriz de datoso Ejemplo: Sea el factor A, formado por las variables a, b,
c … k, y sus ponderaciones, fueran pa, pb, pc … pk, su expresión algebraica sería:
A = pa*a + pb*b + pc*c + … + pk*k
![Page 67: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/67.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (XVIII)
Análisis factorial
● Interpretación sobre los factoreso Como indicadores de efectos
Las variables observadas son consideradas como el resultado de una variable subyacente latente
o Como componente
Las variables son transformadas en otras variables por conveniencia
o Como indicadores causales
La variable latente es considerada como el resultado de las observables
![Page 68: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/68.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (XIX)
Análisis factorial
● Métodos de factorizacióno Método Clásico
Se basa en la creencia de que las correlaciones observadas en la matriz son principalmente el resultado de alguna regularidad subyacente a los datos
o Componentes Principales
Es un método de transformación directa de un conjunto dado de variables dentro de un nuevo conjunto de variables compuestas o componentes principales
![Page 69: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/69.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (XX)
Análisis factorial
● Tipos de factoreso General: variables cargan en un mismo factor
o Grupo: solo algunas variables son salientes
o Común: variables que miden el mismo factor
o Unipolar: variables con un mismo signo
o Bipolar: variables con signo + y -
o Singular: una sola saliente
o Nulo: no tiene saliente
![Page 70: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/70.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (XXI)
Análisis factorial
● Aplicacioneso Como técnica exploratoria
Examinar estructura subyacente a una Base de Datos
o Como técnica confirmatoria
Probar la hipótesis acerca de la estructura subyacente en la Base de Datos
o Como técnica de medición
Construcción de índices a partir de los coeficientes de las cargas factoriales
![Page 71: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/71.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (XXII)
Análisis factorial
Etapas Opciones Referencias
Matriz de datos Única (sujetos por medidas) Martiz tipo - X
Matriz de correlación Correlación entre las medidas Matriz tipo - R
Correlación entre unidades Matriz tipo - Q
Extracción de factores iniciales Factores definidos Análisis Componentes Principales
Factores inferidos Análisis Factorial Correspondencia
Rotación hasta la solución final Factores no-correlacionados Rotación ortogonal
Factores correlacionados Rotación oblicua
![Page 72: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/72.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (XXIII)
Análisis factorial
![Page 73: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/73.jpg)
Descubriendo conocimiento2) Descubrimiento de estructuras (XXIII)
Social Network Analysis
Source: http://rs.resalliance.org/2010/11/03/reading-list-using-social-network-analysis-sna-in-social-ecological-studies/
Más tarde lo veremos ;)
![Page 74: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/74.jpg)
Procesamiento datos ETLAplicaciones para Tenzing
Actividad BI.02.3. Descubrimiento estructuras
● Pensar 2 o 3 casos de uso
● Implementar sobre WEKA a partir de los datos normalizados de Pentaho
● Interpretar las conclusiones
● Pensar representación
● Presentar conclusiones
![Page 75: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/75.jpg)
Descubriendo conocimiento3) Minería de relaciones
Association rule mining
Source: http://aimotion.blogspot.com.es/2013/01/machine-learning-and-data-mining.html
![Page 76: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/76.jpg)
Descubriendo conocimiento3) Minería de relaciones (II)
Reglas de asociación
● Las reglas de asociación en la minería de datos se utilizan para encontrar hechos que ocurren en común dentro de un conjunto de datoso Dicho de otra manera que debe ocurrir ciertas
condiciones para que se produzca cierta condición
![Page 77: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/77.jpg)
Descubriendo conocimiento3) Minería de relaciones (III)
Reglas de asociación
● Para encontrar estas reglas de debe considerar cada posible combinación de condiciones para que halla una consecuenciao Al hablar de reglas de asociación también cumple un
rol importante:
Cobertura o soporte: número de instancias predichas correctamente
Precisión o confianza: proporción de número de instancias que es aplicada la regla
![Page 78: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/78.jpg)
Descubriendo conocimiento3) Minería de relaciones (IV)
Reglas de asociación
● Basándose en el concepto de reglas fuertes, Agrawal et al., presentaron las reglas de asociación para descubrir regularidades en transacciones registradas en grandes repositorios de datos de sistemas de punto de ventas en supermercados
{pan, jamón} ⇒ {queso}
![Page 79: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/79.jpg)
Descubriendo conocimiento3) Minería de relaciones (V)
Reglas de asociación
![Page 80: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/80.jpg)
Descubriendo conocimiento3) Minería de relaciones (VI)
Reglas de asociación
● Aplicaciones: Product placement → colocación de productos en las estanterías de un supermercadoo Objetivo
Identificar artículos que muchos clientes compran conjuntamente
o Solución Procesar los datos de los terminales de punto
de venta proporcionados por los escáneres de códigos de barras
![Page 81: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/81.jpg)
Descubriendo conocimiento3) Minería de relaciones (VII)
Reglas de asociación
● Aplicaciones: Promociones y ofertas → si se identificar una regla del tipo {impresora} → {tóner}o Tóner es el consecuente
Puede determinarse cómo incrementar sus ventaso Impresora es el antecedente
Puede determinarse qué productos se verían afectados si dejamos de vender impresoras
o Impresora es el antecedente y tóner el consecuente Puede utilizarse para ver qué productos deberían
venderse con impresoras para promocionar las ventas de tóner
![Page 82: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/82.jpg)
Descubriendo conocimiento3) Minería de relaciones (VIII)
Reglas de asociación
● Aplicaciones: Gestión de inventarioso Problema
Una empresa de reparación de electrodomésticos quiere anticipar la naturaleza de las reparaciones que tendrá que realizar y mantener a sus vehículos equipados con las piezas que permitan reducir el número de visitas a casa de sus clientes
o Solución Procesar los datos sobre herramientas y piezas
utilizadas en reparaciones previas para descubrir patrones de co-ocurrencia
![Page 83: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/83.jpg)
Descubriendo conocimiento3) Minería de relaciones (IX)
Reglas de asociación
Expresión de la formaX → Y
donde X e Y son itemsets
{pañales} → {cerveza}{cerveza} → {pañales}
{pan, leche} → {huevos}{pan} → {leche, huevos}
![Page 84: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/84.jpg)
Descubriendo conocimiento3) Minería de relaciones (X)
Análisis correlacional
Source: http://www.bain.com/publications/articles/Growing-brands-by-understanding-what-Chinese-shoppers-really-do.aspx
![Page 85: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/85.jpg)
Descubriendo conocimiento3) Minería de relaciones (XI)
Análisis correlacional
● Conceptualizaciones generaleso “Grado de relación o asociación entre dos variables”
(Hopkins, et al., 1997)o “Las propiedades, cálculos y uso de la medida de
relación entre dos variables” (Young, R. y Veldman, D., 1977)
o El grado y forma de relación entre dos variables
![Page 86: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/86.jpg)
Descubriendo conocimiento3) Minería de relaciones (XII)
Análisis correlacional
● Tipos de correlacióno Correlación bivariada
Grado de relación o asociación entre dos variables
o Correlación múltiple Grado de relación entre dos o más variables
![Page 87: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/87.jpg)
Descubriendo conocimiento3) Minería de relaciones (XIII)
Análisis correlacional
● Medición de correlación
o Gráfica
Dispersión, dispersigrama o nube de puntos
o Analítica
Ecuación matemática de Karl Pearson
Al final el “producto de Pearson” r
● r = muestras
● p = poblaciones
![Page 88: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/88.jpg)
Descubriendo conocimiento3) Minería de relaciones (XIV)
Análisis correlacional
Fuente: http://bradanovic.blogspot.com.es/2011/12/no-le-creo-mucho-las-estadisticas-de.html
Fuente: http://rt.uits.iu.edu/visualization/analytics/stats/spss-getting-started-guide-macos.php
![Page 89: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/89.jpg)
Descubriendo conocimiento3) Minería de relaciones (XV)
Análisis correlacional
![Page 90: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/90.jpg)
Descubriendo conocimiento3) Minería de relaciones (XIV)
Source: http://www.mdpi.com/1424-8220/10/8/7496
Patrones secuenciales
![Page 91: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/91.jpg)
Descubriendo conocimiento3) Minería de relaciones (XV)
Patrones secuenciales
● Minería de patrones que ocurren frecuentemente relacionados al tiempo o a otras secuencias
● Un ejemplo de patrón secuencial es:
o “Un cliente que compra un iPad, dos días después probablemente comprará la funda y las aplicaciones de ofimática”
● Es similar a la minería de itemset frecuentes (reglas de asociación), pero con una consideración de orden
![Page 92: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/92.jpg)
Descubriendo conocimiento3) Minería de relaciones (XVI)
Patrones secuenciales
● Aplicaciones
o Secuencias de compra del cliente
o Tratamientos médicos, desastres naturales, procesos de la ingeniería y las ciencias, mercados y valores, etc.
o Patrones de llamadas telefónicas, flujos de navegación en la web, etc.
o Estructuras de ADN y genes
o ...
![Page 93: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/93.jpg)
Descubriendo conocimiento3) Minería de relaciones (XVII)
Patrones secuenciales
● Algoritmos
o Enfoques basados en Apriori
GSP (Generalized Sequential Patterns)
SPADe
o Enfoques basados en crecimiento de patrones
FreeSpan
PrefixSpain
![Page 94: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/94.jpg)
Descubriendo conocimiento3) Minería de relaciones (XVII)
Patrones secuenciales
● GSP
Fuente: http://bsolano.com/ecci/claroline/backends/download.php/UHJlc2VudGFjaW9uZXMvNy5fVGFyZWFzX2RlX2xhX21pbmVy7WFfZGVfZGF0b3MsX3JlZ2
xhc19kZV9hc29jaWFjafNuLnBkZg%3D%3D?cidReset=true&cidReq=CI2352
![Page 95: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/95.jpg)
Descubriendo conocimiento3) Minería de relaciones (XVIII)
Patrones secuenciales
● GSP
![Page 96: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/96.jpg)
Descubriendo conocimiento3) Minería de relaciones (XIX)
Patrones secuenciales
● GSP
![Page 97: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/97.jpg)
Descubriendo conocimiento3) Minería de relaciones (XX)
Análisis de causalidad
● Muchas preguntas en la vida diaria requiere la identificación y medida de efectos causales
o ¿El tabaco provoca cáncer?
o ¿La aspirina reduce el riesgo de infarto?
o ¿Los cursos de formación para desempleados ayudan a encontrar empleo?
o ¿Cuál es el impacto del salario mínimo sobre el empleo?
o ¿Afectan los subsidios salariales o los impuestos a la oferta de trabajo de los individuos?
![Page 98: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/98.jpg)
Descubriendo conocimiento3) Minería de relaciones (XXI)
Análisis de causalidad
Fuente: http://www.ciencia-explicada.com/2013/06/correlacion-causalidad-y-grafos-lo-mas.html
Fuente: http://avances.idict.cu/avances/article/view/26/46
![Page 99: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/99.jpg)
● Podemos medir la correlación estadística, pero esta no implica que exista causalidad
● Para ello, se utiliza el análisis experimental
o Nos permite estudiar la existencia de causalidad
Descubriendo conocimiento3) Minería de relaciones (XXII)
Análisis de causalidad
Fuente: http://www.datuopinion.com/estudio-experimental
![Page 100: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/100.jpg)
● Se evalúa el efecto de un factor experimental (X) sobre un fenómeno (Y)
o Se evalúa la relación: Y = f(x)
● El método incluye por necesidad la observación, pero no es una observación simple o directa
o Puede o no utilizar técnicas estadísticas para aleatorizar o poder hacer pruebas de hipótesis
● La metodología experimental a nivel social ha sido criticada por razones de factibilidad y/o por razones éticas
Descubriendo conocimiento3) Minería de relaciones (XXIII)
Análisis de causalidad
![Page 101: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/101.jpg)
● El modelo científico para el estudio de las relaciones de causa y efecto es el experimento controlado
o Se comparan las respuestas de un grupo experimental expuesto al estímulo crucial con los de un grupo de control equivalente que no es sometido al estímulo
Descubriendo conocimiento3) Minería de relaciones (XXIV)
Análisis de causalidad
![Page 102: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/102.jpg)
Descubriendo conocimiento3) Minería de relaciones (XXV)
Análisis de causalidad
Grupo experimental
Grupo de control
Momento 1 X1 W1
Exposición al estímulo E
Sin exposición al estímulo E
Momento 2 X2 W2
![Page 103: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/103.jpg)
Descubriendo conocimiento3) Minería de relaciones (XXVI)
Análisis de causalidad
● Efecto del Estímulo = (X1 - W1) - (X2 - W2)
● Si los dos grupos fueron adecuadamente igualados antes de la aplicación del estímulo, la medida del efecto se simplifica: X1 = W1
● Y el efecto del estímulo se reduce a: X2 = W2
![Page 104: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/104.jpg)
Descubriendo conocimiento3) Minería de relaciones (XXVII)
Análisis de causalidad
![Page 105: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/105.jpg)
Procesamiento datos ETLAplicaciones para Tenzing
Actividad BI.02.4. Minería de relaciones
● Pensar 2 o 3 casos de uso
● Implementar sobre WEKA a partir de los datos normalizados de Pentaho
● Interpretar las conclusiones
● Pensar representación
● Presentar conclusiones
![Page 106: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/106.jpg)
Descubriendo conocimientoMarketing Analytics
Source: https://media.licdn.com/mpr/mpr/p/2/000/268/1b5/21f35eb.jpg
![Page 107: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/107.jpg)
Descubriendo conocimientoMarketing Analytics (II)
● MROI: Marketing Return on Investmento McKinsey review: an integrated analytics approach
could save up to 15-20% total budget
That’s $ 200.000.000.000 worlwide
Source: http://www.thecmosite.com/author.asp?section_id=1137&doc_id=234474
![Page 108: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/108.jpg)
Descubriendo conocimientoMarketing Analytics (III)
Source: http://www.marketingsherpa.com/charts/roi020409-1.gif
![Page 109: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/109.jpg)
Descubriendo conocimientoMarketing Analytics (IV)
1)Marketing-Mix Modeling (MMM)● Big Data to determine the effectiveness of spending by
channel
● Include external variables such as seasonality, and competitor and promotional activities to uncover
o Longitudinal effects: changes individuals and segments over time
o Interaction effects: differences among offline, online and Social Media activities
Marketing investments
Marketing investments
Statistical links
![Page 110: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/110.jpg)
Descubriendo conocimientoMarketing Analytics (V)
2) Heuristich RCQ (Reach; Cost; Quality)● Disaggregate touchpoints into its component paths
o target consumer Reached
o Cost per unique touch
o Quality of engagement
● More limited; but the best one when limited data is available
![Page 111: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/111.jpg)
Descubriendo conocimientoMarketing Analytics (VI)
3) Attribution modeling● Set of rules or algorithms that govern how credit for
converting traffic to sales is assigned to online touchpoints
o Email campaign
o Online ad
o Social-networking feed
o Website
● Statistical modeling regression techniques
![Page 112: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/112.jpg)
Índice de contenidos
● Modelo de datos● Dimensiones de datos● Procesamiento de datos en un ETL● Técnicas de descubrimiento de conocimiento● Text mining● Análisis de Redes Sociales
![Page 113: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/113.jpg)
Text miningIntroducción
● Estudios recientes indican que, de media, el 80% de la información de una empresa está almacenada en forma de documentoso Sin duda, este campo de estudio es muy amplio, por lo
que técnicas como la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automática, entre otras, apoyan el text mining (o minería de texto)
![Page 114: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/114.jpg)
● En ocasiones se confunde el text mining con la recuperación de la información (Information Retrieval, IR) [Hearst, 1999]o Esta última, no obstante, consiste en la reacuperación
automática de documentos relevantes mediante indexaciones de textos, clasificación, categorización, etc.
o Generalmente se utilizan palabras clave para encontrar una página relevante
o En cambio, el text mining se refiere a una examinar uan colección de documentos y descubrir información no contenida en ningún documento individual [Nasukawa, 2001]
Text miningIntroducción (II)
![Page 115: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/115.jpg)
● Hay una enorme cantidad de información en textoo Aparte de los libros, periódicos y enciclopedias en
Internet, se generan enormes cantidades de información textual
Text mining¿Por qué?
Fuente: http://sandrolopezrivera.blogspot.com.es/2011_02_01_archive.html
![Page 116: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/116.jpg)
Text miningPasos
1) Obtención y agrupación Texto
2) Pre procesamiento
3) Generación de atributos
4) Selección de atributos
5) Minería de datos
6) Interpretación y evaluación
![Page 117: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/117.jpg)
Text miningPasos: 1) Obtención y agrupación del texto
● Los textos se encuentran en documentos dispersos como páginas web, informes, actualizaciones de status, etc.
● El primer paso, así, consiste en la obtención de estos datos y su agrupamiento para comenzar a trabajar
![Page 118: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/118.jpg)
Text miningPasos: 2) Pre-procesamiento
● Eliminar el ruidoo Texto deliberadamente equivocado (SPAM)o Textos ambiguoso Texto erróneoo Palabras que no tienen poder discriminatorio (STOP
WORDS)o Ruido en el formato (tags, links)o Multiplicidad de idiomaso Sinónimos, palabras con varios significadoso Frases típicas
![Page 119: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/119.jpg)
Text miningPasos: 2) Pre-procesamiento (II)
![Page 120: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/120.jpg)
Text miningPasos: 2) Pre-procesamiento (III)
● Convertir el documento en un vector de palabras: tokenization
Fuente: http://escritura.proyectolatin.org/topicos-avanzados-de-bases-de-datos/cap3-sistemas-de-recuperacion-de-informacion-sri/
![Page 121: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/121.jpg)
Text miningPasos: 2) Pre-procesamiento (IV)
● Con WEKA:o Se puede importar los datos en CSV
o Hay que eliminar los caracteres: , ; : “ ‘ % ()
o Aplicar primero el filtro NominalToString
o Aplicar el filtro StringToWordDetector
![Page 122: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/122.jpg)
Text miningPasos: 3) Generación de atributos
● Representación del textoo Bag of Words
Fuente: http://www.docstoc.com/docs/25215223/Bag-of-Words-Classification
![Page 123: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/123.jpg)
Text miningPasos: 3) Generación de atributos (II)
● Representación del textoo Bag of Words
Fuente: http://en.wikipedia.org/wiki/Bag-of-words_model
![Page 124: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/124.jpg)
Text miningPasos: 4) Selección de atributos
● ¿Qué palabras tienen la mejor capacidad discriminatoria?
● Se puede usar un clasificadoro Latent Semantic Analysis
Es una teoría y un método para extraer y representar el significado de las palabras dentro de un contexto utilizando técnicas estadísticas sobre un cuerpo de texto grande
![Page 125: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/125.jpg)
Text miningPasos: 4) Selección de atributos (II)
● En WEKAo Ir a “Select attributes”
o Seleccionar “Latent Semantic Analysis”
o Start
o Guardar el nuevo dataset
![Page 126: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/126.jpg)
Text miningPasos: 5) Minería de datos
● Se puede usar cualquiera de las técnicas vistas en el apartado de descubrimiento de conocimientoo Clasificacióno Descubrimiento estructuraso Reglas de asociación
![Page 127: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/127.jpg)
Text miningPasos: 6)Interpretación y evaluación
● Interpretaro Descubrimiento estructuras
● Evaluar los resultadoso Clasificación
o Reglas de asociación
● Sacar conclusiones o iterar sobre los pasos anteriores
![Page 128: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/128.jpg)
Text miningHerramientas
![Page 129: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/129.jpg)
Text miningHerramientas (II)
![Page 130: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/130.jpg)
Text miningAplicaciones para Tenzing
![Page 131: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/131.jpg)
Procesamiento datos ETLAplicaciones para Tenzing
Actividad BI.02.5. Text Mining
● Pensar 2 o 3 casos de uso
● Implementar sobre Pentaho + Alchemy + OpenCalais a partir de los datos normalizados de Pentaho
● Interpretar las conclusiones
● Pensar representación
● Presentar conclusiones
![Page 132: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/132.jpg)
Índice de contenidos
● Dimensiones de datos● Modelo de datos● Procesamiento de datos en un ETL● Técnicas de descubrimiento de conocimiento● Text mining● Análisis Redes Sociales
![Page 133: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/133.jpg)
Análisis Redes Sociales¿Qué es?
● NO es solo Análisis de Social Mediao Puede ser parte
● Sociología + Matemáticaso Actores que interactúano Teoría de Grafos
● Estudio numérico y representación gráfica
![Page 134: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/134.jpg)
Análisis Redes Sociales¿Qué es? (II)
Fuente: http://www.soc.duke.edu/~jmoody77/chains.pdf
![Page 135: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/135.jpg)
Análisis Redes Sociales¿Qué se estudia?
● Redes egocéntricaso Actor principal con sus relaciones, hasta el grado n
(“amigos de amigos de amigos”)
● Redes completaso Número de nodos determinado por una característica
concreta: son los que son (UE)
● Grandes redeso Redes con muchos nodos en las que en general el
investigador corta el límite
![Page 136: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/136.jpg)
Análisis Redes SocialesElementos
● Actoreso Los nodos de la red no tienen por qué ser
necesariamente personas, pueden ser países, o incluso actividades
o Depende de lo que se esté investigando
● Vínculoso Los vínculos que unen a los actores se definen por sus
propiedades o características de la relación
![Page 137: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/137.jpg)
Análisis Redes SocialesElementos (II)
Fuente: http://www.economiapersonal.com.ar/2014/06/14/red-social/
![Page 138: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/138.jpg)
Análisis Redes SocialesCaracterísticas
● Basado en relaciones y vínculos entre actores
● Recogida sistemática de datos empíricos del tipo de relación estudiada entre cada par de actoreso Representado por gráficos
● Se apoya en el uso de las matemáticas, principalmente la teoría matemática de grafosy/o en modelos informáticos
![Page 139: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/139.jpg)
Análisis Redes SocialesTeoría de Grafos
● Surge en el siglo XVIII con Euler (1707-1803)o El problema de los puentes de Konigsberg
● Resolución de problemas que pueden ser modelados mediante un grafo y resueltos mediante algoritmos específicamente desarrollados para un grafo
Fuente: http://pequenoldn.librodenotas.com/matiaventuras/1130/7-puentes-para-un-solo-paseo
![Page 140: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/140.jpg)
Análisis Redes SocialesTeoría de Grafos (II)
● La historia del metro de Londres tiene mucha relación con la Teoría de Grafos
o Más concretamente, con la Inmersión de Grafos(Graph Drawing)
o Permite explicar de forma sencilla la representación (inmersión) de un grafo
● Para un mismo conjunto de vértices y una misma lista de conexiones entre ellos, puede haber trazados con o sin cruces entre las líneas.
● Depende del dibujo que se haga del grafo, de la inmersión que se elija, se pueden destacar, y por lo tanto aprovechar, una característica u otra del grafo
![Page 141: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/141.jpg)
Análisis Redes SocialesTeoría de Grafos (III)
● Los primeros mapas del metro de Londres eran geográficos
o Dibujar sobre un plano de la ciudad los recorridos de las distintas líneas
● Harry Beck, ingeniero electrónico empleado en el metro de Londres, se percató en 1931 de que al usuario no le interesaba conocer el recorrido del metro bajo tierra
o Simplemente le interesaba conocer la posición relativa de las líneas y estaciones para realizar los trasbordos que necesitase
Fuente: http://lizlangstaff.blogspot.com.es/2011/10/harry-beck.html
![Page 142: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/142.jpg)
Análisis Redes SocialesTeoría de Grafos (IV)
● Más que un diseño geográfico, resultaría más útil un diseño topológico
o Menos curvas y direcciones en las líneas
o De broma, hizo su primer diseño basado en los utilizados en circuitos eléctricos
● En 1936, entre otros cambios, eliminó curvas y sólo permitió ángulos de 45º y 90º
● En 1940, se incorporaron ángulos de 60º también, idea que se desechó por enturbiar la claridad del plano
![Page 143: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/143.jpg)
Análisis Redes SocialesTeoría de Grafos (V)
Fuente: http://www.planlondres.com/transports-londoniens/plan-du-metro-de-londres-40.html
![Page 144: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/144.jpg)
Análisis Redes SocialesTeoría de Grafos (VI)
● ¿Por qué?o Proporciona vocabulario preciso
o Herramientas cuantitativas
● Grafoo “Un grafo (G) es un conjunto de vértices o nodos (N) y
líneas (L) que unen pares de nodos.”
o Nodos: actores
Pueden poseer atributos (sexo, grupo étnico, etc.)
o Líneas: vínculos
Puede haber diferentes tipos/características (amistad, influencia)
A → B
![Page 145: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/145.jpg)
Análisis Redes SocialesTeoría de Grafos (VII)
Fuente: http://blog.visual.ly/movie-galaxies-uses-social-graph-organization-to-visualize-movie-interconnectedness/
![Page 146: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/146.jpg)
Análisis Redes SocialesTeoría de Grafos (VIII)
● Mediciones: Nodoso Adyacencia / Incidencia
Dos nodos son adyacentes si están relacionados
Una línea y un nodo son incidentes entre sí si el nodo es uno de los que definen la línea
o Grado
El grado de un nodo, designado d(n) es el número de líneas que son incidentes con él (nodos adyacentes)
![Page 147: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/147.jpg)
Análisis Redes SocialesTeoría de Grafos (IX)
● Mediciones: Nodos (cont.)o Centralidad
La centralidad de un nodo ayuda a dilucidar su “importancia” en la red, aunque no la representa por completo
El grado es una medida de centralidad
Distancia media geodésica al resto de nodos: cercanía
Intermediación: medida de las veces que un nodo se interpone entre la distancia geodésica de otros
![Page 148: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/148.jpg)
Análisis Redes SocialesTeoría de Grafos (X)
● Mediciones: Nodos (cont.)o Centralidad
Fuente: http://historiapolitica.com/redhistoria/2013/02/8n-en-twitter/
![Page 149: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/149.jpg)
Análisis Redes SocialesTeoría de Grafos (XI)
● Mediciones: Nodos (cont.)o Centralidad
![Page 150: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/150.jpg)
Análisis Redes SocialesTeoría de Grafos (XII)
● Mediciones: Nodos (cont.)o Centralidad
![Page 151: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/151.jpg)
Análisis Redes SocialesTeoría de Grafos (XIII)
● Mediciones: Nodos (cont.)o Centralidad
Fuente: http://slideplayer.es/slide/19335/
![Page 152: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/152.jpg)
Análisis Redes SocialesTeoría de Grafos (XIV)
● Mediciones: Nodos (cont.)
![Page 153: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/153.jpg)
Análisis Redes SocialesTeoría de Grafos (XV)
● Mediciones: Nodos (cont.)o Caminos
Un camino es una ruta que une dos nodos pasando por otros.
Hay diferentes tipos de caminos● walk
● trail: walk en el que todas las líneas son distintas
● path: trail que no repite nodos
● semipath: en un grafo dirigido, path que ignora el sentido de las uniones
![Page 154: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/154.jpg)
Análisis Redes SocialesTeoría de Grafos (XVI)
● Mediciones: Nodos (cont.)o Caminos
Fuente: http://jariasf.wordpress.com/2012/03/19/camino-mas-corto-algoritmo-de-dijkstra/
![Page 155: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/155.jpg)
Análisis Redes SocialesTeoría de Grafos (XVII)
● GPS Data on Beijing Cabs Reveals the Cause of Traffic Jams
o Investigadores de la Microsoft Research Asia han dividido la ciudad en regiones (figura contigua), analizando cómo los taxis se mueven a través de ellas
o Si se puede tomar un camino directo entrea A y B, y un taxista toma un camino alternativa... ¿qué pasa?
o Algoritmo aplicable a ciudades con mucha densidad de taxis (Mexico City, Bangkok, Tokyo, New York, Buenos Aires y Moscow)
![Page 156: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/156.jpg)
Análisis Redes SocialesTeoría de Grafos (XVIII)
● Mediciones: Nodos (cont.)o Conexión
Débilmente conectados: semicamino
Unilateralmente conectados● Path de a a b pero no a la inversa
Fuertemente conectados: unilateralmente conectados en ambos sentidos
Recursivamente conectados: orden de nodos idéntico pero inverso
![Page 157: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/157.jpg)
Análisis Redes SocialesTeoría de Grafos (XIX)
● Mediciones: Nodos (cont.)o Distancia geodésica
Longitud del path más corto entre dos nodos
Si no son alcanzables entre sí, infinita o idefinida
Fuente: http://wiki.uniandes.edu.co/RedesJuegosAltruismo/tiki-index.php?page=JULIAN_FELIPE_CA%C3%91ON_CARVAJAL
![Page 158: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/158.jpg)
Análisis Redes SocialesTeoría de Grafos (XX)
● Mediciones: Grafoo Densidad
Proporción entre líneas existentes y líneas posibles
Líneas posibles● Grafo no orientado: g (g-1) / 2
● Grafo orientado: g (g-1)
o Subgrafo
Un grafo G2 es subgrafo de G1 si G1 contiene G2
![Page 159: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/159.jpg)
Análisis Redes SocialesTeoría de Grafos (XXI)
● Mediciones: Grafoo Densidad
![Page 160: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/160.jpg)
Análisis Redes SocialesTeoría de Grafos (XXII)
● Mediciones: Grafoo Diámetro
Distancia geodésica más alta entre dos nodos
o Punto de corte
Nodo que, al eliminarlo rompe el grafo
![Page 161: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/161.jpg)
Análisis Redes SocialesTeoría de Grafos (XXIII)
● Representación de los datoso Matriz de adyacencia
o Lista de aristas
o Lista de adyacencia
![Page 162: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/162.jpg)
Análisis Redes SocialesTeoría de Grafos (XXIV)
● Matriz de adyacencia
![Page 163: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/163.jpg)
Análisis Redes SocialesTeoría de Grafos (XXV)
● Lista de aristaso 2, 3
o 2, 4
o 3, 2
o 3, 4
o 4, 5
o 5, 2
o 5, 1
![Page 164: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/164.jpg)
Análisis Redes SocialesTeoría de Grafos (XXVI)
● Lista de adyacenciao Más útiles para redes poco
densas o grandes
o Lista:
1:
2: 3 4
3: 2 4
4: 5
5: 1 2
![Page 165: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/165.jpg)
Análisis Redes SocialesTeoría de Grafos (XXVII)
● Softwareo NodeXL
o Gephi
o R / Python
![Page 166: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/166.jpg)
Análisis Redes SocialesAplicaciones para Tenzing
Actividad BI.02.6. Análisis Redes Sociales
● Pensar 2 o 3 casos de uso
● Implementar sobre Gephi a partir de los datos normalizados de Pentaho
● Interpretar las conclusiones
● Pensar representación
● Presentar conclusiones
![Page 167: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/167.jpg)
Análisis Redes SocialesAplicaciones para Tenzing
![Page 168: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/168.jpg)
Análisis Redes SocialesAplicaciones para Tenzing (II)
![Page 169: Análisis y procesamiento de datos para descubrir conocimiento](https://reader033.fdocuments.mx/reader033/viewer/2022052602/5599fa2f1a28ab91378b4760/html5/thumbnails/169.jpg)
El proceso de análisis y explotación de datos en proyectos de Business
IntelligenceMódulo 02: Análisis y procesamiento de datos para
descubrir conocimiento
Alex Rayón [email protected]
Octubre, 2014