Charla big data y data mining para gestión de información y bibliotecas
-
Upload
felipe-vera -
Category
Engineering
-
view
401 -
download
3
description
Transcript of Charla big data y data mining para gestión de información y bibliotecas
Santiago, octubre 2014
Felipe Vera L Director Ejecutivo
Prodigio Consultores
www.prodigioconsultores.com
Charlas CORFO
Big Data Aplicada a la Gestión de Información
Big data y minería de datos
en unidades de información y Bibliotecas
Big Data
Big Data es en el sector de tecnologías de la información y la comunicación una referencia a los sistemas que manipulan grandes conjuntos de datos (o data sets). Las dificultades más habituales en estos casos se centran en la captura, almacenamiento, búsqueda, compartición, análisis y visualización.
www.americanis.net
Las “V” del Big Data (Gartner)
Volumen de los datos.
Velocidad en el tratamiento de los datos.
Variedad de los datos.
Valor de los datos que tiene que ver con la confiabilidad.
“Venue” o campo de trabajo, que habla de la complejidad de tener una alta
diversidad de fuentes de datos no estructurados.
Visualización, una herramienta útil para trasformar análisis
complejos en formatos procesables.
Evolución
Estructuración,
Digitalización y
almacenamiento
Análisis y toma
de decisiones
Servicios y uso
Big data, gestión de información y Bibliotecas
Big data, gestión de información y Bibliotecas
Big data, gestión de información y Bibliotecas
Big data, gestión de información y Bibliotecas
La Biblioteca como fuente de datos
El problema de lo tácito V/S Explícito
Patrones
Conexiones
Tendencias
Información
estructurada
¿Qué se busca?
Información no
estructurados
Las unidades de información y Bibliotecas
son una vasta y activa fuente de datos
Inteligencia de Negocios – cadena de valor
Datos • Datos Clientes
• Datos Tiendas
• Datos Demográficos
• Datos Geográficos
Información • X vive en Z
• S tiene Y anos
• X y S se cambiaron
• W tiene dinero en Z
Conocimiento • Una cantidad Y del producto A es
usada en la región Z
• Clientes de la clase P usan x% de
producto C en el periodo D
Decisión y servicios • Promocione el producto A en la región Z
• Mailing a familias del perfil P
• Venta cruzada del servicio B a clientes C
Minería de datos
“Es un proceso no trivial de identificación de patrones de
datos válidos, nuevos, potencialmente usables”
(Fayyad, Piatetsky-Shapiro y Smyth, 1996).
Minería de datos en Unidades de información
“Extracción y descubrimiento de patrones de comportamiento, datos e información no trivial proveniente de la totalidad de los sistemas de
información tradicionales (opac´s, circulación) y por sobre todo de la gran variedad de servicios de información basados en la web (sitio web, redes sociales, Repositorios), con el fin de apoyar a la toma de decisiones y a
los objetivos estratégicos de la organización a la cuál pertenezca.
“Integración a la cadena de valor”
Minería de datos – metodología KDD
2.Selección y
Preprocesamiento
4.Interpretación y
Evaluación
Knowledge
p(x)=0.02
Warehouse
Patrones y Modelos
Datos preparados
Datos Consolidados
3.Data Mining
1.Consolidación
de los Datos
Conocimiento
p(x)=0.02
DW
2.Selección y
Preprocesamiento
4.Interpretación y
Evaluación
Knowledge
p(x)=0.02
Warehouse
Patrones y Modelos
Datos preparados
Datos Consolidados
3.Data Mining
1.Consolidación
de los Datos
Conocimiento
p(x)=0.02
DW
6. Apoyo a la Toma
de Decisiones
5. Visualización
del conocimiento
6. Apoyo a la Toma
de Decisiones
5. Visualización
del conocimiento
Data Science - elementos
Data Science
3 focos para el entrenamiento en el manejo de datos
Christopher Erdmann, Head Librarian
Harvard-Smithsonian Center for Astrophysics
Técnicas
Aplicaciones
Cultura de datos y analítica
Alguna técnicas
Fuentes de datos Minería de datos
Web mining
- Web content mining
- Web structure mining
- Web usage mining
Text mining
Process mining
Concept based text mining
Procesamiento de lenguaje natural (PLN) *
Tipos de problemas a resolver con Data mining
Problemas
Clasificación
Regresión
Agrupamiento
Reglas de
asociación
Análisis
correlacional
Predictivos
(supervisados)
Descriptivos
(no Supervisados)
Aplicaciones de Data mining - Support Vector Mchines
20
- Base de datos inicial
- Hiperplano separador
- Función de decisión (decisión de corte)
Aplicaciones de Data mining – no supervisados
Aplicaciones de Data mining a Unidades de información
Se requiere conocer la demanda que tendrán ciertas bases de datos en un periodo determinado.
Problema supervisado de regresión.
Se requiere saber si x postulaciones a ciertas líneas de financiamiento CORFO tienen potencial de éxito.
Problema Predictivo de clasificación.
Se requiere segmentar los tipos de usuarios de un sistema de Bibliotecas para ofrecer recursos de información diferenciados.
Problema no supervisado de agrupamiento.
Tipos de problemas a resolver con Data mining
Se requiere saber que recursos de información se utilizan por cierto perfil de usuario o el director de la institución.
Problema descriptivo de reglas de asociación.
Se requiere saber que recursos de información (parte de la bibliografía base) se asocian (tipos y frecuencia) con los alumnos que obtienen mejor rendimiento.
Modelo no supervisado de análisis correlacional.
Tipos de problemas a resolver con Data mining
Principales métodos y algoritmos utilizados en Data Mining
K-medias – No supervisado de agrupamiento.
Árboles de decisión – Supervisado - regresión y clasificación.
Regresión Lineal y Logística - Supervisado clasificación y regresión.
Redes Neuronales - Supervisado y no supervisado.
Reglas de Asociación – No supervisados de reglas de asociación.
Vector Suport Machine – Supervisados de clasificación.
5 habilidades esenciales para abordar un proyecto
de minería de datos en unidades de información
Claridad en las fuentes de beneficios
y/o ingresos.
Capacidades analíticas.
Pensamiento estratégico del negocio.
Visión estratégica de la tecnología.
Visualización (sobre todo cuando es producto final).