De los árboles a la cama de un hospital

32
@sgcampus @sgcampus José Carlos Méndez De la Torre De los árboles a la cama de un hospital

Transcript of De los árboles a la cama de un hospital

@sgcampus

@sgcampus

José Carlos Méndez De la Torre

De los árboles a la cama de un hospital

@sgcampus

Agenda

• Introducción– Métodos de clasificación

• Contexto– Escenario– Datos– Metodología

• Propuesta– “Pregunta de negocio” y caso de uso

@sgcampus

Introducción

@sgcampus

Introducción

• Datos– Fuentes diversas– Heterogeneidad– Integridad – Limpieza

Aprendizaje automático y minería de datos

@sgcampus

Introducción

La minería de datos o exploración de datos es un campo de la estadística y las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos.

@sgcampus

Introducción

Inteligencia artificial y estadística

• Redes neuronales artificiales• Regresiones (lineales o no)• Árboles de decisión• Modelos estadísticos• Clustering

Algunos se podrán dividir entre supervisados y no supervisados

@sgcampus

Contexto

@sgcampus

Contexto

• En un hospital existe una bitácora en la que se registran los resultados de las intervenciones quirúrgicas realizadas a pacientes en el área de pediatría.

• Se registran las condiciones iniciales, eventos ocurridos durante la intervención, y resultado final de la intervención.

@sgcampus

Contexto

• Intervención programada o de urgencia

• Edad y sexo del paciente

• Eventualidades como transfusiones sanguíneas

• Quién participó en la intervención

• Tipo de destino del paciente

@sgcampus

Contexto

• No existe una forma estándar de llevar la bitácora• Los registros de la bitácora se llevan en una hoja

de cálculo• No hay un proceso de homologación de

información• Los registros son hechos por los mismos médicos

según van terminando su turno

@sgcampus

Contexto

• Palabras mal escritas

• Sinónimos

• Nomenclatura recortada

• Errores de captura en los campos

@sgcampus

Contexto

Why we need a methodology for data science

IBM Big Data & Analytics Hubhttp://www.ibmbigdatahub.com/blog/why-we-need-methodology-data-science

@sgcampus

Contexto

@sgcampus

Contexto

Business understanding

Every project, regardless of its size, starts with business understanding, which lays the foundation for successful resolution of the business problem.

@sgcampus

Contexto

¿El destino del paciente será “ambulatorio” o “piso”?

@sgcampus

Propuesta

@sgcampus

Propuesta

• Predictor del destino del paciente– Historial de las intervenciones– Registro de condiciones iniciales – Registro del destino del paciente

• ¿Qué se necesita para predecir?

• ¿Qué variables son importantes para predecir?

@sgcampus

Propuesta

@sgcampus

Propuesta

@sgcampus

Propuesta

@sgcampus

Propuesta

@sgcampus

Propuesta

@sgcampus

Propuesta

• Árbol de clasificación– Fácil interpretación de resultados– Representación visual– Agrupación de variables– Jerarquías de variables– Automatización e implementación fácil

• Extracción de reglas de negocio• Sistema experto

@sgcampus

Propuesta

• Marzo• 20 variables• Limpieza de información

– Expresiones regulares– Minúsculas– Eliminación de espacios y caracteres

especiales– Sustitución de palabras

@sgcampus

Propuesta

• 8 variables– Edad en meses– Sexo– Diagnóstico– Tipo de programación– Tiempo en minutos– Hemoderivados– Incidentes– Destino

@sgcampus

Propuesta

• Árbol C 4.5– En RWeka se llama J48– Entropía o desorden de la información– Aprendizaje supervisado– Clasificador– La variable que mejor divide al conjunto de

datos se fija y se vuelve a iterar

@sgcampus

Propuesta

• Destino

– formulaDestino <- Destino ~ EdadMeses + Sexo + ProgramadoUrgencia + TiempoMinutos + Incidentes

@sgcampus

Propuesta

@sgcampus

Propuesta

• ¿Necesita hemoderivados?

– formulaHemo <- Hemoderivados ~ EdadMeses + ProgramadoUrgencia + Sexo + TiempoMinutos

@sgcampus

Propuesta

@sgcampus

¿Preguntas?

@[email protected]