Científico de Datos Con Software Libre
description
Transcript of Científico de Datos Con Software Libre
![Page 1: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/1.jpg)
1
Científico de datos con Software LibreIng. Mauricio Arancibia
![Page 2: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/2.jpg)
2 Datos, el nuevo petróleo.
En los últimos 10 minutos se generanmás datos que desde la prehistoria
hasta el 2003.
![Page 3: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/3.jpg)
3 Todo el tiempo estamos generando información
![Page 4: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/4.jpg)
4
![Page 5: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/5.jpg)
5 BIG DATA
Término que hace referencia a una cantidad de datos tal que supera la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Deben garantizarse las 3 Vs (volumen, variedad y velocidad)
![Page 6: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/6.jpg)
6
![Page 7: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/7.jpg)
7 Científico de datos (Data Scientist)
![Page 8: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/8.jpg)
8 Data Scientist: El trabajo más sexy del siglo 21
![Page 9: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/9.jpg)
9 Que es “Data Science”
Habilidades para resolver problemas Habilidades de comunicación Mente abierta Otras cualidades:
Es escéptico y curioso. Conocimientos sobre machine learning Estadísticas y probabilidad Aplica el método científico. Ejecuta experimentos. Es bueno codificando y hackeando. Capaz de hacer frente a la ingeniería de datos de TI. Capaz de encontrar respuestas a las incógnitas. Tiene conocimiento del dominio
![Page 10: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/10.jpg)
10
![Page 11: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/11.jpg)
11 Que hacen los Data Scientists
Diseña y personaliza sistemas y herramientas Trabaja con datos estructurados y no estructurados Crea flujos de procesos de datos Analiza grandes volúmenes de datos (TB, PB) Construye modelos predictivos Crea visualizaciones Diseña productos de datos Usa Hadoop, MapReduce, Hive, Python, R
![Page 12: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/12.jpg)
12 BI vs Data Science
![Page 13: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/13.jpg)
13
![Page 14: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/14.jpg)
14 Flujo del proceso de un Data Scientist
![Page 15: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/15.jpg)
15 Aplicaciones
![Page 16: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/16.jpg)
16 Data Science y el Open Source
Sistemas operativos: Linux + Shell tools
Instrumentos Big data: Hadoop (MapReduce) + hadoop tools Hive, Pig NoSQL (Hbase, MongoDB, Cassandra, Neo4J)
Bases de datos SQL
![Page 17: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/17.jpg)
17 Data Science y el Open Source
Programación: Python Java R
Machine Learning: Matlab Python libraries (NumPy, SciPy, Nltk) Java Libraries (Mahout)
![Page 18: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/18.jpg)
18 Programación en R
Here are just a few examples: Google uses R to calculate the ROI on advertising campaigns. Ford uses R to improve the design of its vehicles. Twitter uses R to monitor user experience. The US National Weather Service uses R to predict severe flooding. The Rockefeller Institute of Government uses R to develop models for
simulating the finances of public pension funds. The Human Rights Data Analysis Group uses R to quantify the impact of war. R is used frequently by The New York Times to create infographics and
interactive data journalism applications.
![Page 19: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/19.jpg)
19 PROGRAMACIÓN CON R
Que es R? R es un lenguaje de programación estadístico con licencia
GPL. Está basado en el leguaje S desarrollado en los laboratorios
Bell. Es un lenguaje muy poderoso para escribir programas y es
multiplataforma (MacOS, Linux, Windows) Posee muchas funciones estadísticas. Existen muchísimos paquetes que extienden su funcionalidad
![Page 20: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/20.jpg)
20 Introducción con R
Donde lo obtenemos: http://www.r-project.org Descargas: CRAN Seleccionar un mirror Seleccionar el sistema operativo. Seleccionar la base, ultima versión: R 3.2.0
![Page 21: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/21.jpg)
21 Introducción con R
La GUI de R
![Page 22: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/22.jpg)
22 R Studio
RStudio es un entorno de desarrollo integrado (IDE) para R que funciona con la versión estándar de R disponible en CRAN.
Al igual que R, RStudio es software libre. El objetivo de sus creadores es desarrollar una herramienta potente que
soporte los procedimientos y técnicas requeridas para realizar análisis de alta calidad y dignos de confianza.
Al mismo tiempo, pretenden que RStudio sea tan sencillo e intuitivo como sea posible para proporcionar un entorno amigable, tanto para los ya experimentados como para los nuevos usuarios de R.
![Page 23: Científico de Datos Con Software Libre](https://reader035.fdocuments.mx/reader035/viewer/2022062306/5695cef41a28ab9b028bf420/html5/thumbnails/23.jpg)
23