Want to create interactive content? It’s easy in Genially!
6 M1 SIG, estadística y big data - M2 -Elementos de la ciencia de datos: Procesos y fuentes
CEV PUCE
Created on February 3, 2020
Start designing with a free template
Discover more than 1500 professional designs like these:
Transcript
Elementos de la ciencia de datos: Procesos y fuentes
SIG, estadística y big data
Habilidades de Hackeo
Matemáticas + Estadísticas
Ciencia de Datos
Experiencia
Aplicar el modelo
Planificación
Modelamiento de datos
Preparación de Datos
+ info
+ info
+ info
+ info
Preparación de los datos
- 80% del tiempo del proyecto en preparación de datos.
- 20% el resto de operaciones.
- ¿Por qué es tan importante invertir ese tiempo en preparar los datos?
- GIGO: ¡basura entra, basura sale!
- Muchas veces, proyectos de machine learning o inteligencia artificial pueden ser desarrollados con una simple regresión lineal en datos depurados.
- Si los datos están preparados, el análisis puede ser muy simple.
Preparación de los datos
- Columnas = variables
- Filas = casos
- Una hoja por archivo
- Un nivel de observación por archivo: personas, clientes, productos, etc.
- No títulos, no imágenes, no colores, no celdas combinadas.
Fuentes de datos
In-house: datos propios de empresa o institución:
- Rápido, sin restricciones, barato.
- Gratis, de libre uso. Gobierno, ciencia, redes sociales.
- JSON Placeholder, algunas fuentes libres otras pagadas. Diseñados para compartir datos.
Fuentes de datos
Scraping data:
- Extracción de datos. Limitaciones legales y éticas. Privacidad, derechos de autor, visible ≠ abierto. IMPORTHTML
- Observación, entrevistas, encuestas.
- Datos de entrenamiento AI, hashtags, vehículos autónomos, sensores.
- Datos de entrenamiento AI, hashtags, vehículos autónomos, sensores.
Reglas
Sistemas expertos:
- Algoritmos con reglas explícitas similares al proceso de toma de decisiones de los humanos .
- Diagramas de flujo.
- Diagnósticos-procedimientos.
- Estrategias de negocio.
- Regresiones, predicción .
- Árbol de decisiones (If, Else).
- Redes neuronales, diferentes al razonamiento humano .
- Pueden ser muy complejas. Ayudan a los algoritmos a funcionar. No pueden ser descritas en lenguaje humano.
Aplicaciones para ciencia de datos
Hojas de cálculo::
- Excel
- Googlesheets
- Strucured Query Language
- Tableau
- Qlik
- SPSS
- JASP
- Jamovi
Lenguajes para ciencia de datos
Python:
- El más popular .
- Fácil y comprensible.
- Propósito general (se puede hacer muchas cosas).
- Específico para análisis de datos.
- Popular en investigación.
Servicios
Microsoft Azure ML Amazon Machine Learning Google AutoML IBM Watson Analytics
