Want to create interactive content? It’s easy in Genially!

Get started free

6 M1 SIG, estadística y big data - M2 -Elementos de la ciencia de datos: Procesos y fuentes

CEV PUCE

Created on February 3, 2020

Start designing with a free template

Discover more than 1500 professional designs like these:

Transcript

Elementos de la ciencia de datos: Procesos y fuentes​

SIG, estadística y big data

Habilidades de Hackeo

Matemáticas + Estadísticas

Ciencia de Datos

Experiencia

Aplicar el modelo

Planificación

Modelamiento de datos

Preparación de Datos

+ info

+ info

+ info

+ info

Preparación de los datos ​

  • 80% del tiempo del proyecto en preparación de datos​.
  • 20% el resto de operaciones.​
  • ¿Por qué es tan importante invertir ese tiempo en preparar los datos?​
  • GIGO: ¡basura entra, basura sale!
  • Muchas veces, proyectos de machine learning o inteligencia artificial pueden ser desarrollados con una simple regresión lineal en datos depurados. ​
  • Si los datos están preparados, el análisis puede ser muy simple.​

Preparación de los datos ​

  • Columnas = variables​
  • Filas = casos​
  • Una hoja por archivo​
  • Un nivel de observación por archivo: personas, clientes, productos, etc.​
  • No títulos, no imágenes, no colores, no celdas combinadas​.

Fuentes de datos

In-house: datos propios de empresa o institución​:

  • Rápido, sin restricciones, barato.
Open Data (datos abiertos):
  • Gratis, de libre uso. Gobierno, ciencia, redes sociales​.
APIs: Aplication Programming Interface​:
  • JSON Placeholder, algunas fuentes libres otras pagadas. Diseñados para compartir datos​.

Fuentes de datos

Scraping data​:

  • Extracción de datos. Limitaciones legales y éticas. Privacidad, derechos de autor, visible ≠ abierto. IMPORTHTML​
Creación de datos:
  • Observación, entrevistas, encuestas.​
Recolección pasiva de datos:
  • Datos de entrenamiento AI, hashtags, vehículos autónomos, sensores​​.
Recolección pasiva de datos:
  • Datos de entrenamiento AI, hashtags, vehículos autónomos, sensores​​.

Reglas

Sistemas expertos​:

  • Algoritmos con reglas explícitas similares al proceso de toma de decisiones de los humanos​ .
  • Diagramas de flujo.
  • Diagnósticos-procedimientos​.
  • Estrategias de negocio​.
Derivación de reglas a partir del análisis de datos:
  • Regresiones, predicción​ .
  • Árbol de decisiones (If, Else).​
Reglas implícitas:
  • Redes neuronales, diferentes al razonamiento humano​ .
  • Pueden ser muy complejas. Ayudan a los algoritmos a funcionar. No pueden ser descritas en lenguaje humano.​

Aplicaciones para ciencia de datos​

Hojas de cálculo:​:

  • Excel
  • Googlesheets​
SQL:
  • Strucured Query Language
Visualización (Interacción):
  • Tableau​
  • Qlik
Análisis de datos:
  • SPSS
  • JASP
  • Jamovi

Lenguajes para ciencia de datos​

Python​:

  • El más popular​ .
  • Fácil y comprensible​.
  • Propósito general (se puede hacer muchas cosas).​
R:
  • Específico para análisis de datos.
  • Popular en investigación​.
SQL​ Java ​ Julia ​ MATLAB

Servicios

Microsoft Azure ML​ Amazon Machine Learning​ Google AutoML​ IBM Watson Analytics