Want to create interactive content? It’s easy in Genially!

Módulo X | CHRSITIAN HIDALGO| ADIA

alaborar

Created on September 22, 2025

Start designing with a free template

Discover more than 1500 professional designs like these:

Teaching Challenge: Transform Your Classroom

Frayer Model

Math Calculations

Interactive QR Code Generator

Piñata Challenge

Interactive Scoreboard

Interactive Bingo

Explore all templates

índice

Haz clic en el módulo al que te quieras dirigir:

Módulo 2 | SQL

Da clic en la clase a la que quieras ir.

Módulo SQL

Lección 1 - Introducción al análisis de datos

Christian Hidalgo

Fundamentos del Análisis de Datos

Contenido: 1. Introducción al análisis 2. Bases relacionales 3. Tipos y derivación 4. Cierre práctico

1. Introducción al análisis

Qué es el análisis de datos KPI y su utilidad Círculo de trabajo analista

Bootcamp Análisis de Datos con IA

¿Qué es el análisis de datos?

Definición: El análisis de datos es el proceso de inspeccionar, limpiar, transformar y modelar información para descubrir patrones y respaldar decisiones. Es esencial en la transformación digital actual. Tipos de análisis: Se divide en análisis descriptivo, predictivo y prescriptivo. Cada tipo sirve para diferentes necesidades de negocio y etapas de toma de decisiones. Importancia: Permite crear valor a partir de datos, identificar oportunidades de mejora y optimizar procesos, lo que es crucial para mantenerse competitivo en el mercado actual.

KPI y su utilidad

Definición de KPI:Los KPI (Key Performance Indicator) son indicadores cuantificables que miden el rendimiento frente a objetivos estratégicos. Son esenciales para alinear equipos y monitorear el progreso. Ejemplos de KPI: Ejemplos comunes incluyen: la tasa de conversión el NPS (Net Promoter Score) el ROI (Retorno de la Inversión). Estos indicadores permiten tomar decisiones basadas en datos.

Círculo de trabajo analista

Definir preguntas de negocio: El primer paso es identificar las preguntas clave que el análisis debe responder. Esto asegura que el trabajo esté alineado con los objetivos estratégicos de la empresa. Recolectar y limpiar datos Se recolectan datos relevantes y se limpian para asegurar su calidad. Esto incluye eliminar duplicados, corregir errores y manejar valores faltantes. Explorar y modelar datos Se exploran los datos para identificar patrones y se aplican modelos estadísticos o de machine learning para extraer insights valiosos. Comunicar resultados Los resultados del análisis se presentan de manera clara y comprensible, utilizando visualizaciones y narrativas que faciliten la toma de decisiones.

2. Bases relacionales

Modelo de bases relacionales Clave primaria y clave foránea

Bootcamp Análisis de Datos con IA

Modelo de bases relacionales

Definición: Las bases de datos relacionales son colecciones de tablas interconectadas donde cada fila es un registro y cada columna un atributo. Son ampliamente utilizadas en sistemas transaccionales.Normalización: La normalización es un proceso que elimina la redundancia de datos y mejora la integridad de los datos. Esto asegura que la información esté almacenada de manera eficiente. Lenguaje SQL: SQL es el lenguaje estándar para interactuar con bases de datos relacionales. Permite realizar consultas, actualizar datos y gestionar la estructura de la base de datos.

Clave primaria y clave foránea

Clave primaria:La clave primaria es un atributo o conjunto de atributos que identifica de manera única cada fila en una tabla. No puede contener valores nulos. Clave foránea La clave foránea es un atributo que referencia la clave primaria de otra tabla. Establece relaciones entre tablas y asegura la integridad referencial.

3. Tipos de datos y derivación

Principales tipos de datos Información derivable de datos

Bootcamp Análisis de Datos con IA

Principales tipos de datos

Numéricos: Los datos numéricos incluyen enteros y decimales, utilizados para representar cantidades y realizar cálculos matemáticos.Fecha y hora: Los datos de fecha y hora son críticos para registrar eventos temporales y realizar análisis basados en el tiempo. Texto: Los datos de texto se utilizan para almacenar descripciones y otros valores no numéricos. Son esenciales para almacenar información cualitativa. Booleano Los datos booleanos representan valores lógicos verdadero o falso. Son útiles para tomar decisiones basadas en condiciones binarias.

Información derivable de datos

Segmentación de clientes: Al cruzar datos de recencia y frecuencia de compra, se pueden segmentar clientes para personalizar ofertas y mejorar la retención.

Predicción de demanda: Las series temporales permiten predecir la demanda futura, lo que es crucial para la gestión de inventarios y la planificación de producción.

Detección de anomalías: El análisis de datos puede detectar anomalías como fraudes, mejorando la seguridad y reduciendo pérdidas financieras.

4. En lo práctico

Ejemplo clave primaria foránea De datos a decisiones Hoja de ruta analítica

Bootcamp Análisis de Datos con IA

Ejemplo clave primaria foránea

Estructura de tablas En la tabla Cliente, id_cliente es la clave primaria. En la tabla Pedido, id_cliente es la clave foránea que vincula cada pedido a un cliente específico.

Beneficios: Esta relación permite realizar consultas complejas, como el historial de compras de un cliente, y asegura que no haya pedidos de clientes inexistentes.

De datos a decisiones

Pipeline completo El análisis de datos comienza con datos crudos, pasa por integración y modelado, y culmina con insights que respaldan decisiones estratégicas.

KPI como validación: Los KPI son fundamentales para medir el impacto de las decisiones tomadas y retroalimentar el proceso de análisis..

SQL: De IBM al Big Data

Contenido: 1. Orígenes y evolución 2. Expansión y madurez 3. SQL moderno 4. Aplicaciones actuales

1. Orígenes y evolución

1970: El Modelo Relacional de Codd 1974: Nace SEQUEL en IBM 1986-1989: SQL se Estandariza

Bootcamp Análisis de Datos con IA

1970: El Modelo Relacional de Codd

La publicación de Edgar F. Codd en IBM propuso el modelo relacional para bases de datos, sentando las bases teóricas que inspirarían SQL y revolucionarían la forma de almacenar y consultar información. "Una base de datos relacional es una base de datos que permite al usuario considerarla como una tabla o una colección de tablas." Edgar F. Codd

1974: Nace SEQUEL en IBM

Del modelo teórico a un lenguaje práctico.

Cambio de Nombre: A "SQL" por problemas legales con la marca "SEQUEL".

Lenguaje Práctico: Se convierte en la herramienta para implementar el modelo relacional..

System R: IBM desarrolla SEQUEL para su sistema prototipo.

1986-1989: SQL se Estandariza

Propuesta de IBM: SQL se traslada desde una propuesta de una empresa hacia un estándar abierto.

Estándar ANSI/ISO: La estandarización impulsa su adopción global, garantiza portabilidad y consolida su posición como lenguaje universal.

2. Expansión y madurez

1990-2000: Dominio Empresarial 2000-2010: Integración Web y OLAP

Bootcamp Análisis de Datos con IA

1990-2000: Dominio Empresarial

La consolidación de SQL en los sistemas de misión crítica.

Sistemas ERP/CRM El pilar tras la gestión de recursos y clientes.

Data Warehouses Almacenes para el análisis estratégico de datos.

Grandes Actores: Oracle, SQL Server y PostgreSQL añaden funcionalidades clave.

2000-2010: Integración Web y OLAP

SQL se adapta a la explosión de la web y las necesidades de análisis complejos. Pila LAMP: MySQL se vuelve popular en aplicaciones web con PHP y Java. OLAP: Extensiones para agregaciones complejas y cubos de datos para la inteligencia de negocios.

3. SQL moderno

2010-2020: El Desafío y la Evolución 2020-2025: SQL en la Nube y Lakehouses

Bootcamp Análisis de Datos con IA

2010-2020: El Desafío y la Evolución

NewSQL Sistemas que mantienen SQL y el modelo relacional, añadiendo escalabilidad horizontal y alta disponibilidad.

NoSQL Surge para manejar volúmenes masivos y datos no estructurados, desafiando el modelo relacional.

vs

2020-2025: SQL en la Nube y Lakehouses

La vigencia de SQL en plataformas cloud modernas, combinando rendimiento serverless con economía de almacenamiento masivo. Plataformas como BigQuery, Snowflake y Databricks. Unificación del análisis sobre data lakes (datos estructurados y semiestructurados).

4. Aplicaciones actuales

Streaming SQL Machine Learning con SQL SQL como API Universal

Bootcamp Análisis de Datos con IA

Streaming SQL

Análisis en tiempo real sobre flujos de datos con motores como Apache Flink o ksqlDB.

Monitoreo IoT Análisis de datos de sensores en tiempo real para predicciones.

Detección de Fraudes Identificación de transacciones sospechosas en milisegundos.

Dashboards en Vivo Actualización de métricas clave con la latencia más baja posible.

Machine Learning con SQL

Plataformas modernas ofrecen extensiones SQL para entrenar y desplegar modelos de ML sin salir del lenguaje, facilitando a los analistas crear predicciones. Predicciones de ventas Sistemas de recomendación Clasificación de datos

SQL como API Universal

La tendencia a exponer SQL como interfaz estándar sobre APIs REST y GraphQL

Reduce curvas de aprendizaje y acelera la integración de nuevos servicios con un lenguaje común.

Módulo SQL

Lección 2 - Recuperación básica y filtrado de datos

Christian Hidalgo

Database management systems (DBMS)

Contenido: 1. Relacional vs. No relacional 2. DBMS: definición y Ejemplos 3. Conceptos de bases de datos 4. Tipos de datos

Relacional vs. No relacional

Datos estructurados versus datos no estructurados
Tablas con relaciones versus colecciones flexibles
SQL versus NoSQL para la gestión de datos
Escalabilidad vertical versus escalabilidad horizontal

DBMS: definición y Ejemplos

Es el software central que gestiona bases de datos.
Permite crear, recuperar, actualizar y eliminar datos.
MySQL es un ejemplo popular de motor de base de datos.
Sistema para gestionar y administrar todas las bases de datos.
SQL Server es un sistema de gestión de bases de datos.

HACK Alaborar

Un analista de datos tiene su biblioteca de recursos para seguir aprendiendo:

Listado de funciones con ejemplos para aplicarlos en cualquier momento: https://www.w3schools.com/sql/default.asp

Conceptos de bases de datos

Es una colección organizada de información.

Almacena datos de forma estructurada.

Contiene tablas, campos y registros.

Permite gestionar y consultar grandes volúmenes.

Ejemplo: tabla Artist

Ejemplo de relación

Tipos de datos: cadena

Tipos de datos: numéricos

Tipos de datos: fecha y hora

Primeros pasos: queries

Contenido: 1. Instalación Dbeaver 2. Conociendo Dbeaver 3. Clausula Select ... From ... 4. Distinct 5. Where y operadores 6. Operadores And, Or, Not

1. Instalación de DBeaver

Busque en: DBeaver Community Free Universal Database Tool

2. Clic en Download 3. Clic en Windows (Installer)

1. Instalación de DBeaver

Link proceso de instalación:https://www.youtube.com/watch?v=GfdhC7su4X0

1. Instalación de DBeaver

Una vez instalado: hay que cargar la base de pruebas

Clic en Si hasta que cargue la base de ejemplo

2. Conociendo Dbeaver

Conociendo Dbeaver

2. Conociendo Dbeaver

Conociendo Dbeaver

2. Conociendo Dbeaver

3. Clausula Select ... From ...

4. Distinct

5. Where y operadores

6. Operadores And, Or, Not

El operador AND busca los datos en los que ambas condiciones existen en cualquier fila de la tabla de datos

6. Operadores And, Or, Not

Si se combinan varias condiciones con el operador OR, se devolverán todas las filas que cumplan alguna de las condiciones dadas

6. Operadores And, Or, Not

Cuando se combinan varias condiciones utilizando el operador NOT, se devolverán todas las filas que no cumplan las condiciones dadas.

Ejercicios

Utilice Dbeaver Sample Database (SQLite), encuentre:
Encuentre el album con id sea 10
Encuentre el nombre de cada canción
Encuentre el listado de artistas
Cuántos compradores registra la base
Liste el nombre, apellido y cargo de los empleados
Encuentre las facturas que tengan un monto entre $4,99 a $8,99
Selecciones las facturas que correspondan a Norway o USA

Módulo SQL

Lección 3 - Columnas calculadas y ordenación

Christian Hidalgo

Columnas Calculadas

Contenido: 1. Cláusula Order By 2. Cláusula Limit y offset 3. Funciones de agregación: MIN, MAX, Count, Count Distinct, Sum, AVG 4. Alias

1. Cláusula Order by

A diferencia de nuestra tabla ordenada cuidadosamente ordenada en las últimas lecciones, la mayoría de los datos en bases de datos reales se añaden en ninguna orden de columna en particular. SQL proporciona una manera de ordenar sus resultados mediante una columna dada en ascenso o descendente orden utilizando la ORDER BY cláusula

2. Cláusula Limit y Offset

Las clausulas LIMIT y OFFSET,sirven para indicar a la base de datos el subconjunto de los resultados que se desea. El LIMIT reducirá el número de filas a volver, y la OFFSET especificará dónde empezar a contar las filas

3. Funciones de agregación

Una función de agregación es una función que realiza un cálculo en un conjunto de valores, y devuelve un solo valor. Estas funciones se utilizan a menudo con la clausula GROUP BY. El GROUP BY divide el resultado en grupos de valores y la función agregada se puede utilizar para devolver un valor único para cada grupo.

3. Funciones de agregación: MIN()

La función MIN() devuelve el valor más pequeño de la columna seleccionada.

La función MIN() combinada con GROUP BY devuelve el valor más pequeño de la columna seleccionada agrupado .

3. Funciones de agregación: MAX()

La función Max() devuelve el valor más GRANDE de la columna seleccionada.

La función MAX() combinada con GROUP BY devuelve el valor más grande de la columna seleccionada agrupado .

3. Funciones de agregación: COUNT()

La función COUNT() devuelve el conteo de la columna seleccionada.

La función COUNT() combinada con GROUP BY devuelve el conteo de la columna seleccionada agrupado .

3. Funciones de agregación: COUNT( DISTINCT )

La función COUNT( DISTINCT ) devuelve el conteo de la columna seleccionada PERO IGNORANDO LOS DUPLICADOS.

La función COUNT(DISTINCT ) combinada con GROUP BY devuelve el conteo de la columna seleccionada agrupado PERO IGNORANDO LOS DUPLICADOS.

3. Funciones de agregación: SUM()

La función SUM() devuelve el valor total de la columna seleccionada.

La función SUM() combinada con GROUP BY devuelve el valor total de la columna seleccionada agrupado .

3. Funciones de agregación: AVG()

La función AVG() devuelve el valor promedio de la columna seleccionada.

La función AVG() combinada con GROUP BY devuelve el valor promedio de la columna seleccionada agrupado .

4. Alias

Los alias SQL se utilizan para dar una tabla, o una columna en una tabla, un nombre temporal.Las alizas se utilizan a menudo para hacer los nombres de las columnas más legibles.Sólo existe un alias durante la duración de esa consulta.Un alias se crea con la Palabra clave AS.

https://sqlbolt.com/lesson/select_queries_introduction

Módulo SQL

Lección 4 - Agrupación y agregación: estadistica descriptiva

Christian Hidalgo

SQL JOIN

Contenido: 1. Normalización 2. Qué es un join 3. INNER JOIN 4. LEFT JOIN 5. RIGHT JOIN 6. FULL JOIN 7. SELF JOIN

1. Normalización

La normalización es la transformación de las vistas de usuario complejas y del almacén de datos a un juego de estructuras de datos más pequeñas y estables. La normalización de bases de datos es un proceso que consiste en designar y aplicar una serie de reglas a las relaciones obtenidas tras el paso del modelo entidad-relación al modelo relacional. Redundancia: Se llama así a los datos que se repiten continua e innecesariamente por las tablas de las bases de datos. Ambigüedades: Datos que no clarifican suficientemente el registro al que representan.

1. Normalización: reglas

Primera Forma Normal (1FN)Una tabla está en la primera forma normal si, y solo si, cumple con estas reglas: Todos los datos son atómicos. Todos los atributos o columnas son del mismo tipo de datos.

1. Normalización: reglas

Segunda Forma Normal (2FN)Una tabla está en la segunda forma normal si sigue estas reglas:Si la tabla está en la primera forma normal. Los atributos que no forman parte de ninguna clave han de depender funcionalmente de toda la clave primaria.

1. Normalización: reglas

Tercera Forma Normal (3FN)Una tabla está en la tercera forma normal si cumple estas reglas:Si la tabla está en la segunda forma normal.Los atributos no-clave no pueden depender de forma transitiva de una clave candidata (cuando un atributo que no sea clave depende de una clave primaria a través de otro atributo que no sea clave).

1. Normalización: reglas

Forma Normal de Boyce-CoddUna tabla está en la forma de Boyce-Codd si cumple las siguientes condiciones:Si está en la tercera forma normal.Si cada determinante es una clave candidata.Un determinante es un atributo que determina el valor de otro atributo.Una clave candidata es una clave o una clave alternativa (en otras palabras, el atributo puede ser una clave para dicha tabla).

1. Normalización: reglas

Cuarta Forma Normal (4FN)Una tabla está en la cuarta forma normal si cumple los siguientes criterios: Si está en la forma normal de Boyce-Codd. Si no contiene más de una dependencia multi-valor.Quinta Forma Normal (5FN) y otrasBásicamente, una tabla está en la quinta forma normal, cuando no puede ser dividida en tablas más pequeñas con diferentes claves (la mayor parte de las tablas se pueden dividir en tablas más pequeñas con la misma clave).

2. Qué es un join

JOIN combinar filas con valores iguales para las columnas especificadas. Normalmente, una tabla contiene una clave principal, que consiste en una o varias columnas que identifican de forma única las filas de la tabla (la columna cat_id en la tabla cat). La otra tabla tiene una o varias columnas que hacen referencia a las columnas de clave principal de la primera tabla (la columna cat_id en la tabla toy). Estas columnas son claves foráneas. La condición JOIN establece la igualdad entre las columnas de clave principal de una tabla y las columnas que hacen referencia a ellas en la otra tabla.

3. INNER JOIN

The INNER JOIN keyword selects records that have matching values in both tables.

4. LEFT JOIN

The LEFT JOIN keyword returns all records from the left table (table1), and the matching records from the right table (table2). The result is 0 records from the right side, if there is no match.

5. RIGHT JOIN

The RIGHT JOIN keyword returns all records from the right table (table2), and the matching records from the left table (table1). The result is 0 records from the left side, if there is no match.

6. FULL JOIN

The FULL OUTER JOIN keyword returns all records when there is a match in left (table1) or right (table2) table records.

7. SELF JOIN

A self join is a regular join, but the table is joined with itself.

Módulo SQL

Lección 5 de SQL: Null, Filtrado avanzado y Wildcards

Christian Hidalgo

1. Valores Null

Lo ideal es no tener valores NULL en las bases de datos porque requieren especial, atención al construir consultas, restricciones (ciertas funciones se comportan de manera diferente con valores nulos y al procesar los resultados). Es imposible colocar expresiones con valores NULL en los operadores =, <, <=, >, >=, <>, !=. Es necesario utilizar IS NULL, o IS NOT NULL

1. Valores Coalesce()

La función COALESCE devuelve el primer valor no NULL de una lista de expresiones.

En este caso, va a tomar el salario del empleado, si este no tiene, le pone 0 en la variable adjusted_salary

2. Like (%)

El operador LIKE es utilizado en WHERE para especifica un patrón de busqueda. El signo de porcentaje % representa zaro, uno o varios caracteres. El guión bajo _ representa un solo caracter.

2. Like (-)

El guión bajo _ representa un solo caracter. En el caso del ejemplo que sigue: se busca todas las ciudades que empiecen su nombre con L, contenga un espacio y a continuación "nd".

2. Like (% y -)

Que contenga un L dentro del nombre

Que el nombre empiece con "La"

Que el nombre empiece con al letra b y termine con "S"

2. Like (% y -)

Que el nombre del empiece con "A" o que empiece con "B"

Que el nombre termine con "A"

2. Wildcards

Una Wildcard puede ser utilizada en combinación con otras wildcars y tienen distintos significados

2. Wildcards ejemplos %

Este ejemplo busca en la tabla Clientes todos los registros donde el Nombre comience con la letra 'A', sin importar qué caracteres le sigan.

SELECT * FROM Clientes WHERE Nombre LIKE 'A%'

2. Wildcards ejemplos %

Buscar productos que contengan la palabra 'acero'

SELECT * FROM Productos WHERE NombreProducto LIKE '%acero%'

2. Wildcards ejemplos %

Identificar empleados cuyo correo electrónico termina en '.com'

SELECT * FROM Empleados WHERE Email LIKE '%.com'

2. Wildcards ejemplos _

Encontrar clientes con nombres de 4 letras que empiecen con 'An'

SELECT * FROM Clientes WHERE Nombre LIKE 'An_ _'

2. Wildcards ejemplos _

Buscar códigos de producto con un formato específico:

SELECT * FROM Productos WHERE CodigoPorducto LIKE 'PROD-_-_ _'

2. Wildcards ejemplos _

Identificar palabras mal escritas o con variaciones:

SELECT * FROM Comentarios WHERE Texto LIKE '%col_r%'

2. Wildcards ejemplos []

Encontrar clientes cuyo nombre empieza con 'J', 'K' o 'L'

SELECT * FROM Clientes WHERE Nombre LIKE '[JKL]%'

2. Wildcards ejemplos []

Buscar productos con un código de serie específico:

SELECT * FROM Productos WHERE CodigoProducto LIKE 'A-[1-4]%'

2. Wildcards ejemplos []

Identificar empleados cuyo apellido NO empieza con una vocal:

SELECT * FROM Empleados WHERE Apellido LIKE '[^AEIOU]'

2. Wildcards ejemplos -

Encontrar empleados cuyo apellido empieza con una letra de la 'A' a la 'F'

SELECT * FROM Empleados WHERE Apellido LIKE '[A-F]%'

2. Wildcards ejemplos -

Buscar productos con un número de modelo entre 500 y 799

SELECT * FROM Productos WHERE NumeroModelo LIKE 'Modelo-[5-7]%'

2. Wildcards ejemplos ^

Buscar productos cuyo código de referencia NO termine en un número del 1 al 5

SELECT * FROM Productos WHERE CodigoReferencia LIKE 'REF-[^1-5]'

2. Wildcards ejemplos {}

Identificar usuarios con un nombre que NO sigue un patrón alfabético simple:

SELECT * FROM Usuarios WHERE Username LIKE 'jo[^a-s]'

Módulo SQL

Lección 6 de SQL: Null, Filtrado avanzado y Wildcards

Christian Hidalgo

1. Valores Null

Lo ideal es no tener valores NULL en las bases de datos porque requieren especial, atención al construir consultas, restricciones (ciertas funciones se comportan de manera diferente con valores nulos) y al procesar los resultados. Es imposible colocar expresiones con valores NULL en los operadores =, <, <=, >, >=, <>, !=. Es necesario utilizar IS NULL, o IS NOT NULL

1. Valores Coalesce()

La función COALESCE devuelve el primer valor no NULL de una lista de expresiones.

En este caso, va a tomar el salario del empleado, si este no tiene, le pone 0 en la variable adjusted_salary

2. Like (%)

El operador LIKE es utilizado en WHERE para especifica un patrón de busqueda. El signo de porcentaje % representa zaro, uno o varios caracteres. El guión bajo _ representa un solo caracter.

2. Like (-)

El guión bajo _ representa un solo caracter. En el caso del ejemplo que sigue: se busca todas las ciudades que empiecen su nombre con L, contenga un espacio y a continuación "nd".

2. Like (% y -)

Que contenga un L dentro del nom bre

Que el nombre del empiece con "A" o que empiece con "B"

Que el nombre empiece con "La"

Que el nombre termine con "A"

Que el nombre empiece con al letra b y termine con "S"

2. Wildcards

Una Wildcard puede ser utilizada en combinación con otras wildcars y tienen distintos significados

2. Wildcards: ejemplos %

Este ejemplo busca en la tabla Clientes todos los registros donde el Nombre comience con la letra 'A', sin importar qué caracteres le sigan.

SELECT * FROM Clientes WHERE Nombre LIKE 'A%'

2. Wildcards: ejemplos %

Buscar productos que contengan la palabra 'acero'

SELECT * FROM Productos WHERE NombreProducto LIKE '%acero%'

2. Wildcards: ejemplos %

Identificar empleados cuyo correo electrónico termina en '.com'

SELECT * FROM Empleados WHERE Email LIKE '%.com'

2. Wildcards: ejemplos _

Encontrar clientes con nombres de 4 letras que empiecen con 'An'

SELECT * FROM Clientes WHERE Nombre LIKE 'An_ _'

2. Wildcards: ejemplos _

Buscar códigos de producto con un formato específico

SELECT * FROM Productos WHERE CodigoPorducto LIKE 'PROD-_-_ _'

2. Wildcards: ejemplos _

Identificar palabras mal escritas o con variaciones

SELECT * FROM Comentarios WHERE Texto LIKE '%col_r%'

2. Wildcards: ejemplos []

Encontrar clientes cuyo nombre empieza con 'J', 'K' o 'L'

SELECT * FROM Clientes WHERE Nombre LIKE '[JKL]%'

2. Wildcards: ejemplos []

Buscar productos con un código de serie específico

SELECT * FROM Productos WHERE CodigoProducto LIKE 'A-[1-4]%'

2. Wildcards: ejemplos []

Identificar empleados cuyo apellido NO empieza con una vocal

SELECT * FROM Empleados WHERE Apellido LIKE '[^AEIOU]'

2. Wildcards: ejemplos -

Encontrar empleados cuyo apellido empieza con una letra de la 'A' a la 'F'

SELECT * FROM Empleados WHERE Apellido LIKE '[A-F]%'

2. Wildcards: ejemplos -

Buscar productos con un número de modelo entre 500 y 799

SELECT * FROM Productos WHERE NumeroModelo LIKE 'Modelo-[5-7]%'

2. Wildcards: ejemplos ^

Buscar productos cuyo código de referencia NO termine en un número del 1 al 5

SELECT * FROM Productos WHERE CodigoReferencia LIKE 'REF-[^1-5]'

2. Wildcards: ejemplos {}

Identificar usuarios con un nombre que NO sigue un patrón alfabético simple

SELECT * FROM Usuarios WHERE Username LIKE 'jo[^a-s]'

Módulo SQL

Lección 7 - Unión y condiciones

Christian Hidalgo

UNION TABLES

Contenido: 1. UNION 2. UNION ALL 3. INTERSECT 4. EXCEPT 5. SEMI JOIN 6. ANTI JOIN 7. CONDICIONES - CASE WHEN

1. UNION

El operador UNION se utiliza para combinar el conjunto de resultados de dos o más queries SELECT. El operador UNION elimina automáticamente las filas duplicadas del conjunto de resultados: Para que funcione se debe tener varias consideraciones: -Las consultas a unir deben tener el mismo número de columnas -Las columnas a unir deben tener el mismo tipo de datos -Las columnas deben estar en el mismo orden

1. UNION

SELECT DISTINCT BillingCountry AS PAIS FROM InvoiceUNION SELECT DISTINCT COUNTRY AS PAIS FROM CUSTOMER;

2. UNION ALL

El operador UNION se utiliza para combinar el conjunto de resultados de dos o más queries SELECT. El operador UNION duplica las filas repetidas del conjunto de resultados: Para que funcione se debe tener varias consideraciones: -Las consultas a unir deben tener el mismo número de columnas -Las columnas a unir deben tener el mismo tipo de datos -Las columnas deben estar en el mismo orden

2. UNION ALL

SELECT DISTINCT BillingCountry AS PAIS FROM InvoiceUNION ALLSELECT DISTINCT COUNTRY AS PAIS FROM CUSTOMER;

3. INTERSECT

La cláusula INTERSECT combina los conjuntos de resultados de dos o más sentencias SELECT y devuelve solo las filas que son idénticas en todos los conjuntos de resultados. Para que funcione se debe tener varias consideraciones: -Las consultas a unir deben tener el mismo número de columnas -Las columnas a unir deben tener el mismo tipo de datos -Las columnas deben estar en el mismo orden

SELECT DISTINCT BillingCountry AS PAIS FROM InvoiceINTERSECTSELECT DISTINCT COUNTRY AS PAIS FROM CUSTOMER;

4. EXCEPT

La cláusula EXCEPT (también conocida como MINUS en algunas bases de datos como Oracle) se utiliza para combinar dos conjuntos de resultados de consultas SELECT y devuelve las filas únicas que se encuentran en el primer conjunto de resultados pero no en el segundo.Piensa en ella como una resta de conjuntos: te da lo que está en A y no está en B.

SELECT DISTINCT BillingCountry AS PAIS FROM InvoiceEXCEPTSELECT DISTINCT COUNTRY AS PAIS FROM CUSTOMER;

5. SEMI JOIN - WHERE

El operador WHERE logra el efecto de un Semi Join, ya que filtra filas de la tabla izquierda basándose en si su valor clave existe en la lista de valores devueltos por la subconsulta.

SELECT * FROM ALBUM WHERE ARTIST_ID IN (SELECT ARTIST_ID FROM ARTIST)

6. ANTI JOIN

El operador WHERE logra el efecto de un Semi Join, ya que filtra filas de la tabla izquierda basándose en si su valor clave existe en la lista de valores devueltos por la subconsulta.

SELECT * FROM ALBUM WHERE ARTIST_ID NOT IN (SELECT ARTIST_ID FROM ARTIST)

7. CONDICIONES - CASE WHEN

La expresión CASE evalúa una lista de condiciones y devuelve una expresión diferente para cada resultado.

1. Uso básico:

7. CONDICIONES - CASE WHEN

2. Multiples condiciones

7. CONDICIONES - CASE WHEN

3. Ordenar los datos

7. CONDICIONES - CASE WHEN

4. Conteo condicional

Módulo SQL

Lección 8 - subqueries: tipos y correlación

Christian Hidalgo

SUBQUERIES:

Contenido: 1. Subquery escalar 2. Subquery de columna 3. Subquery de fila 4. Subquery de tabla 5. Subqueries no correlacionadas 6. Subqueries correlacionadas

Subqueries

¿Qué es una sub consulta o subquery?Es una consulta dentro de otra consulta o instrucción SQL.
Se utiliza para cálculo o prueba lógica que proporciona un valor o un conjunto de datos.
Está siempre encerrada entre paréntesis.
Es ejecutada, por lo general, antes de la instrucción principal externa
Permiten una recuperación de datos más compleja y eficaz.

1. Subqueries escalares

Las subconsultas escalares devuelven un único valor, como una fila y una columna. Suelen utilizarse cuando se espera un único valor, como en cálculos, comparaciones o asignaciones en las cláusulas SELECT o WHERE.

1. Subqueries escalares: ejemplo

-- consulta las facturas y los clientes que realizan compras sobre el promedio SELECT CUS.FirstName, CUS.LastName, INV.TOTAL FROM INVOICE AS INV INNER JOIN Customer CUS ON INV.CustomerId = CUS.CustomerIdWHERE TOTAL>(SELECT AVG(TOTAL) FROM Invoice)ORDER BY TOTAL DESC;

2. Subqueries de columna

Las subconsultas de columna devuelven una sola columna pero varias filas. Estas subconsultas se utilizan a menudo con el operador IN, donde la consulta externa compara valores de varias filas.

2. Subqueries de columna: ejemplo

-- consultar el nombre del album de los artistas que su nombre cuyo nombre empieza con A SELECT AlbumId , Title FROM album WHERE ArtistId IN ( SELECT ArtistId FROM Artist WHERE NAME LIKE "A%");

3. Subqueries de fila

Las subconsultas de fila devuelven una única fila que contiene varias columnas. Estas subconsultas se suelen utilizar con operadores de comparación que pueden comparar una fila de datos, como los operadores = o IN, cuando se esperan varios valores.

3. Subqueries de fila: ejemplo

--consulte todas las facturas que se generaron en la ciudad donde vive el consumidor id=3 SELECT BillingCountry as PAIS, BillingCity as CIUDAD,TOTALFROM INVOICEWHERE (PAIS, CIUDAD) = (SELECT Country as PAIS, City AS CIUDAD FROM Customer WHERE CustomerId=3);

4. Subqueries de tabla

Las subconsultas de tabla, o tablas derivadas, devuelven una tabla completa de varias filas y columnas. Se suelen utilizar en la cláusula FROM como tabla temporal dentro de una consulta

4. Subqueries de tabla: ejemplo

--de la tabla de facturas unida con tracks, obtenga Nombre, Composer, Milliseconds, Bytes, UnitPrice SELECT NAME, COMPOSER, Milliseconds, Bytes, UnitPrice FROM ( SELECT * FROM InvoiceLine AS IL INNER JOIN TRACK AS TR ON IL.TrackId=TR.TrackId WHERE Composer like 'A%' )WHERE NAME LIKE 'IN%';

Subqueries: orden de ejecución

La sintaxis de una subconsulta varía en función de dónde se utilice en la sentencia SQL principal, como dentro de las cláusulas SELECT, FROM o WHERE. Las subconsultas suelen ir entre paréntesis ( ), lo que indica que se trata de una consulta independiente.

Subqueries: orden de ejecución

La consulta siguiente sigue el orden de ejecución: La subconsulta SELECT AVG(salary) FROM employees Se ejecuta primero y calcula el salario medio.

Subqueries no correlacionadas

La consulta externa recupera entonces los empleados cuyo salario es superior a esta media.

Subqueries correlacionadas

Dependen de la consulta externa para algunos de sus datos, por lo que se reevalúan para cada fila procesada por la consulta externa. Para cada fila de employees (alias e1), la subconsulta (SELECT AVG(e2.salary) FROM employees e2 WHERE e2.department_id = e1.department_id) calcula el salario medio de ese departamento concreto.

SELECT e1.employee_name FROM employees e1 WHERE e1.salary > ( SELECT AVG(e2.salary) FROM employees e2 WHERE e2.department_id = e1.department_id);

Módulo SQL

Lección 9 - window functions and CTE

Christian Hidalgo

Window fuctions y CTEs:

Contenido: 1. ¿Qué es? 2. Sintaxis 3. Tipos de Funciones y Aplicaciones: Ejemplos: facturación total. 4. CTE en SQL

1. ¿Qué es una window function?

Las Window Functions (Funciones de Ventana) en SQL son una herramienta fundamental y poderosa, especialmente en el análisis de datos, ya que permiten realizar cálculos sobre un conjunto definido de filas relacionadas con la fila actual, sin agregar el conjunto de resultados. Las Window Functions realizan cálculos a través de conjuntos de filas que usted especifica mediante la cláusula OVER. Resultados por Fila (No Agrupación): A diferencia de las funciones agregadas tradicionales (como SUM o AVG utilizadas con GROUP BY), que combinan múltiples filas para devolver un único resultado por grupo, las window functions presentan un resultado para cada fila de la tabla.

1. ¿Qué es una window function?

Contexto: Permiten que los valores de una fila individual se contextualicen o se comparen con un grupo de filas (o "partición"). De esta manera, devuelven cálculos agregados del grupo junto con la información detallada a nivel de fila individual. Disponibilidad: Las funciones de ventana se introdujeron en el estándar ISO SQL en 2003 y están disponibles en la mayoría de los principales tipos de bases de datos, incluyendo PostgreSQL, Oracle, SQL Server y MySQL

2. Sintaxis

Cláusula OVER: es la palabra clave que le indica al motor de la base de datos que la función debe ser tratada como una window function, y no como una función agregada simple. Dentro de los paréntesis se especifica la "ventana" de filas sobre las que operará la función Cláusula PARTITION BY (Opcional): divide las filas de la tabla en subgrupos o particiones, de manera similar a cómo opera la cláusula GROUP BY, pero sin reducir la cantidad de filas en el resultado. Si se utiliza, la función calcula y se reinicia para cada partición. Si se omite, la función opera sobre todo el conjunto de resultados

2. Sintaxis

Cláusula ORDER BY (A menudo requerida): determina el orden de las filas dentro de la partición. Es esencial para funciones que dependen de una secuencia, como los cálculos de clasificación o los totales acumulados. Cláusula de Marco (Frame Clause, Opcional): permite especificar con precisión qué registros incluir en el cálculo de la ventana, en relación con la fila actual. Esto se especifica usando palabras clave como ROWS, RANGE o GROUPS, seguido de BETWEEN y puntos de inicio y fin (e.g., UNBOUNDED PRECEDING y CURRENT ROW)

3. Tipos de Funciones y Aplicaciones

Las window functions pueden clasificarse según su uso principal: Funciones de clasificación: permiten asignar un valor de rango a cada fila dentro de una partición u orden. ROW_NUMBER(): asigna un número entero único a cada fila, comenzando desde 1, según el orden especificado, sin tener en cuenta los valores duplicados. RANK() y DENSE_RANK(): asignan rangos, manejando empates de manera diferente. RANK() deja un espacio en la secuencia de rango después de un empate, mientras que DENSE_RANK() no incluye un espacio (es "denso"). NTILE(n): divide el conjunto de resultados (o partición) en un número (n) predefinido de grupos de tamaño aproximadamente igual.

3. Tipos de Funciones y Aplicaciones

Funciones Agregadas de Ventana: casi todas las funciones agregadas estándar (COUNT, SUM, AVG, MIN, MAX) pueden utilizarse como window functions simplemente añadiendo la cláusula OVER. Cálculos de Totales Acumulados: la función SUM() se utiliza comúnmente con la cláusula ORDER BY (y a veces la cláusula de marco) para calcular totales acumulados o saldos corrientes. Si se omite la cláusula ORDER BY, SUM() calcula el total completo de la partición y lo repite en cada fila. Porcentaje del Total: permite calcular la contribución de una parte al total, calculando primero la suma total del grupo usando la window function y luego dividiendo el valor de la fila actual por ese total.

3. Tipos de Funciones y Aplicaciones

Funciones de Desplazamiento (Lag and Lead): estas funciones son cruciales para el análisis de series de tiempo, permitiendo el acceso a datos de filas anteriores o posteriores sin necesidad de auto-uniones (self-joins) LAG(): recupera un valor de una fila anterior (o "rezagada") dentro de la partición, según el desplazamiento (offset) especificado. Es útil para comparaciones período a período (Month-over-Month o Year-over-Year). LEAD(): recupera un valor de una fila subsiguiente (o "siguiente") dentro de la partición.

Ejemplos: facturación total

4. CTE en SQL

Una CTE, o expresión común de tabla, es un conjunto de resultados temporal y con nombre en SQL que te permite simplificar las consultas complejas, facilitando su lectura y mantenimiento. Al crear un CTE, utilizamos la palabra clave WITH para iniciar la definición del CTE. La sintaxis general de un CTE es la siguiente:

Nos vemos en la siguiente sesión

Nombre de la siguiente clase

Módulo 3 | ESTADÍSTICA APLICADA

Da clic en la clase a la que quieras ir.

Módulo Estadística aplicada

Lección 1 - Introducción

Christian Hidalgo

Preguntas

¿qué tan frecuente es la patología presenta el paciente?¿qué posibilidades de éxito tendrá el tratamiento? ¿sobrevivirá más de cinco años tras el tratamiento? ¿cuál es el rango de normalidad de este parámetro clínico?¿es lo suficientemente fiable esta prueba diagnóstica?

La estadística es una de las áreas de las matemáticas más relacionadas con la vida cotidiana y los negocios.

¿Qué es la estadística?

Ciencia que se ocupa de la organización de los datos, descripción de su comportamiento y el análisis e interpretación de la información obtenida.

Aprender estadística es divertido y sobre todo muy útil en la vida

¿Cómo me ayuda saber estadística?

Calcular cuántos pacientes son atendidos durante el turno de enfermería.
Estimación de si será capaz de procesar un número específico de clientes de un laboratorio.
Comparar la probabilidad de que una persona enferma mejore cuando se usó el medicamento X y compararlo con un caso que no usó ese medicamento.
Conducir un análisis de datos para una investigación científica o un negocio.
Saber si existe demanda suficiente para poder realizar una inversión

Ejemplo 1

Con el objetivo de evaluar la relación entre la cesárea, el parto natural y la puntuación de Apgar en la sala de obstetricia de un hospital durante un período de 10 años, se evaluaron retrospectivamente 2.052 historias clínicas de pacientes. Un Apgar ≤6 se consideró como el puntaje de corte, y los puntajes de Apgar >6 se consideraron como el control.

Ejemplo 2

Se desea conocer el nivel de aprobación de la autoridad electa en una ciudad de 5 millones de votantes.

Se calcula una muestra de 2.000 personas que representan a toda la población y se reduce el costo de la investigación.

Ejemplo 3

ESTADISTICA DESCRIPTIVA

Objetivo es describir un conjunto de datos, es decir, clasificar, representar gráficamente y resumir los mismos

Variable

El término "variable" se refiere a cualquier parámetro que varía y se puede medir (por ejemplo, altura y peso). Pueden ser: se clasifican en variables cualitativas y variables cuantitativas. Esta clasificación es importante porque determinará el tipo de técnicas de análisis que pueden utilizarse para su estudio.

Variable

Variable antropométricas

Tipos de variable

ENSANUT

Describir la situación de salud reproductiva materna e infantil, de las enfermedades crónicas no trasmisibles, la situación nutricional, la situación del consumo alimentario, del estado de micronutrientes, el acceso a programas de complementación alimentaria y suplementación profiláctica, la actividad física, el acceso a los servicios de salud, el gasto en salud de la población ecuatoriana de 0 – 59 años; considerando las diferencias geográficas, demográficas, étnicas, sociales y económicas , las especificidades de sexo, edad.

link: Encuesta Nacional de Salud y Nutrición – ENSANUT – Ministerio de SaludPública

ENSANUT: formulario

ENSANUT: representación

Módulo Estadística aplicada

Lección 2 - Tipos de datos y medidas de tendencia central

Christian Hidalgo

¿Qué tipo de variable es?

TABLAS DE FRECUENCIA

Objetivo es construir una tabla de frecuencias para determinar qué valores concretos se presentan y con qué frecuencia

Tablas de frecuencia

Para variables categóricas o cualitativas

Tablas de frecuencia

¿Qué es?Es una tabla que organiza los datos y expone información de conteos, marcas de clase, frecuencias absolutas, frecuencias relativas, frecuencias absolutas acumuladas y frecuencia relativa acumulada.Aquí se ve cómo se encuentran distribuidos los datos de acuerdo con los valores que puede tomar la variable.

Tablas de frecuencia

Tablas para variables cualitativas

Tablas para variables cuantitativas

Tablas de frecuencia

Ejemplo:

A un grupo de 20 socios de una biblioteca se les ha preguntado sobre el número de libros que han leído el mes pasado. Las respuestas son las siguientes: 4, 2, 1, 0, 3, 1, 4, 2, 0, 2, 1, 1, 2, 1, 2, 4, 3, 4, 1, 2

Ejemplo:

Ejemplo: registro de titulos

https://datosabiertos.gob.ec/dataset/registro-de-titulos/resource/08b4967a-e760-46f8-95d9-d2a8239eec8a

Resumen

MEDIDAS DE TENDENCIA CENTRAL

¿Qué son las medidas de tendencia central?

Ejemplo: promedio

Promedio o media aritmética

La media (aritmética) es una de las medidas de tendencia central más utilizadas. Se interpreta como el promedio de los datos y se construye de forma que intervienen todos los datos observados en su cálculo de la siguiente forma:

Para evaluar la media se debe considerar todos los valores
Un conjunto de datos solo tiene una media, la cual es un valor único
La media es una medida que permite comparar dos o más poblaciones
La media es sensible a tener valores muy altos o muy bajos

Mediana

Una alternativa al cálculo de la media, no sensible a observaciones atípicas o extremas, la constituye la mediana. El valor de la mediana, para un conjunto de datos, se obtiene de forma que deja el mismo número de observaciones arriba y abajo.

Un conjunto de datos solo tiene una mediana, la cual es un valor único
La mediana es una medida que permite comparar dos o más poblaciones
La mediana NO es sensible a tener valores muy altos o muy bajos

Número de datos es par

Número de datos es impar

Moda

La moda se define, para un conjunto de datos, como el valor más frecuente, es decir, el valor que más veces se repite.

Módulo Estadística aplicada

Lección 3 - Medidas de dispersión y forma

Christian Hidalgo

Medidas de dispersión: rango o recorrido

Obtenga: Mínimo Máximo Rango

Medidas de dispersión: varianza

Medidas de dispersión: desviación tipica o estandar

Medidas de dispersión: coeficiente de variación

Medidas de dispersión: percentiles o cuantiles

Medidas de forma: coeficiente de asimetría

Medidas de forma: curtosis

Módulo Estadística aplicada

Lección 4 - Gráficos e introducción a la probabilidad

Christian Hidalgo

GRÁFICOS: USOS

Guía de Diseño para transformar datos en conocimiento claro e impactante.

El Poder de lo Visual

¿Por qué funciona? El cerebro humano procesa imágenes 60,000 veces más rápido que el texto.La visualización es una herramienta de comunicación estratégica fundamental. Ayuda a interpretar información, detectar tendencias y tomar decisiones.

El Porqué: tres áreas clave

Los Cimientos: entendiendo tus datos

Identificando Relaciones en los Datos

Eligiendo tu Lienzo: gráficos clave

El Kit del Diseñador: color

Secuencial monocromático: ideal para datos numéricos que progresan de menor a mayor. Divergente: adecuado para datos con un punto medio crítico (como el cero o la media). Cualitativo: perfecto para representar datos categóricos, creando diferencias claras. Tip de accesibilidad: varía el brillo y la saturación, no solo el tono, para incluir a personas con daltonismo.

El Kit del Diseñador: Layout y Tipografía

La Psicología de la Percepción

Atajos Naturales del Cerebro Atributos Preatentivos:Captados en 10 milisegundos (color, tamaño, forma). Se usan para dirigir la atención instantáneamente.Principios de la Gestalt:Reglas de cómo la mente agrupa elementos (proximidad, similitud) para percibir un todo coherente.

El Arte del Data Storytelling

Cómo Construir tu Historia

Deja de presentar simples números y empieza a comunicar conocimiento claro, memorable y capaz de inspirar la acción.

INTRODUCCIÓN A LA PROBABILIDAD

Objetivo es describir un conjunto de datos, es decir, clasificar, representar gráficamente y resumir los mismos

La teoría de la probabilidad trata de cuantificar la incertidumbre de un suceso dada la imposibilidad de predecir con exactitud el resultado del fenómeno aleatorio.Además, está herramienta ayudará a extraer conclusiones sobre las características de interés de una población, a partir de los datos de una muestra (inferencia estadística)

¿Qué es el fenómeno aleatorio?

Los fenómenos aleatorios son aquellos cuyos resultados son impredecibles. Así, el grupo sanguíneo, nivel de colesterol, la edad, el nivel de ácido úrico, el sexo, el estado civil o la respuesta a un tratamiento de un individuo seleccionado al azar de una población constituyen fenómenos aleatorios, ya que se desconoce su resultado hasta que se produce la observación.

Vamos a jugar BINGO

Sucesos simples o elementales

A cada uno de los resultados posibles de un fenómeno aleatorio se le denomina suceso simple o elemental.

Espacio muestral

El conjunto de sucesos simples o elementales recibe el nombre de espacio muestral.

Espacio muestral

El conjunto de sucesos simples o elementales recibe el nombre de espacio muestral.

¿Cómo medir la probabilidad?

Regla de Laplace

Si bien es cierto que un fenómeno aleatorio se caracteriza por la imposibilidad de predecir su resultado de antemano, es posible cuantificar el grado de incertidumbre de forma que puede establecerse si existen sucesos más probables que otros.

Propiedades: La probabilidad de un suceso siempre estará entre 0 y 1 Si no existe un caso favorable entonces la probabilidad es 0 Si el suceso es seguro, entonces tendrá todos los casos, por lo tanto, su probabilidad es 1

Ejemplo

De un grupo de 50 estudiantes, 23 son mujeres y 27 son hombres. ¿Cuál es la probabilidad de tomar una persona al azar del grupo de estudiantes y que sea una mujer?

La aproximación frecuentista al cálculo de la probabilidad de un suceso aleatorio A se basa en utilizar la frecuencia relativa del suceso

Preguntas: tabla de frecuencia

Módulo Estadística aplicada

Lección 5 - Inferencia estadística

Christian Hidalgo

Objetivo

Uno de los objetivos básicos en la investigación de un determinado fenómeno aleatorio consiste en extraer conclusiones acerca de una característica de interés sobre la población objeto de estudio (nivel promedio de colesterol, proporción de fumadores, diferencia en el nivel promedio de ácido úrico según sexo…) cuando únicamente se dispone de la información contenida en una muestra de dicha población

Distribuciones de probabilidad continua

La Distribución Normal

Distribución de probabilidad normal

La distribución de probabilidad continua más importante es la distribución normal. Existen dos razones fundamentales:

Tiene algunas propiedades que la hacen aplicable a un gran número de situaciones. Por ejemplo, en el muestreo.

La distribución normal casi se ajusta a las distribuciones de frecuencias observadas en fenómenos, incluyendo características humanas (peso, altura, coeficiente intelectual)

Características de la distribución normal

La curva tiene un solo pico; por tanto, es unimodal. Tiene la forma de campana que mencionamos anteriormente.

La media de una población distribuida normalmente cae en el centro de su curva normal.

Debido a la simetría de la distribución normal, la media, la mediana y la moda tienen el mismo valor.

Familia de distribuciones normales

No hay una sola curva normal, sino una familia de curvas normales. Por lo tanto, para definir una distribución normal de probabilidad necesitamos definir solamente dos parámetros: media y la desviación estándar

Familia de distribuciones normales

Área bajo la curva

No importa cuales sean los valores de la media y la desviación estándard para una distribución de probabilidad normal, el area total bajo la curva es de 1,00. Lo que implica que cada mitad de la curva contiene un valor de 0,50 de los valores de manera que las áreas bajo la curva son probabilidades.

Área bajo la curva

1. Aproximadamente 68% de todos los valores de una población normalmente distribuida se encuentra dentro de ± 1 desviación estándar de la media. 2. Aproximadamente 95.5% de todos los valores de una población normalmente distribuida se encuentra dentro de ± 2 desviaciones estándar de la media. 3. Aproximadamente 99.7% de todos los valores de una población normalmente distribuida se encuentra dentro de ± 3 desviaciones estándar de la media

Área bajo la curva: ejemplo

Tenemos un programa de entrenamiento diseñado para mejorar la calidad de las habilidades del personal de atención al cliente. Debido a que el programa es auto administrado, el personal requiere un número diferente de horas para terminarlo. Un estudio de los participantes anteriores indica que el tiempo medio para completar el programa es de 500 horas, y que esta variable aleatoria normalmente distribuida tiene una desviación estándar de 100 horas.

Área bajo la curva: ejemplo

¿Cuál es la probabilidad de que un participante elegido al azar requiera más de 500 horas para completar el programa?

Área bajo la curva: ejemplo

¿Cuál es la probabilidad de que un candidato elegido al azar se tome entre 500 y 650 horas para completar el programa de entrenamiento?

Área bajo la curva: ejemplo

¿Cuál es la probabilidad de que un candidato escogido al azar se tome entre 420 y 570 horas para completar el programa?

Área bajo la curva: ejemplo

¿Cuál es la probabilidad de que un candidato escogido al azar se tome entre 420 y 570 horas para completar el programa?

Distribuciones de probabilidad continua

La Distribución Normal Estándar

Características de la distribución normal estándar

Área bajo la curva: ejemplos

Los ingresos mensuales del personal de salud tienen una distribución normal con media $1000 y desviación estándar de $100. ¿Cuál es el valor Z para salarios de $1100 y $900?

Área bajo la curva: ejemplos

Los ingresos mensuales del personal de salud tienen una distribución normal con media $1000 y desviación estándar de $100. ¿Cuál es el valor Z para salarios de $1100 y $900?

Área bajo la curva: ejercicios

Una población normal tiene media de 50 y desviación estándar de 4:

Calcule la probabilidad de tener un valor 44 y 55

Evalúe la probabilidad de tener un valor a 55

Determine la probabilidad de tener un valor entre 52 y 55

Área bajo la curva: ejercicios

El tiempo que demora una persona en entregar una cédula de identidad sigue una distribución normal con media de 15 minutos y desviación estándar 3,5 minutos cual es la probabilidad de:

Una prueba se demore más de 20 minutos
20 minutos o menos
Entre 10 y 12 minutos

Módulo Estadística aplicada

Estadística - Lección 6 - Inferencia estadística y muestreo

Christian Hidalgo

Objetivos

Uno de los objetivos básicos en la investigación de un determinado fenómeno aleatorio consiste en extraer conclusiones acerca de una característica de interés sobre la población objeto de estudio (nivel promedio de compra, proporción de fumadores, diferencia en el nivel promedio de uso de un servicio según sexo…) cuando únicamente se dispone de la información contenida en una muestra de dicha población

Objetivos

Inferencia estadística: definiciones básicas

Población, Muestra y Estimador

Pero por qué inferir

En algunas ocasiones, únicamente se puede disponer de información sobre algunos de los individuos o elementos de la población y no sobre todos ellos.

Un técnico especialista desea estimar el tiempo medio de duración de un lote correspondiente a un determinado tipo de prótesis sometiéndolas a diferentes pruebas de desgaste.
En un estudio se pretende estimar el tiempo medio de espera en la sala de urgencias de un centro hospitalario.
Se desea contrastar si la proporción de fumadores en España es superior al 45%

Porque…

En el primer caso, la población la componen todas las prótesis del lote. Dado que la observación del tiempo de duración de una prótesis implica en este caso su destrucción, esto supondría la desaparición de todas ellas.
En el segundo caso, la población la formarían todos los posibles usuarios del servicio de urgencias. Esta población, en contra de lo que pudiera parecer, es una población infinita, puesto que un mismo usuario puede acudir más de una vez y existen infinitos instantes de tiempo en los que podrían producirse llegadas al servicio.
En el tercer caso, la población estaría compuesta por todos los habitantes del estado español. Aunque esta población podría llegar a ser teóricamente observada en su totalidad, el coste económico que supondría entrevistar a todos los habitantes podría hacerlo inviable.

Definiciones

En cualquiera de estos casos, será necesario seleccionar un subconjunto de elementos de la población objetivo sobre los que será observada la variable relacionada con la característica de interés. Población: se define como población a cualquier conjunto de individuos o elementos sobre el que se pretende estudiar una determinada característica.Muestra: es un subconjunto de individuos o elementos de dicha población. Adicionalmente, esta muestra será aleatoria si los individuos o elementos han sido seleccionados al azar mediante una técnica de muestreo aleatorio determinada.Parámetro: es cualquier característica cuantitativa de una o más variables de la población, generalmente desconocida, sobre la que se pretende realizar algún tipo de inferencia (estimar o contrastar).

Ejemplos:

Ejemplo 1: educación secundaria en Ecuador Población: Estudiantes de secundaria en Ecuador Muestra: 500 estudiantes seleccionados en 10 colegios de Quito Parámetro: El promedio de calificaciones en matemáticas de los estudiantes del Ecuador. Ejemplo 2: salud en América Latina Población: Todos los adultos mayores de 65 años en América Latina Muestra: 1.000 adultos mayores encuestados en hospitales de Colombia, Perú y Chile Parámetro: El porcentaje de adultos mayores que padecen hipertensión en América latina Ejemplo 3: merketing y publicidad Población: todos los clientes que compraron en una cadena de supermercados del último año Muestra: 2.000 clientes seleccionados aleatoriamente de la base de datos de compras Parámetro: El gasto promedio anual por cliente en esa cadena de supermercados

Muestreo

Definiciones y tipos de muestreo

Muestreo

Los intervalos de confianza y los contrastes de hipótesis son técnicas inferenciales que permiten realizar afirmaciones sobre parámetros desconocidos de la población a partir de la información contenida en una MUESTRA

cualquier afirmación que se realice sobre los parámetros poblacionales estará sujeta a un error inherente al propio proceso de muestreo que recibe el nombre de error muestral, también denominado error aleatorio, cuando la muestra ha sido obtenida mediante algún procedimiento de muestreo aleatorio

Muestreo

Si estos estimadores se construyen a partir de los datos de la muestra, la forma en que hayan sido seleccionados los individuos o elementos de esta influirán enormemente sobre los resultados que puedan obtenerse y, en este caso, sobre el valor del estimador puntual. Las estimaciones se alejarán de los verdaderos valores de los parámetros poblacionales, produciéndose un error denominado error sistemático o sesgo

Muestreo

Las distintas técnicas de muestreo se clasifican en probabilísticas o aleatorias y no probabilísticas. La diferencia estriba fundamentalmente en que, en las primeras, cada uno de los individuos o elementos de la poblacióntiene una probabilidad conocida y distinta de 0 de ser incluido en la muestra, mientras que en las últimas esta cuestión se desconoce.

Muestreo

Muestreo aleatorio simple

Para una población de tamaño N, se obtiene una muestra de tamaño n de tal forma que cualquier persona tiene la misma probabilidad de selección. Pero cuantas combinaciones posibles hay por lo tanto, la probabilidad de seleccionar una de esas combinaciones viene dado por

Muestreo aleatorio simple

Procedimiento selección de la muestra

El procedimiento de selección de una muestra por muestreo aleatorio simple sería el siguiente:

Disponer de un listado enumerado de todos los individuos o elementos de la población.

Seleccionar n números aleatorios entre 1 y N utilizando una tabla de números aleatorios.

Seleccionar los individuos o elementos de la población correspondientes a los números aleatorios seleccionados.

Ejemplo

Estimación

Estimación puntual y por intervalos

Estimación

Con frecuencia el interés del investigador se centra en estimar o cuantificar el valor de un parámetro desconocido de la población a partir de la información contenida en una muestra.

Estimación puntual

La primera etapa en el proceso de estimación de un parámetro desconocido de la población consiste en obtener, a partir de los datos de la muestra, un valor que será utilizado como estimación de dicho parámetro. Este valor, denominado estimador puntual En general, es habitual utilizar letras del alfabeto griego para referirse a los parámetros poblacionales, y el acento circunflejo para referirse al estimador puntual del parámetro.

Estimación puntual: proporción

En el ejemplo 2-4 se pretende estimar el valor de la proporción poblacional de éxito de una determinada intervención quirúrgica a partir de la información contenida en una muestra de 50 individuos. La proporción de éxito tras la intervención observada se calcularía de la siguiente forma:

Donde r es el número de individuos de la muestra en los que la intervención ha sido un éxito y n es el tamaño de la muestra. Esto significa que el 80% de los pacientes que tendrían esta interveción será un éxito.

Estimación puntual: media

Se pretende estimar el valor de la media de edad de los individuos que practican ejercicio de forma regular. Se cuenta con información sobre 20 individuos que practican algun tipo de ejercicio en los que la media es:

Definiciones

Estadístico: un estadístico es cualquier función de los datos de la muestra o, equivalentemente, cualquier característica cuantitativa calculada a partir de los datos de la muestra. Estimador: un estimador es un estadístico (luego es calculable a partir de los datos de la muestra) que, por su construcción, intenta acercarse al verdadero valor de un parámetro desconocido de la población.

Definiciones

Estadístico: La estatura promedio. Estimador: La estatura promedio en la muestra

Módulo Estadística aplicada

Estadística - Lección 7 -Métodos de Muestreo e inferencia

Christian Hidalgo

Métodos de muestreo

Muestreo aleatorio sistemático

No siempre se puede utilizar el muestreo aleatorio simple. Por ejemplo, si se desea obtener una muestra de tamaño n de una población infinita, como es el caso de personas en una linea de espera en un supermercado. Para ello se aplica el muestreo aleatorio sistemático. En este caso, se puede tomar un número aleatorio, por ejemplo 10, y realizar cada 10 personas la evaluacion.

Muestreo aleatorio sistemático

Para obtener la muestra se sigue el siguiente procedimiento: - Las personas o elementos de estudio se ubican en orden, en este caso por orden de llegada. - Se selecciona al azar el punto de partida. - Luego se elige el k-ésimo elemento de la población.

Muestreo aleatorio estratificado

La población se divide en subgrupos, denominados estratos y se selecciona una muestra por cada uno de los estratos.Una vez que se han dividido los estratos, se puede tomar una muestra proporcional o no proporcional al estrato.

Muestreo aleatorio estratificado: proporcional

Si se determina una muestra de 100 personas con enfermedades relacionadas al sistema endócrino:

Muestreo aleatorio por conglomerados

Sirve para obtener una muestra de la población en un área dispersa. El muestreo por conglomerados es un método de muestreo probabilístico que se utiliza cuando en una población estadística se evidencian grupos homogéneos, pero que son internamente heterogéneos. Los elementos de la población son seleccionados al azar en forma natural por agrupaciones (clusters). Las unidades de muestreo o grupos pueden ser espaciados

Inferencia

Estimaciones puntuales: media

La media muestral es el mejor estimador de la media de la población. Es insesgada, consistente, eficiente y cuando la muestra lo suficientemente grande, la distribución muestral puede ser aproximada por una distribución normal.Ejemplo:Tomamos una muestra aleatoria de 35 cajas y registramos el número de jeringascontenidas en cada caja. Obtenemos el promedio de jeringas

Estimaciones puntuales: varianza

Suponga que la administración de la compañía de suministros clínicos desea estimar la varianza y/o la desviación estándar de la distribución del número de jeringas empacadas por caja. El estimador más utilizado para estimar la desviación estándar de la población, es la desviación estándar de la muestra.

Si se usaba n en el denominado, el resultado habría tenido algo de sesgo como estimador de la varianza de la población; específicamente, hubiera tendido a ser demasiado bajo. Utilizar en el divisor n-1, nos da un estimador imparcial de la varianza

Estimaciones puntuales: proporción

La proporción de unidades de una población dada que tiene una característica de interés particular se denota por p. Si conocemos la proporción de unidades de una muestra que tiene la misma característica se pude estimar p con la proporción de la muestra. Ejemplo:Se desea estimar el número de cajas que llegarán dañadas a su destino por mal manejo en el traslado. Podemos verificar una muestra de 50 cajas a partir del punto de embarque hasta su arribo al punto de destino, y luego registrar la presencia o ausencia de daños. En este caso, si encontramos que la proporción de cajas dañadas en la muestra es 0.08

Ejercicios

Estimaciones por intervalo:

Una estimación de intervalo describe un conjunto o rango de valores dentro del cual es posible que esté un parámetro de la población.

Estimaciones por intervalo:

Suponga que el director del laboratorio necesita hacer una estimación del tiempo de vida promedio unas vacunas. Seleccionamos una muestra aleatoria de 200 vacunas. Nuestra muestra de 200 vacunas tiene una vida media de las baterías de 36 meses. Pero el director también pide una conclusión acerca de la incertidumbre que acompañará a esta estimación; es decir, una afirmación acerca del intervalo dentro del cual es probable que esté la media de la población desconocida. Para proporcionar tal afirmación, necesitamos encontrar el error estándar de la media.

Estimaciones por intervalo:

Para medir la extensión, o dispersión, de nuestra distribución de medias muestrales, podemos utilizar la siguiente fórmula* y calcular el error estándar de la media: Suponga que ya se estimó la desviación estándar de la población de vacunas yse informó que es 10 meses. Con esta desviación estándar podemos calcularel error estándar de la media:

Estimaciones por intervalo:

Ahora, podemos informar al director que nuestra estimación de la vida útil de las vacunas de la compañía es 36 meses y que el error estándar que acompaña a esta estimación es 0,707.

Estimaciones por intervalo: ejemplo

Para una población con una varianza conocida de 185, una muestra de 64 individuos lleva a 217 como estimación de la media.

Encuentre el error estándar de la media
Establezca una estimación de intervalo que incluya la media de la población 68,3% del tiempo

a) Encuentre el error estándar de la media

b) Establezca una estimación de intervalo que incluya la media de la población 68,3% del tiempo

Intervalos de confianza

Al utilizar estimaciones de intervalo no nos estamos limitando a ±1, 2 y 3 errores estándar. Por ejemplo, deseamos un intervalo que contenga 90% o el 95% o el 99%. Nivel de confianza: esta probabilidad indica qué tanta confianza tenemos de que la estimación de intervalo incluya al parámetro de población. Una probabilidad más alta implica una mayor confianza. En la estimación, los niveles de confianza que se utilizan con más frecuencia son 90, 95 y 99%, pero somos libres de aplicar cualquier nivel de confianza.

Intervalos de confianza: ejemplo

Un mayorista de prótesis de rodilla necesita una estimación de la vida media en meses que puede esperar de las prótesis. La administración de la empresa ya ha determinado que la desviación estándar de la vida útil de la población es 6 meses. Suponga que seleccionamos una sola muestra aleatoria de 100 prótesis, tomamos los datos referentes a su vida útil y obtenemos los siguientes resultados:

Intervalos de confianza: ejemplo

Nos piden que encontremos una estimación de intervalo con un nivel de confianza del 95%. Calculamos el error estándar de la media

Intervalos de confianza: ejemplo

A continuación, consideraremos el nivel de confianza con el cual estamos trabajando. Como un nivel del 95% de confianza incluirá 47.5% del área que se encuentra a ambos lados de la media de la distribución de muestreo. Descubrimos que 0,475 del área bajo la curva normal está contenida entre la media y un punto situado a 1,96 errores estándar a la derecha de la media.

=DISTR.NORM.INV(0,975;0;1)

Intervalos de confianza: ejemplo

Por consiguiente, sabemos que (2)(0.475) = 0,95 del área está localizada entre ±1.96 errores estándar de la media y que nuestros límites de confianza son:

Módulo Estadística aplicada

excel - Lección 1 - Gestión de datos y funciones integradas

Christian Hidalgo

Domina Excel

Introducción

Organiza, analiza y visualiza datos para tomar decisiones rápidas y precisas

Estructura Básica: Libro y Hoja

Una cuadrícula de filas (números) y columnas (letras) que forman celdas (A1, B2).

Un archivo de Excel (.xlsx) que contiene una o más hojas. Es el contenedor principal de tu proyecto.

Tipos de Datos y Entrada Correcta

Una entrada de datos adecuada es crucial para que las fórmulas y funciones de Excel funcionen correctamente.

Formato Condicional y Estilos Rápidos

Destaque información clave y mejore la legibilidad de sus datos sin esfuerzo.

Fórmulas: Operadores y Referencias

Destaque información clave y mejore la legibilidad de sus datos sin esfuerzo.

Funciones Esenciales

Estas tres funciones son la base de cualquier análisis cuantitativo.

Tablas Dinámicas en 3 Pasos

Convierta grandes volúmenes de datos en información resumida sin fórmulas complejas.

Gráficos que Cuentan Historias

Excel sugiere gráficos según sus datos. El gráfico adecuado comunica ideas de forma clara y efectiva.

Filtrado y Ordenación Avanzada

Herramientas para ahorrar horas de búsqueda manual y preparar datos para el análisis.

Integridad de Datos: Validación y Protección

Garantice la calidad de sus datos y proteja su trabajo de cambios accidentales.

Atajos de Teclado para la Productividad

Memorizar unos pocos atajos acelera la navegación y reduce la dependencia del ratón.

Checklist para un Archivo Excel Limpio

Un archivo limpio se abre más rápido, es más fácil de auditar y reduce errores.

View

Teaching Challenge: Transform Your Classroom

View

Frayer Model

View

Math Calculations

View

Interactive QR Code Generator

View

Piñata Challenge

View

Interactive Scoreboard

View

Interactive Bingo

Módulo X | CHRSITIAN HIDALGO| ADIA

Start designing with a free template

View

Teaching Challenge: Transform Your Classroom

View

Frayer Model

View

Math Calculations

View

Interactive QR Code Generator

View

Piñata Challenge

View

Interactive Scoreboard

View

Interactive Bingo

Transcript

índice

Haz clic en el módulo al que te quieras dirigir:

Módulo 2 | SQL

Da clic en la clase a la que quieras ir.

Módulo SQL

Lección 1 - Introducción al análisis de datos

Christian Hidalgo

Fundamentos del Análisis de Datos

Contenido: 1. Introducción al análisis 2. Bases relacionales 3. Tipos y derivación 4. Cierre práctico

1. Introducción al análisis

Qué es el análisis de datos KPI y su utilidad Círculo de trabajo analista

Bootcamp Análisis de Datos con IA

¿Qué es el análisis de datos?

KPI y su utilidad

Círculo de trabajo analista

2. Bases relacionales

Modelo de bases relacionales Clave primaria y clave foránea

Bootcamp Análisis de Datos con IA

Modelo de bases relacionales

Clave primaria y clave foránea

3. Tipos de datos y derivación

Principales tipos de datos Información derivable de datos

Bootcamp Análisis de Datos con IA

Principales tipos de datos

Información derivable de datos

Segmentación de clientes: Al cruzar datos de recencia y frecuencia de compra, se pueden segmentar clientes para personalizar ofertas y mejorar la retención.

Predicción de demanda: Las series temporales permiten predecir la demanda futura, lo que es crucial para la gestión de inventarios y la planificación de producción.

Detección de anomalías: El análisis de datos puede detectar anomalías como fraudes, mejorando la seguridad y reduciendo pérdidas financieras.

4. En lo práctico

Ejemplo clave primaria foránea De datos a decisiones Hoja de ruta analítica

Bootcamp Análisis de Datos con IA

Ejemplo clave primaria foránea

Estructura de tablas En la tabla Cliente, id_cliente es la clave primaria. En la tabla Pedido, id_cliente es la clave foránea que vincula cada pedido a un cliente específico.

Beneficios: Esta relación permite realizar consultas complejas, como el historial de compras de un cliente, y asegura que no haya pedidos de clientes inexistentes.

De datos a decisiones

Pipeline completo El análisis de datos comienza con datos crudos, pasa por integración y modelado, y culmina con insights que respaldan decisiones estratégicas.

KPI como validación: Los KPI son fundamentales para medir el impacto de las decisiones tomadas y retroalimentar el proceso de análisis..

SQL: De IBM al Big Data

Contenido: 1. Orígenes y evolución 2. Expansión y madurez 3. SQL moderno 4. Aplicaciones actuales

1. Orígenes y evolución

1970: El Modelo Relacional de Codd 1974: Nace SEQUEL en IBM 1986-1989: SQL se Estandariza

Bootcamp Análisis de Datos con IA

1970: El Modelo Relacional de Codd

1974: Nace SEQUEL en IBM

Del modelo teórico a un lenguaje práctico.

Cambio de Nombre: A "SQL" por problemas legales con la marca "SEQUEL".

Lenguaje Práctico: Se convierte en la herramienta para implementar el modelo relacional..

System R: IBM desarrolla SEQUEL para su sistema prototipo.

1986-1989: SQL se Estandariza

Propuesta de IBM: SQL se traslada desde una propuesta de una empresa hacia un estándar abierto.

Estándar ANSI/ISO: La estandarización impulsa su adopción global, garantiza portabilidad y consolida su posición como lenguaje universal.

2. Expansión y madurez

1990-2000: Dominio Empresarial 2000-2010: Integración Web y OLAP

Bootcamp Análisis de Datos con IA

1990-2000: Dominio Empresarial

La consolidación de SQL en los sistemas de misión crítica.

Sistemas ERP/CRM El pilar tras la gestión de recursos y clientes.

Data Warehouses Almacenes para el análisis estratégico de datos.

Grandes Actores: Oracle, SQL Server y PostgreSQL añaden funcionalidades clave.

2000-2010: Integración Web y OLAP

SQL se adapta a la explosión de la web y las necesidades de análisis complejos. Pila LAMP: MySQL se vuelve popular en aplicaciones web con PHP y Java. OLAP: Extensiones para agregaciones complejas y cubos de datos para la inteligencia de negocios.

3. SQL moderno

2010-2020: El Desafío y la Evolución 2020-2025: SQL en la Nube y Lakehouses