Want to create interactive content? It’s easy in Genially!
Módulo X | CHRSITIAN HIDALGO| ADIA
alaborar
Created on September 22, 2025
Start designing with a free template
Discover more than 1500 professional designs like these:
Transcript
índice
Haz clic en el módulo al que te quieras dirigir:
Módulo 2 | SQL
Da clic en la clase a la que quieras ir.
Módulo SQL
Lección 1 - Introducción al análisis de datos
Christian Hidalgo
Fundamentos del Análisis de Datos
Contenido: 1. Introducción al análisis 2. Bases relacionales 3. Tipos y derivación 4. Cierre práctico
1. Introducción al análisis
Qué es el análisis de datos KPI y su utilidad Círculo de trabajo analista
Bootcamp Análisis de Datos con IA
¿Qué es el análisis de datos?
Definición: El análisis de datos es el proceso de inspeccionar, limpiar, transformar y modelar información para descubrir patrones y respaldar decisiones. Es esencial en la transformación digital actual. Tipos de análisis: Se divide en análisis descriptivo, predictivo y prescriptivo. Cada tipo sirve para diferentes necesidades de negocio y etapas de toma de decisiones. Importancia: Permite crear valor a partir de datos, identificar oportunidades de mejora y optimizar procesos, lo que es crucial para mantenerse competitivo en el mercado actual.
KPI y su utilidad
Definición de KPI:Los KPI (Key Performance Indicator) son indicadores cuantificables que miden el rendimiento frente a objetivos estratégicos. Son esenciales para alinear equipos y monitorear el progreso. Ejemplos de KPI: Ejemplos comunes incluyen: la tasa de conversión el NPS (Net Promoter Score) el ROI (Retorno de la Inversión). Estos indicadores permiten tomar decisiones basadas en datos.
Círculo de trabajo analista
Definir preguntas de negocio: El primer paso es identificar las preguntas clave que el análisis debe responder. Esto asegura que el trabajo esté alineado con los objetivos estratégicos de la empresa. Recolectar y limpiar datos Se recolectan datos relevantes y se limpian para asegurar su calidad. Esto incluye eliminar duplicados, corregir errores y manejar valores faltantes. Explorar y modelar datos Se exploran los datos para identificar patrones y se aplican modelos estadísticos o de machine learning para extraer insights valiosos. Comunicar resultados Los resultados del análisis se presentan de manera clara y comprensible, utilizando visualizaciones y narrativas que faciliten la toma de decisiones.
2. Bases relacionales
Modelo de bases relacionales Clave primaria y clave foránea
Bootcamp Análisis de Datos con IA
Modelo de bases relacionales
Definición: Las bases de datos relacionales son colecciones de tablas interconectadas donde cada fila es un registro y cada columna un atributo. Son ampliamente utilizadas en sistemas transaccionales.Normalización: La normalización es un proceso que elimina la redundancia de datos y mejora la integridad de los datos. Esto asegura que la información esté almacenada de manera eficiente. Lenguaje SQL: SQL es el lenguaje estándar para interactuar con bases de datos relacionales. Permite realizar consultas, actualizar datos y gestionar la estructura de la base de datos.
Clave primaria y clave foránea
Clave primaria:La clave primaria es un atributo o conjunto de atributos que identifica de manera única cada fila en una tabla. No puede contener valores nulos. Clave foránea La clave foránea es un atributo que referencia la clave primaria de otra tabla. Establece relaciones entre tablas y asegura la integridad referencial.
3. Tipos de datos y derivación
Principales tipos de datos Información derivable de datos
Bootcamp Análisis de Datos con IA
Principales tipos de datos
Numéricos: Los datos numéricos incluyen enteros y decimales, utilizados para representar cantidades y realizar cálculos matemáticos.Fecha y hora: Los datos de fecha y hora son críticos para registrar eventos temporales y realizar análisis basados en el tiempo. Texto: Los datos de texto se utilizan para almacenar descripciones y otros valores no numéricos. Son esenciales para almacenar información cualitativa. Booleano Los datos booleanos representan valores lógicos verdadero o falso. Son útiles para tomar decisiones basadas en condiciones binarias.
Información derivable de datos
Segmentación de clientes: Al cruzar datos de recencia y frecuencia de compra, se pueden segmentar clientes para personalizar ofertas y mejorar la retención.
Predicción de demanda: Las series temporales permiten predecir la demanda futura, lo que es crucial para la gestión de inventarios y la planificación de producción.
Detección de anomalías: El análisis de datos puede detectar anomalías como fraudes, mejorando la seguridad y reduciendo pérdidas financieras.
4. En lo práctico
Ejemplo clave primaria foránea De datos a decisiones Hoja de ruta analítica
Bootcamp Análisis de Datos con IA
Ejemplo clave primaria foránea
Estructura de tablas En la tabla Cliente, id_cliente es la clave primaria. En la tabla Pedido, id_cliente es la clave foránea que vincula cada pedido a un cliente específico.
Beneficios: Esta relación permite realizar consultas complejas, como el historial de compras de un cliente, y asegura que no haya pedidos de clientes inexistentes.
De datos a decisiones
Pipeline completo El análisis de datos comienza con datos crudos, pasa por integración y modelado, y culmina con insights que respaldan decisiones estratégicas.
KPI como validación: Los KPI son fundamentales para medir el impacto de las decisiones tomadas y retroalimentar el proceso de análisis..
SQL: De IBM al Big Data
Contenido: 1. Orígenes y evolución 2. Expansión y madurez 3. SQL moderno 4. Aplicaciones actuales
1. Orígenes y evolución
1970: El Modelo Relacional de Codd 1974: Nace SEQUEL en IBM 1986-1989: SQL se Estandariza
Bootcamp Análisis de Datos con IA
1970: El Modelo Relacional de Codd
La publicación de Edgar F. Codd en IBM propuso el modelo relacional para bases de datos, sentando las bases teóricas que inspirarían SQL y revolucionarían la forma de almacenar y consultar información. "Una base de datos relacional es una base de datos que permite al usuario considerarla como una tabla o una colección de tablas." Edgar F. Codd
1974: Nace SEQUEL en IBM
Del modelo teórico a un lenguaje práctico.
Cambio de Nombre: A "SQL" por problemas legales con la marca "SEQUEL".
Lenguaje Práctico: Se convierte en la herramienta para implementar el modelo relacional..
System R: IBM desarrolla SEQUEL para su sistema prototipo.
1986-1989: SQL se Estandariza
Propuesta de IBM: SQL se traslada desde una propuesta de una empresa hacia un estándar abierto.
Estándar ANSI/ISO: La estandarización impulsa su adopción global, garantiza portabilidad y consolida su posición como lenguaje universal.
2. Expansión y madurez
1990-2000: Dominio Empresarial 2000-2010: Integración Web y OLAP
Bootcamp Análisis de Datos con IA
1990-2000: Dominio Empresarial
La consolidación de SQL en los sistemas de misión crítica.
Sistemas ERP/CRM El pilar tras la gestión de recursos y clientes.
Data Warehouses Almacenes para el análisis estratégico de datos.
Grandes Actores: Oracle, SQL Server y PostgreSQL añaden funcionalidades clave.
2000-2010: Integración Web y OLAP
SQL se adapta a la explosión de la web y las necesidades de análisis complejos. Pila LAMP: MySQL se vuelve popular en aplicaciones web con PHP y Java. OLAP: Extensiones para agregaciones complejas y cubos de datos para la inteligencia de negocios.
3. SQL moderno
2010-2020: El Desafío y la Evolución 2020-2025: SQL en la Nube y Lakehouses
Bootcamp Análisis de Datos con IA
2010-2020: El Desafío y la Evolución
NewSQL Sistemas que mantienen SQL y el modelo relacional, añadiendo escalabilidad horizontal y alta disponibilidad.
NoSQL Surge para manejar volúmenes masivos y datos no estructurados, desafiando el modelo relacional.
vs
2020-2025: SQL en la Nube y Lakehouses
La vigencia de SQL en plataformas cloud modernas, combinando rendimiento serverless con economía de almacenamiento masivo. Plataformas como BigQuery, Snowflake y Databricks. Unificación del análisis sobre data lakes (datos estructurados y semiestructurados).
4. Aplicaciones actuales
Streaming SQL Machine Learning con SQL SQL como API Universal
Bootcamp Análisis de Datos con IA
Streaming SQL
Análisis en tiempo real sobre flujos de datos con motores como Apache Flink o ksqlDB.
Monitoreo IoT Análisis de datos de sensores en tiempo real para predicciones.
Detección de Fraudes Identificación de transacciones sospechosas en milisegundos.
Dashboards en Vivo Actualización de métricas clave con la latencia más baja posible.
Machine Learning con SQL
Plataformas modernas ofrecen extensiones SQL para entrenar y desplegar modelos de ML sin salir del lenguaje, facilitando a los analistas crear predicciones. Predicciones de ventas Sistemas de recomendación Clasificación de datos
SQL como API Universal
La tendencia a exponer SQL como interfaz estándar sobre APIs REST y GraphQL
Reduce curvas de aprendizaje y acelera la integración de nuevos servicios con un lenguaje común.
Módulo SQL
Lección 2 - Recuperación básica y filtrado de datos
Christian Hidalgo
Database management systems (DBMS)
Contenido: 1. Relacional vs. No relacional 2. DBMS: definición y Ejemplos 3. Conceptos de bases de datos 4. Tipos de datos
Relacional vs. No relacional
- Datos estructurados versus datos no estructurados
- Tablas con relaciones versus colecciones flexibles
- SQL versus NoSQL para la gestión de datos
- Escalabilidad vertical versus escalabilidad horizontal
DBMS: definición y Ejemplos
- Es el software central que gestiona bases de datos.
- Permite crear, recuperar, actualizar y eliminar datos.
- MySQL es un ejemplo popular de motor de base de datos.
- Sistema para gestionar y administrar todas las bases de datos.
- SQL Server es un sistema de gestión de bases de datos.
HACK Alaborar
Un analista de datos tiene su biblioteca de recursos para seguir aprendiendo:
Listado de funciones con ejemplos para aplicarlos en cualquier momento: https://www.w3schools.com/sql/default.asp
Conceptos de bases de datos
- Es una colección organizada de información.
- Almacena datos de forma estructurada.
- Contiene tablas, campos y registros.
- Permite gestionar y consultar grandes volúmenes.
Ejemplo: tabla Artist
Ejemplo de relación
Tipos de datos: cadena
Tipos de datos: numéricos
Tipos de datos: fecha y hora
Primeros pasos: queries
Contenido: 1. Instalación Dbeaver 2. Conociendo Dbeaver 3. Clausula Select ... From ... 4. Distinct 5. Where y operadores 6. Operadores And, Or, Not
1. Instalación de DBeaver
- Busque en: DBeaver Community Free Universal Database Tool
2. Clic en Download 3. Clic en Windows (Installer)
1. Instalación de DBeaver
Link proceso de instalación:https://www.youtube.com/watch?v=GfdhC7su4X0
1. Instalación de DBeaver
Una vez instalado: hay que cargar la base de pruebas
Clic en Si hasta que cargue la base de ejemplo
2. Conociendo Dbeaver
Conociendo Dbeaver
2. Conociendo Dbeaver
2. Conociendo Dbeaver
Conociendo Dbeaver
2. Conociendo Dbeaver
2. Conociendo Dbeaver
3. Clausula Select ... From ...
4. Distinct
5. Where y operadores
5. Where y operadores
6. Operadores And, Or, Not
El operador AND busca los datos en los que ambas condiciones existen en cualquier fila de la tabla de datos
6. Operadores And, Or, Not
Si se combinan varias condiciones con el operador OR, se devolverán todas las filas que cumplan alguna de las condiciones dadas
6. Operadores And, Or, Not
Cuando se combinan varias condiciones utilizando el operador NOT, se devolverán todas las filas que no cumplan las condiciones dadas.
Ejercicios
Utilice Dbeaver Sample Database (SQLite), encuentre: - Encuentre el album con id sea 10
- Encuentre el nombre de cada canción
- Encuentre el listado de artistas
- Cuántos compradores registra la base
- Liste el nombre, apellido y cargo de los empleados
- Encuentre las facturas que tengan un monto entre $4,99 a $8,99
- Selecciones las facturas que correspondan a Norway o USA
Módulo SQL
Lección 3 - Columnas calculadas y ordenación
Christian Hidalgo
Columnas Calculadas
Contenido: 1. Cláusula Order By 2. Cláusula Limit y offset 3. Funciones de agregación: MIN, MAX, Count, Count Distinct, Sum, AVG 4. Alias
1. Cláusula Order by
A diferencia de nuestra tabla ordenada cuidadosamente ordenada en las últimas lecciones, la mayoría de los datos en bases de datos reales se añaden en ninguna orden de columna en particular. SQL proporciona una manera de ordenar sus resultados mediante una columna dada en ascenso o descendente orden utilizando la ORDER BY cláusula
2. Cláusula Limit y Offset
Las clausulas LIMIT y OFFSET,sirven para indicar a la base de datos el subconjunto de los resultados que se desea. El LIMIT reducirá el número de filas a volver, y la OFFSET especificará dónde empezar a contar las filas
3. Funciones de agregación
Una función de agregación es una función que realiza un cálculo en un conjunto de valores, y devuelve un solo valor. Estas funciones se utilizan a menudo con la clausula GROUP BY. El GROUP BY divide el resultado en grupos de valores y la función agregada se puede utilizar para devolver un valor único para cada grupo.
3. Funciones de agregación: MIN()
La función MIN() devuelve el valor más pequeño de la columna seleccionada.
La función MIN() combinada con GROUP BY devuelve el valor más pequeño de la columna seleccionada agrupado .
3. Funciones de agregación: MAX()
La función Max() devuelve el valor más GRANDE de la columna seleccionada.
La función MAX() combinada con GROUP BY devuelve el valor más grande de la columna seleccionada agrupado .
3. Funciones de agregación: COUNT()
La función COUNT() devuelve el conteo de la columna seleccionada.
La función COUNT() combinada con GROUP BY devuelve el conteo de la columna seleccionada agrupado .
3. Funciones de agregación: COUNT( DISTINCT )
La función COUNT( DISTINCT ) devuelve el conteo de la columna seleccionada PERO IGNORANDO LOS DUPLICADOS.
La función COUNT(DISTINCT ) combinada con GROUP BY devuelve el conteo de la columna seleccionada agrupado PERO IGNORANDO LOS DUPLICADOS.
3. Funciones de agregación: SUM()
La función SUM() devuelve el valor total de la columna seleccionada.
La función SUM() combinada con GROUP BY devuelve el valor total de la columna seleccionada agrupado .
3. Funciones de agregación: AVG()
La función AVG() devuelve el valor promedio de la columna seleccionada.
La función AVG() combinada con GROUP BY devuelve el valor promedio de la columna seleccionada agrupado .
4. Alias
Los alias SQL se utilizan para dar una tabla, o una columna en una tabla, un nombre temporal.Las alizas se utilizan a menudo para hacer los nombres de las columnas más legibles.Sólo existe un alias durante la duración de esa consulta.Un alias se crea con la Palabra clave AS.
https://sqlbolt.com/lesson/select_queries_introduction
Módulo SQL
Lección 4 - Agrupación y agregación: estadistica descriptiva
Christian Hidalgo
SQL JOIN
Contenido: 1. Normalización 2. Qué es un join 3. INNER JOIN 4. LEFT JOIN 5. RIGHT JOIN 6. FULL JOIN 7. SELF JOIN
1. Normalización
La normalización es la transformación de las vistas de usuario complejas y del almacén de datos a un juego de estructuras de datos más pequeñas y estables. La normalización de bases de datos es un proceso que consiste en designar y aplicar una serie de reglas a las relaciones obtenidas tras el paso del modelo entidad-relación al modelo relacional. Redundancia: Se llama así a los datos que se repiten continua e innecesariamente por las tablas de las bases de datos. Ambigüedades: Datos que no clarifican suficientemente el registro al que representan.
1. Normalización: reglas
1. Normalización: reglas
Primera Forma Normal (1FN)Una tabla está en la primera forma normal si, y solo si, cumple con estas reglas: Todos los datos son atómicos. Todos los atributos o columnas son del mismo tipo de datos.
1. Normalización: reglas
Segunda Forma Normal (2FN)Una tabla está en la segunda forma normal si sigue estas reglas:Si la tabla está en la primera forma normal. Los atributos que no forman parte de ninguna clave han de depender funcionalmente de toda la clave primaria.
1. Normalización: reglas
Tercera Forma Normal (3FN)Una tabla está en la tercera forma normal si cumple estas reglas:Si la tabla está en la segunda forma normal.Los atributos no-clave no pueden depender de forma transitiva de una clave candidata (cuando un atributo que no sea clave depende de una clave primaria a través de otro atributo que no sea clave).
1. Normalización: reglas
Forma Normal de Boyce-CoddUna tabla está en la forma de Boyce-Codd si cumple las siguientes condiciones:Si está en la tercera forma normal.Si cada determinante es una clave candidata.Un determinante es un atributo que determina el valor de otro atributo.Una clave candidata es una clave o una clave alternativa (en otras palabras, el atributo puede ser una clave para dicha tabla).
1. Normalización: reglas
Cuarta Forma Normal (4FN)Una tabla está en la cuarta forma normal si cumple los siguientes criterios: Si está en la forma normal de Boyce-Codd. Si no contiene más de una dependencia multi-valor.Quinta Forma Normal (5FN) y otrasBásicamente, una tabla está en la quinta forma normal, cuando no puede ser dividida en tablas más pequeñas con diferentes claves (la mayor parte de las tablas se pueden dividir en tablas más pequeñas con la misma clave).
2. Qué es un join
JOIN combinar filas con valores iguales para las columnas especificadas. Normalmente, una tabla contiene una clave principal, que consiste en una o varias columnas que identifican de forma única las filas de la tabla (la columna cat_id en la tabla cat). La otra tabla tiene una o varias columnas que hacen referencia a las columnas de clave principal de la primera tabla (la columna cat_id en la tabla toy). Estas columnas son claves foráneas. La condición JOIN establece la igualdad entre las columnas de clave principal de una tabla y las columnas que hacen referencia a ellas en la otra tabla.
3. INNER JOIN
The INNER JOIN keyword selects records that have matching values in both tables.
4. LEFT JOIN
The LEFT JOIN keyword returns all records from the left table (table1), and the matching records from the right table (table2). The result is 0 records from the right side, if there is no match.
5. RIGHT JOIN
The RIGHT JOIN keyword returns all records from the right table (table2), and the matching records from the left table (table1). The result is 0 records from the left side, if there is no match.
6. FULL JOIN
The FULL OUTER JOIN keyword returns all records when there is a match in left (table1) or right (table2) table records.
7. SELF JOIN
A self join is a regular join, but the table is joined with itself.
Módulo SQL
Lección 5 de SQL: Null, Filtrado avanzado y Wildcards
Christian Hidalgo
1. Valores Null
Lo ideal es no tener valores NULL en las bases de datos porque requieren especial, atención al construir consultas, restricciones (ciertas funciones se comportan de manera diferente con valores nulos y al procesar los resultados). Es imposible colocar expresiones con valores NULL en los operadores =, <, <=, >, >=, <>, !=. Es necesario utilizar IS NULL, o IS NOT NULL
1. Valores Coalesce()
La función COALESCE devuelve el primer valor no NULL de una lista de expresiones.
En este caso, va a tomar el salario del empleado, si este no tiene, le pone 0 en la variable adjusted_salary
2. Like (%)
El operador LIKE es utilizado en WHERE para especifica un patrón de busqueda. El signo de porcentaje % representa zaro, uno o varios caracteres. El guión bajo _ representa un solo caracter.
2. Like (-)
El guión bajo _ representa un solo caracter. En el caso del ejemplo que sigue: se busca todas las ciudades que empiecen su nombre con L, contenga un espacio y a continuación "nd".
2. Like (% y -)
Que contenga un L dentro del nombre
Que el nombre empiece con "La"
Que el nombre empiece con al letra b y termine con "S"
2. Like (% y -)
Que el nombre del empiece con "A" o que empiece con "B"
Que el nombre termine con "A"
2. Wildcards
Una Wildcard puede ser utilizada en combinación con otras wildcars y tienen distintos significados
2. Wildcards ejemplos %
Este ejemplo busca en la tabla Clientes todos los registros donde el Nombre comience con la letra 'A', sin importar qué caracteres le sigan.
SELECT * FROM Clientes WHERE Nombre LIKE 'A%'
2. Wildcards ejemplos %
Buscar productos que contengan la palabra 'acero'
SELECT * FROM Productos WHERE NombreProducto LIKE '%acero%'
2. Wildcards ejemplos %
Identificar empleados cuyo correo electrónico termina en '.com'
SELECT * FROM Empleados WHERE Email LIKE '%.com'
2. Wildcards ejemplos _
Encontrar clientes con nombres de 4 letras que empiecen con 'An'
SELECT * FROM Clientes WHERE Nombre LIKE 'An_ _'
2. Wildcards ejemplos _
Buscar códigos de producto con un formato específico:
SELECT * FROM Productos WHERE CodigoPorducto LIKE 'PROD-_-_ _'
2. Wildcards ejemplos _
Identificar palabras mal escritas o con variaciones:
SELECT * FROM Comentarios WHERE Texto LIKE '%col_r%'
2. Wildcards ejemplos []
Encontrar clientes cuyo nombre empieza con 'J', 'K' o 'L'
SELECT * FROM Clientes WHERE Nombre LIKE '[JKL]%'
2. Wildcards ejemplos []
Buscar productos con un código de serie específico:
SELECT * FROM Productos WHERE CodigoProducto LIKE 'A-[1-4]%'
2. Wildcards ejemplos []
Identificar empleados cuyo apellido NO empieza con una vocal:
SELECT * FROM Empleados WHERE Apellido LIKE '[^AEIOU]'
2. Wildcards ejemplos -
Encontrar empleados cuyo apellido empieza con una letra de la 'A' a la 'F'
SELECT * FROM Empleados WHERE Apellido LIKE '[A-F]%'
2. Wildcards ejemplos -
Buscar productos con un número de modelo entre 500 y 799
SELECT * FROM Productos WHERE NumeroModelo LIKE 'Modelo-[5-7]%'
2. Wildcards ejemplos ^
Buscar productos cuyo código de referencia NO termine en un número del 1 al 5
SELECT * FROM Productos WHERE CodigoReferencia LIKE 'REF-[^1-5]'
2. Wildcards ejemplos {}
Identificar usuarios con un nombre que NO sigue un patrón alfabético simple:
SELECT * FROM Usuarios WHERE Username LIKE 'jo[^a-s]'
Módulo SQL
Lección 6 de SQL: Null, Filtrado avanzado y Wildcards
Christian Hidalgo
1. Valores Null
Lo ideal es no tener valores NULL en las bases de datos porque requieren especial, atención al construir consultas, restricciones (ciertas funciones se comportan de manera diferente con valores nulos) y al procesar los resultados. Es imposible colocar expresiones con valores NULL en los operadores =, <, <=, >, >=, <>, !=. Es necesario utilizar IS NULL, o IS NOT NULL
1. Valores Coalesce()
La función COALESCE devuelve el primer valor no NULL de una lista de expresiones.
En este caso, va a tomar el salario del empleado, si este no tiene, le pone 0 en la variable adjusted_salary
2. Like (%)
El operador LIKE es utilizado en WHERE para especifica un patrón de busqueda. El signo de porcentaje % representa zaro, uno o varios caracteres. El guión bajo _ representa un solo caracter.
2. Like (-)
El guión bajo _ representa un solo caracter. En el caso del ejemplo que sigue: se busca todas las ciudades que empiecen su nombre con L, contenga un espacio y a continuación "nd".
2. Like (% y -)
Que contenga un L dentro del nom bre
Que el nombre del empiece con "A" o que empiece con "B"
Que el nombre empiece con "La"
Que el nombre termine con "A"
Que el nombre empiece con al letra b y termine con "S"
2. Wildcards
Una Wildcard puede ser utilizada en combinación con otras wildcars y tienen distintos significados
2. Wildcards: ejemplos %
Este ejemplo busca en la tabla Clientes todos los registros donde el Nombre comience con la letra 'A', sin importar qué caracteres le sigan.
SELECT * FROM Clientes WHERE Nombre LIKE 'A%'
2. Wildcards: ejemplos %
Buscar productos que contengan la palabra 'acero'
SELECT * FROM Productos WHERE NombreProducto LIKE '%acero%'
2. Wildcards: ejemplos %
Identificar empleados cuyo correo electrónico termina en '.com'
SELECT * FROM Empleados WHERE Email LIKE '%.com'
2. Wildcards: ejemplos _
Encontrar clientes con nombres de 4 letras que empiecen con 'An'
SELECT * FROM Clientes WHERE Nombre LIKE 'An_ _'
2. Wildcards: ejemplos _
Buscar códigos de producto con un formato específico
SELECT * FROM Productos WHERE CodigoPorducto LIKE 'PROD-_-_ _'
2. Wildcards: ejemplos _
Identificar palabras mal escritas o con variaciones
SELECT * FROM Comentarios WHERE Texto LIKE '%col_r%'
2. Wildcards: ejemplos []
Encontrar clientes cuyo nombre empieza con 'J', 'K' o 'L'
SELECT * FROM Clientes WHERE Nombre LIKE '[JKL]%'
2. Wildcards: ejemplos []
Buscar productos con un código de serie específico
SELECT * FROM Productos WHERE CodigoProducto LIKE 'A-[1-4]%'
2. Wildcards: ejemplos []
Identificar empleados cuyo apellido NO empieza con una vocal
SELECT * FROM Empleados WHERE Apellido LIKE '[^AEIOU]'
2. Wildcards: ejemplos -
Encontrar empleados cuyo apellido empieza con una letra de la 'A' a la 'F'
SELECT * FROM Empleados WHERE Apellido LIKE '[A-F]%'
2. Wildcards: ejemplos -
Buscar productos con un número de modelo entre 500 y 799
SELECT * FROM Productos WHERE NumeroModelo LIKE 'Modelo-[5-7]%'
2. Wildcards: ejemplos ^
Buscar productos cuyo código de referencia NO termine en un número del 1 al 5
SELECT * FROM Productos WHERE CodigoReferencia LIKE 'REF-[^1-5]'
2. Wildcards: ejemplos {}
Identificar usuarios con un nombre que NO sigue un patrón alfabético simple
SELECT * FROM Usuarios WHERE Username LIKE 'jo[^a-s]'
Módulo SQL
Lección 7 - Unión y condiciones
Christian Hidalgo
UNION TABLES
Contenido: 1. UNION 2. UNION ALL 3. INTERSECT 4. EXCEPT 5. SEMI JOIN 6. ANTI JOIN 7. CONDICIONES - CASE WHEN
1. UNION
El operador UNION se utiliza para combinar el conjunto de resultados de dos o más queries SELECT. El operador UNION elimina automáticamente las filas duplicadas del conjunto de resultados: Para que funcione se debe tener varias consideraciones: -Las consultas a unir deben tener el mismo número de columnas -Las columnas a unir deben tener el mismo tipo de datos -Las columnas deben estar en el mismo orden
1. UNION
SELECT DISTINCT BillingCountry AS PAIS FROM InvoiceUNION SELECT DISTINCT COUNTRY AS PAIS FROM CUSTOMER;
2. UNION ALL
El operador UNION se utiliza para combinar el conjunto de resultados de dos o más queries SELECT. El operador UNION duplica las filas repetidas del conjunto de resultados: Para que funcione se debe tener varias consideraciones: -Las consultas a unir deben tener el mismo número de columnas -Las columnas a unir deben tener el mismo tipo de datos -Las columnas deben estar en el mismo orden
2. UNION ALL
SELECT DISTINCT BillingCountry AS PAIS FROM InvoiceUNION ALLSELECT DISTINCT COUNTRY AS PAIS FROM CUSTOMER;
3. INTERSECT
La cláusula INTERSECT combina los conjuntos de resultados de dos o más sentencias SELECT y devuelve solo las filas que son idénticas en todos los conjuntos de resultados. Para que funcione se debe tener varias consideraciones: -Las consultas a unir deben tener el mismo número de columnas -Las columnas a unir deben tener el mismo tipo de datos -Las columnas deben estar en el mismo orden
SELECT DISTINCT BillingCountry AS PAIS FROM InvoiceINTERSECTSELECT DISTINCT COUNTRY AS PAIS FROM CUSTOMER;
4. EXCEPT
La cláusula EXCEPT (también conocida como MINUS en algunas bases de datos como Oracle) se utiliza para combinar dos conjuntos de resultados de consultas SELECT y devuelve las filas únicas que se encuentran en el primer conjunto de resultados pero no en el segundo.Piensa en ella como una resta de conjuntos: te da lo que está en A y no está en B.
SELECT DISTINCT BillingCountry AS PAIS FROM InvoiceEXCEPTSELECT DISTINCT COUNTRY AS PAIS FROM CUSTOMER;
5. SEMI JOIN - WHERE
El operador WHERE logra el efecto de un Semi Join, ya que filtra filas de la tabla izquierda basándose en si su valor clave existe en la lista de valores devueltos por la subconsulta.
SELECT * FROM ALBUM WHERE ARTIST_ID IN (SELECT ARTIST_ID FROM ARTIST)
6. ANTI JOIN
El operador WHERE logra el efecto de un Semi Join, ya que filtra filas de la tabla izquierda basándose en si su valor clave existe en la lista de valores devueltos por la subconsulta.
SELECT * FROM ALBUM WHERE ARTIST_ID NOT IN (SELECT ARTIST_ID FROM ARTIST)
7. CONDICIONES - CASE WHEN
La expresión CASE evalúa una lista de condiciones y devuelve una expresión diferente para cada resultado.
1. Uso básico:
7. CONDICIONES - CASE WHEN
2. Multiples condiciones
7. CONDICIONES - CASE WHEN
3. Ordenar los datos
7. CONDICIONES - CASE WHEN
4. Conteo condicional
Módulo SQL
Lección 8 - subqueries: tipos y correlación
Christian Hidalgo
SUBQUERIES:
Contenido: 1. Subquery escalar 2. Subquery de columna 3. Subquery de fila 4. Subquery de tabla 5. Subqueries no correlacionadas 6. Subqueries correlacionadas
Subqueries
¿Qué es una sub consulta o subquery?Es una consulta dentro de otra consulta o instrucción SQL.- Se utiliza para cálculo o prueba lógica que proporciona un valor o un conjunto de datos.
- Está siempre encerrada entre paréntesis.
- Es ejecutada, por lo general, antes de la instrucción principal externa
- Permiten una recuperación de datos más compleja y eficaz.
1. Subqueries escalares
Las subconsultas escalares devuelven un único valor, como una fila y una columna. Suelen utilizarse cuando se espera un único valor, como en cálculos, comparaciones o asignaciones en las cláusulas SELECT o WHERE.
1. Subqueries escalares: ejemplo
-- consulta las facturas y los clientes que realizan compras sobre el promedio SELECT CUS.FirstName, CUS.LastName, INV.TOTAL FROM INVOICE AS INV INNER JOIN Customer CUS ON INV.CustomerId = CUS.CustomerIdWHERE TOTAL>(SELECT AVG(TOTAL) FROM Invoice)ORDER BY TOTAL DESC;
2. Subqueries de columna
Las subconsultas de columna devuelven una sola columna pero varias filas. Estas subconsultas se utilizan a menudo con el operador IN, donde la consulta externa compara valores de varias filas.
2. Subqueries de columna: ejemplo
-- consultar el nombre del album de los artistas que su nombre cuyo nombre empieza con A SELECT AlbumId , Title FROM album WHERE ArtistId IN ( SELECT ArtistId FROM Artist WHERE NAME LIKE "A%");
3. Subqueries de fila
Las subconsultas de fila devuelven una única fila que contiene varias columnas. Estas subconsultas se suelen utilizar con operadores de comparación que pueden comparar una fila de datos, como los operadores = o IN, cuando se esperan varios valores.
3. Subqueries de fila: ejemplo
--consulte todas las facturas que se generaron en la ciudad donde vive el consumidor id=3 SELECT BillingCountry as PAIS, BillingCity as CIUDAD,TOTALFROM INVOICEWHERE (PAIS, CIUDAD) = (SELECT Country as PAIS, City AS CIUDAD FROM Customer WHERE CustomerId=3);
4. Subqueries de tabla
Las subconsultas de tabla, o tablas derivadas, devuelven una tabla completa de varias filas y columnas. Se suelen utilizar en la cláusula FROM como tabla temporal dentro de una consulta
4. Subqueries de tabla: ejemplo
--de la tabla de facturas unida con tracks, obtenga Nombre, Composer, Milliseconds, Bytes, UnitPrice SELECT NAME, COMPOSER, Milliseconds, Bytes, UnitPrice FROM ( SELECT * FROM InvoiceLine AS IL INNER JOIN TRACK AS TR ON IL.TrackId=TR.TrackId WHERE Composer like 'A%' )WHERE NAME LIKE 'IN%';
Subqueries: orden de ejecución
La sintaxis de una subconsulta varía en función de dónde se utilice en la sentencia SQL principal, como dentro de las cláusulas SELECT, FROM o WHERE. Las subconsultas suelen ir entre paréntesis ( ), lo que indica que se trata de una consulta independiente.
Subqueries: orden de ejecución
La consulta siguiente sigue el orden de ejecución: La subconsulta SELECT AVG(salary) FROM employees Se ejecuta primero y calcula el salario medio.
Subqueries no correlacionadas
La consulta externa recupera entonces los empleados cuyo salario es superior a esta media.
Subqueries correlacionadas
Dependen de la consulta externa para algunos de sus datos, por lo que se reevalúan para cada fila procesada por la consulta externa. Para cada fila de employees (alias e1), la subconsulta (SELECT AVG(e2.salary) FROM employees e2 WHERE e2.department_id = e1.department_id) calcula el salario medio de ese departamento concreto.
SELECT e1.employee_name FROM employees e1 WHERE e1.salary > ( SELECT AVG(e2.salary) FROM employees e2 WHERE e2.department_id = e1.department_id);
Módulo SQL
Lección 9 - window functions and CTE
Christian Hidalgo
Window fuctions y CTEs:
Contenido: 1. ¿Qué es? 2. Sintaxis 3. Tipos de Funciones y Aplicaciones: Ejemplos: facturación total. 4. CTE en SQL
1. ¿Qué es una window function?
Las Window Functions (Funciones de Ventana) en SQL son una herramienta fundamental y poderosa, especialmente en el análisis de datos, ya que permiten realizar cálculos sobre un conjunto definido de filas relacionadas con la fila actual, sin agregar el conjunto de resultados. Las Window Functions realizan cálculos a través de conjuntos de filas que usted especifica mediante la cláusula OVER. Resultados por Fila (No Agrupación): A diferencia de las funciones agregadas tradicionales (como SUM o AVG utilizadas con GROUP BY), que combinan múltiples filas para devolver un único resultado por grupo, las window functions presentan un resultado para cada fila de la tabla.
1. ¿Qué es una window function?
Contexto: Permiten que los valores de una fila individual se contextualicen o se comparen con un grupo de filas (o "partición"). De esta manera, devuelven cálculos agregados del grupo junto con la información detallada a nivel de fila individual. Disponibilidad: Las funciones de ventana se introdujeron en el estándar ISO SQL en 2003 y están disponibles en la mayoría de los principales tipos de bases de datos, incluyendo PostgreSQL, Oracle, SQL Server y MySQL
2. Sintaxis
Cláusula OVER: es la palabra clave que le indica al motor de la base de datos que la función debe ser tratada como una window function, y no como una función agregada simple. Dentro de los paréntesis se especifica la "ventana" de filas sobre las que operará la función Cláusula PARTITION BY (Opcional): divide las filas de la tabla en subgrupos o particiones, de manera similar a cómo opera la cláusula GROUP BY, pero sin reducir la cantidad de filas en el resultado. Si se utiliza, la función calcula y se reinicia para cada partición. Si se omite, la función opera sobre todo el conjunto de resultados
2. Sintaxis
Cláusula ORDER BY (A menudo requerida): determina el orden de las filas dentro de la partición. Es esencial para funciones que dependen de una secuencia, como los cálculos de clasificación o los totales acumulados. Cláusula de Marco (Frame Clause, Opcional): permite especificar con precisión qué registros incluir en el cálculo de la ventana, en relación con la fila actual. Esto se especifica usando palabras clave como ROWS, RANGE o GROUPS, seguido de BETWEEN y puntos de inicio y fin (e.g., UNBOUNDED PRECEDING y CURRENT ROW)
3. Tipos de Funciones y Aplicaciones
Las window functions pueden clasificarse según su uso principal: Funciones de clasificación: permiten asignar un valor de rango a cada fila dentro de una partición u orden. ROW_NUMBER(): asigna un número entero único a cada fila, comenzando desde 1, según el orden especificado, sin tener en cuenta los valores duplicados. RANK() y DENSE_RANK(): asignan rangos, manejando empates de manera diferente. RANK() deja un espacio en la secuencia de rango después de un empate, mientras que DENSE_RANK() no incluye un espacio (es "denso"). NTILE(n): divide el conjunto de resultados (o partición) en un número (n) predefinido de grupos de tamaño aproximadamente igual.
3. Tipos de Funciones y Aplicaciones
Funciones Agregadas de Ventana: casi todas las funciones agregadas estándar (COUNT, SUM, AVG, MIN, MAX) pueden utilizarse como window functions simplemente añadiendo la cláusula OVER. Cálculos de Totales Acumulados: la función SUM() se utiliza comúnmente con la cláusula ORDER BY (y a veces la cláusula de marco) para calcular totales acumulados o saldos corrientes. Si se omite la cláusula ORDER BY, SUM() calcula el total completo de la partición y lo repite en cada fila. Porcentaje del Total: permite calcular la contribución de una parte al total, calculando primero la suma total del grupo usando la window function y luego dividiendo el valor de la fila actual por ese total.
3. Tipos de Funciones y Aplicaciones
Funciones de Desplazamiento (Lag and Lead): estas funciones son cruciales para el análisis de series de tiempo, permitiendo el acceso a datos de filas anteriores o posteriores sin necesidad de auto-uniones (self-joins) LAG(): recupera un valor de una fila anterior (o "rezagada") dentro de la partición, según el desplazamiento (offset) especificado. Es útil para comparaciones período a período (Month-over-Month o Year-over-Year). LEAD(): recupera un valor de una fila subsiguiente (o "siguiente") dentro de la partición.
Ejemplos: facturación total
Ejemplos: facturación total
Ejemplos: facturación total
4. CTE en SQL
Una CTE, o expresión común de tabla, es un conjunto de resultados temporal y con nombre en SQL que te permite simplificar las consultas complejas, facilitando su lectura y mantenimiento. Al crear un CTE, utilizamos la palabra clave WITH para iniciar la definición del CTE. La sintaxis general de un CTE es la siguiente:
Nos vemos en la siguiente sesión
Nombre de la siguiente clase
Módulo 3 | ESTADÍSTICA APLICADA
Da clic en la clase a la que quieras ir.
Módulo Estadística aplicada
Lección 1 - Introducción
Christian Hidalgo
Preguntas
¿qué tan frecuente es la patología presenta el paciente?¿qué posibilidades de éxito tendrá el tratamiento? ¿sobrevivirá más de cinco años tras el tratamiento? ¿cuál es el rango de normalidad de este parámetro clínico?¿es lo suficientemente fiable esta prueba diagnóstica?
La estadística es una de las áreas de las matemáticas más relacionadas con la vida cotidiana y los negocios.
¿Qué es la estadística?
Ciencia que se ocupa de la organización de los datos, descripción de su comportamiento y el análisis e interpretación de la información obtenida.
Aprender estadística es divertido y sobre todo muy útil en la vida
¿Cómo me ayuda saber estadística?
- Calcular cuántos pacientes son atendidos durante el turno de enfermería.
- Estimación de si será capaz de procesar un número específico de clientes de un laboratorio.
- Comparar la probabilidad de que una persona enferma mejore cuando se usó el medicamento X y compararlo con un caso que no usó ese medicamento.
- Conducir un análisis de datos para una investigación científica o un negocio.
- Saber si existe demanda suficiente para poder realizar una inversión
Ejemplo 1
Con el objetivo de evaluar la relación entre la cesárea, el parto natural y la puntuación de Apgar en la sala de obstetricia de un hospital durante un período de 10 años, se evaluaron retrospectivamente 2.052 historias clínicas de pacientes. Un Apgar ≤6 se consideró como el puntaje de corte, y los puntajes de Apgar >6 se consideraron como el control.
Ejemplo 2
Se desea conocer el nivel de aprobación de la autoridad electa en una ciudad de 5 millones de votantes.
Se calcula una muestra de 2.000 personas que representan a toda la población y se reduce el costo de la investigación.
Ejemplo 3
ESTADISTICA DESCRIPTIVA
Objetivo es describir un conjunto de datos, es decir, clasificar, representar gráficamente y resumir los mismos
Variable
El término "variable" se refiere a cualquier parámetro que varía y se puede medir (por ejemplo, altura y peso). Pueden ser: se clasifican en variables cualitativas y variables cuantitativas. Esta clasificación es importante porque determinará el tipo de técnicas de análisis que pueden utilizarse para su estudio.
Variable
Variable antropométricas
Tipos de variable
ENSANUT
Describir la situación de salud reproductiva materna e infantil, de las enfermedades crónicas no trasmisibles, la situación nutricional, la situación del consumo alimentario, del estado de micronutrientes, el acceso a programas de complementación alimentaria y suplementación profiláctica, la actividad física, el acceso a los servicios de salud, el gasto en salud de la población ecuatoriana de 0 – 59 años; considerando las diferencias geográficas, demográficas, étnicas, sociales y económicas , las especificidades de sexo, edad.
link: Encuesta Nacional de Salud y Nutrición – ENSANUT – Ministerio de SaludPública
ENSANUT: formulario
ENSANUT: formulario
ENSANUT: formulario
ENSANUT: formulario
ENSANUT: formulario
ENSANUT: representación
Módulo Estadística aplicada
Lección 2 - Tipos de datos y medidas de tendencia central
Christian Hidalgo
¿Qué tipo de variable es?
¿Qué tipo de variable es?
¿Qué tipo de variable es?
TABLAS DE FRECUENCIA
Objetivo es construir una tabla de frecuencias para determinar qué valores concretos se presentan y con qué frecuencia
Tablas de frecuencia
Para variables categóricas o cualitativas
Tablas de frecuencia
¿Qué es?Es una tabla que organiza los datos y expone información de conteos, marcas de clase, frecuencias absolutas, frecuencias relativas, frecuencias absolutas acumuladas y frecuencia relativa acumulada.Aquí se ve cómo se encuentran distribuidos los datos de acuerdo con los valores que puede tomar la variable.
Tablas de frecuencia
Tablas para variables cualitativas
Tablas para variables cuantitativas
Tablas de frecuencia
Ejemplo:
A un grupo de 20 socios de una biblioteca se les ha preguntado sobre el número de libros que han leído el mes pasado. Las respuestas son las siguientes: 4, 2, 1, 0, 3, 1, 4, 2, 0, 2, 1, 1, 2, 1, 2, 4, 3, 4, 1, 2
Ejemplo:
Ejemplo:
Ejemplo:
Ejemplo:
Ejemplo: registro de titulos
https://datosabiertos.gob.ec/dataset/registro-de-titulos/resource/08b4967a-e760-46f8-95d9-d2a8239eec8a
Resumen
MEDIDAS DE TENDENCIA CENTRAL
¿Qué son las medidas de tendencia central?
Ejemplo: promedio
Promedio o media aritmética
La media (aritmética) es una de las medidas de tendencia central más utilizadas. Se interpreta como el promedio de los datos y se construye de forma que intervienen todos los datos observados en su cálculo de la siguiente forma:
- Para evaluar la media se debe considerar todos los valores
- Un conjunto de datos solo tiene una media, la cual es un valor único
- La media es una medida que permite comparar dos o más poblaciones
- La media es sensible a tener valores muy altos o muy bajos
Mediana
Una alternativa al cálculo de la media, no sensible a observaciones atípicas o extremas, la constituye la mediana. El valor de la mediana, para un conjunto de datos, se obtiene de forma que deja el mismo número de observaciones arriba y abajo.
- Un conjunto de datos solo tiene una mediana, la cual es un valor único
- La mediana es una medida que permite comparar dos o más poblaciones
- La mediana NO es sensible a tener valores muy altos o muy bajos
Número de datos es par
Número de datos es impar
Moda
La moda se define, para un conjunto de datos, como el valor más frecuente, es decir, el valor que más veces se repite.
Módulo Estadística aplicada
Lección 3 - Medidas de dispersión y forma
Christian Hidalgo
Medidas de dispersión: rango o recorrido
Medidas de dispersión: rango o recorrido
Obtenga: Mínimo Máximo Rango
Medidas de dispersión: varianza
Medidas de dispersión: varianza
Medidas de dispersión: desviación tipica o estandar
Medidas de dispersión: coeficiente de variación
Medidas de dispersión: percentiles o cuantiles
Medidas de forma: coeficiente de asimetría
Medidas de forma: curtosis
Módulo Estadística aplicada
Lección 4 - Gráficos e introducción a la probabilidad
Christian Hidalgo
GRÁFICOS: USOS
Guía de Diseño para transformar datos en conocimiento claro e impactante.
El Poder de lo Visual
¿Por qué funciona? El cerebro humano procesa imágenes 60,000 veces más rápido que el texto.La visualización es una herramienta de comunicación estratégica fundamental. Ayuda a interpretar información, detectar tendencias y tomar decisiones.
El Porqué: tres áreas clave
Los Cimientos: entendiendo tus datos
Identificando Relaciones en los Datos
Eligiendo tu Lienzo: gráficos clave
El Kit del Diseñador: color
Secuencial monocromático: ideal para datos numéricos que progresan de menor a mayor. Divergente: adecuado para datos con un punto medio crítico (como el cero o la media). Cualitativo: perfecto para representar datos categóricos, creando diferencias claras. Tip de accesibilidad: varía el brillo y la saturación, no solo el tono, para incluir a personas con daltonismo.
El Kit del Diseñador: Layout y Tipografía
La Psicología de la Percepción
Atajos Naturales del Cerebro Atributos Preatentivos:Captados en 10 milisegundos (color, tamaño, forma). Se usan para dirigir la atención instantáneamente.Principios de la Gestalt:Reglas de cómo la mente agrupa elementos (proximidad, similitud) para percibir un todo coherente.
El Arte del Data Storytelling
Cómo Construir tu Historia
Cómo Construir tu Historia
Deja de presentar simples números y empieza a comunicar conocimiento claro, memorable y capaz de inspirar la acción.
INTRODUCCIÓN A LA PROBABILIDAD
Objetivo es describir un conjunto de datos, es decir, clasificar, representar gráficamente y resumir los mismos
La teoría de la probabilidad trata de cuantificar la incertidumbre de un suceso dada la imposibilidad de predecir con exactitud el resultado del fenómeno aleatorio.Además, está herramienta ayudará a extraer conclusiones sobre las características de interés de una población, a partir de los datos de una muestra (inferencia estadística)
¿Qué es el fenómeno aleatorio?
Los fenómenos aleatorios son aquellos cuyos resultados son impredecibles. Así, el grupo sanguíneo, nivel de colesterol, la edad, el nivel de ácido úrico, el sexo, el estado civil o la respuesta a un tratamiento de un individuo seleccionado al azar de una población constituyen fenómenos aleatorios, ya que se desconoce su resultado hasta que se produce la observación.
Vamos a jugar BINGO
Sucesos simples o elementales
A cada uno de los resultados posibles de un fenómeno aleatorio se le denomina suceso simple o elemental.
Espacio muestral
El conjunto de sucesos simples o elementales recibe el nombre de espacio muestral.
Espacio muestral
El conjunto de sucesos simples o elementales recibe el nombre de espacio muestral.
¿Cómo medir la probabilidad?
Regla de Laplace
Si bien es cierto que un fenómeno aleatorio se caracteriza por la imposibilidad de predecir su resultado de antemano, es posible cuantificar el grado de incertidumbre de forma que puede establecerse si existen sucesos más probables que otros.
Propiedades: La probabilidad de un suceso siempre estará entre 0 y 1 Si no existe un caso favorable entonces la probabilidad es 0 Si el suceso es seguro, entonces tendrá todos los casos, por lo tanto, su probabilidad es 1
Ejemplo
De un grupo de 50 estudiantes, 23 son mujeres y 27 son hombres. ¿Cuál es la probabilidad de tomar una persona al azar del grupo de estudiantes y que sea una mujer?
La aproximación frecuentista al cálculo de la probabilidad de un suceso aleatorio A se basa en utilizar la frecuencia relativa del suceso
Preguntas: tabla de frecuencia
Módulo Estadística aplicada
Lección 5 - Inferencia estadística
Christian Hidalgo
Objetivo
Uno de los objetivos básicos en la investigación de un determinado fenómeno aleatorio consiste en extraer conclusiones acerca de una característica de interés sobre la población objeto de estudio (nivel promedio de colesterol, proporción de fumadores, diferencia en el nivel promedio de ácido úrico según sexo…) cuando únicamente se dispone de la información contenida en una muestra de dicha población
Distribuciones de probabilidad continua
La Distribución Normal
Distribución de probabilidad normal
La distribución de probabilidad continua más importante es la distribución normal. Existen dos razones fundamentales:
- Tiene algunas propiedades que la hacen aplicable a un gran número de situaciones. Por ejemplo, en el muestreo.
- La distribución normal casi se ajusta a las distribuciones de frecuencias observadas en fenómenos, incluyendo características humanas (peso, altura, coeficiente intelectual)
Características de la distribución normal
- La curva tiene un solo pico; por tanto, es unimodal. Tiene la forma de campana que mencionamos anteriormente.
- La media de una población distribuida normalmente cae en el centro de su curva normal.
- Debido a la simetría de la distribución normal, la media, la mediana y la moda tienen el mismo valor.
Familia de distribuciones normales
No hay una sola curva normal, sino una familia de curvas normales. Por lo tanto, para definir una distribución normal de probabilidad necesitamos definir solamente dos parámetros: media y la desviación estándar
Familia de distribuciones normales
No hay una sola curva normal, sino una familia de curvas normales. Por lo tanto, para definir una distribución normal de probabilidad necesitamos definir solamente dos parámetros: media y la desviación estándar
Familia de distribuciones normales
No hay una sola curva normal, sino una familia de curvas normales. Por lo tanto, para definir una distribución normal de probabilidad necesitamos definir solamente dos parámetros: media y la desviación estándar
Área bajo la curva
No importa cuales sean los valores de la media y la desviación estándard para una distribución de probabilidad normal, el area total bajo la curva es de 1,00. Lo que implica que cada mitad de la curva contiene un valor de 0,50 de los valores de manera que las áreas bajo la curva son probabilidades.
Área bajo la curva
1. Aproximadamente 68% de todos los valores de una población normalmente distribuida se encuentra dentro de ± 1 desviación estándar de la media. 2. Aproximadamente 95.5% de todos los valores de una población normalmente distribuida se encuentra dentro de ± 2 desviaciones estándar de la media. 3. Aproximadamente 99.7% de todos los valores de una población normalmente distribuida se encuentra dentro de ± 3 desviaciones estándar de la media
Área bajo la curva: ejemplo
Tenemos un programa de entrenamiento diseñado para mejorar la calidad de las habilidades del personal de atención al cliente. Debido a que el programa es auto administrado, el personal requiere un número diferente de horas para terminarlo. Un estudio de los participantes anteriores indica que el tiempo medio para completar el programa es de 500 horas, y que esta variable aleatoria normalmente distribuida tiene una desviación estándar de 100 horas.
Área bajo la curva: ejemplo
¿Cuál es la probabilidad de que un participante elegido al azar requiera más de 500 horas para completar el programa?
Área bajo la curva: ejemplo
¿Cuál es la probabilidad de que un candidato elegido al azar se tome entre 500 y 650 horas para completar el programa de entrenamiento?
Área bajo la curva: ejemplo
¿Cuál es la probabilidad de que un candidato escogido al azar se tome entre 420 y 570 horas para completar el programa?
Área bajo la curva: ejemplo
¿Cuál es la probabilidad de que un candidato escogido al azar se tome entre 420 y 570 horas para completar el programa?
Distribuciones de probabilidad continua
La Distribución Normal Estándar
Características de la distribución normal estándar
Área bajo la curva: ejemplos
Los ingresos mensuales del personal de salud tienen una distribución normal con media $1000 y desviación estándar de $100. ¿Cuál es el valor Z para salarios de $1100 y $900?
Área bajo la curva: ejemplos
Los ingresos mensuales del personal de salud tienen una distribución normal con media $1000 y desviación estándar de $100. ¿Cuál es el valor Z para salarios de $1100 y $900?
Área bajo la curva: ejercicios
Una población normal tiene media de 50 y desviación estándar de 4:
- Calcule la probabilidad de tener un valor 44 y 55
- Evalúe la probabilidad de tener un valor a 55
- Determine la probabilidad de tener un valor entre 52 y 55
Área bajo la curva: ejercicios
El tiempo que demora una persona en entregar una cédula de identidad sigue una distribución normal con media de 15 minutos y desviación estándar 3,5 minutos cual es la probabilidad de:
- Una prueba se demore más de 20 minutos
- 20 minutos o menos
- Entre 10 y 12 minutos
Módulo Estadística aplicada
Estadística - Lección 6 - Inferencia estadística y muestreo
Christian Hidalgo
Objetivos
Uno de los objetivos básicos en la investigación de un determinado fenómeno aleatorio consiste en extraer conclusiones acerca de una característica de interés sobre la población objeto de estudio (nivel promedio de compra, proporción de fumadores, diferencia en el nivel promedio de uso de un servicio según sexo…) cuando únicamente se dispone de la información contenida en una muestra de dicha población
Objetivos
Inferencia estadística: definiciones básicas
Población, Muestra y Estimador
Pero por qué inferir
En algunas ocasiones, únicamente se puede disponer de información sobre algunos de los individuos o elementos de la población y no sobre todos ellos.
- Un técnico especialista desea estimar el tiempo medio de duración de un lote correspondiente a un determinado tipo de prótesis sometiéndolas a diferentes pruebas de desgaste.
- En un estudio se pretende estimar el tiempo medio de espera en la sala de urgencias de un centro hospitalario.
- Se desea contrastar si la proporción de fumadores en España es superior al 45%
Porque…
- En el primer caso, la población la componen todas las prótesis del lote. Dado que la observación del tiempo de duración de una prótesis implica en este caso su destrucción, esto supondría la desaparición de todas ellas.
- En el segundo caso, la población la formarían todos los posibles usuarios del servicio de urgencias. Esta población, en contra de lo que pudiera parecer, es una población infinita, puesto que un mismo usuario puede acudir más de una vez y existen infinitos instantes de tiempo en los que podrían producirse llegadas al servicio.
- En el tercer caso, la población estaría compuesta por todos los habitantes del estado español. Aunque esta población podría llegar a ser teóricamente observada en su totalidad, el coste económico que supondría entrevistar a todos los habitantes podría hacerlo inviable.
Definiciones
En cualquiera de estos casos, será necesario seleccionar un subconjunto de elementos de la población objetivo sobre los que será observada la variable relacionada con la característica de interés. Población: se define como población a cualquier conjunto de individuos o elementos sobre el que se pretende estudiar una determinada característica.Muestra: es un subconjunto de individuos o elementos de dicha población. Adicionalmente, esta muestra será aleatoria si los individuos o elementos han sido seleccionados al azar mediante una técnica de muestreo aleatorio determinada.Parámetro: es cualquier característica cuantitativa de una o más variables de la población, generalmente desconocida, sobre la que se pretende realizar algún tipo de inferencia (estimar o contrastar).
Ejemplos:
Ejemplo 1: educación secundaria en Ecuador Población: Estudiantes de secundaria en Ecuador Muestra: 500 estudiantes seleccionados en 10 colegios de Quito Parámetro: El promedio de calificaciones en matemáticas de los estudiantes del Ecuador. Ejemplo 2: salud en América Latina Población: Todos los adultos mayores de 65 años en América Latina Muestra: 1.000 adultos mayores encuestados en hospitales de Colombia, Perú y Chile Parámetro: El porcentaje de adultos mayores que padecen hipertensión en América latina Ejemplo 3: merketing y publicidad Población: todos los clientes que compraron en una cadena de supermercados del último año Muestra: 2.000 clientes seleccionados aleatoriamente de la base de datos de compras Parámetro: El gasto promedio anual por cliente en esa cadena de supermercados
Muestreo
Definiciones y tipos de muestreo
Muestreo
Los intervalos de confianza y los contrastes de hipótesis son técnicas inferenciales que permiten realizar afirmaciones sobre parámetros desconocidos de la población a partir de la información contenida en una MUESTRA
cualquier afirmación que se realice sobre los parámetros poblacionales estará sujeta a un error inherente al propio proceso de muestreo que recibe el nombre de error muestral, también denominado error aleatorio, cuando la muestra ha sido obtenida mediante algún procedimiento de muestreo aleatorio
Muestreo
Si estos estimadores se construyen a partir de los datos de la muestra, la forma en que hayan sido seleccionados los individuos o elementos de esta influirán enormemente sobre los resultados que puedan obtenerse y, en este caso, sobre el valor del estimador puntual. Las estimaciones se alejarán de los verdaderos valores de los parámetros poblacionales, produciéndose un error denominado error sistemático o sesgo
Muestreo
Las distintas técnicas de muestreo se clasifican en probabilísticas o aleatorias y no probabilísticas. La diferencia estriba fundamentalmente en que, en las primeras, cada uno de los individuos o elementos de la poblacióntiene una probabilidad conocida y distinta de 0 de ser incluido en la muestra, mientras que en las últimas esta cuestión se desconoce.
Muestreo
Las distintas técnicas de muestreo se clasifican en probabilísticas o aleatorias y no probabilísticas. La diferencia estriba fundamentalmente en que, en las primeras, cada uno de los individuos o elementos de la poblacióntiene una probabilidad conocida y distinta de 0 de ser incluido en la muestra, mientras que en las últimas esta cuestión se desconoce.
Muestreo aleatorio simple
Para una población de tamaño N, se obtiene una muestra de tamaño n de tal forma que cualquier persona tiene la misma probabilidad de selección. Pero cuantas combinaciones posibles hay por lo tanto, la probabilidad de seleccionar una de esas combinaciones viene dado por
Muestreo aleatorio simple
Para una población de tamaño N, se obtiene una muestra de tamaño n de tal forma que cualquier persona tiene la misma probabilidad de selección. Pero cuantas combinaciones posibles hay por lo tanto, la probabilidad de seleccionar una de esas combinaciones viene dado por
Procedimiento selección de la muestra
El procedimiento de selección de una muestra por muestreo aleatorio simple sería el siguiente:
- Disponer de un listado enumerado de todos los individuos o elementos de la población.
- Seleccionar n números aleatorios entre 1 y N utilizando una tabla de números aleatorios.
- Seleccionar los individuos o elementos de la población correspondientes a los números aleatorios seleccionados.
Ejemplo
Ejemplo
Estimación
Estimación puntual y por intervalos
Estimación
Con frecuencia el interés del investigador se centra en estimar o cuantificar el valor de un parámetro desconocido de la población a partir de la información contenida en una muestra.
Estimación puntual
La primera etapa en el proceso de estimación de un parámetro desconocido de la población consiste en obtener, a partir de los datos de la muestra, un valor que será utilizado como estimación de dicho parámetro. Este valor, denominado estimador puntual En general, es habitual utilizar letras del alfabeto griego para referirse a los parámetros poblacionales, y el acento circunflejo para referirse al estimador puntual del parámetro.
Estimación puntual: proporción
En el ejemplo 2-4 se pretende estimar el valor de la proporción poblacional de éxito de una determinada intervención quirúrgica a partir de la información contenida en una muestra de 50 individuos. La proporción de éxito tras la intervención observada se calcularía de la siguiente forma:
Donde r es el número de individuos de la muestra en los que la intervención ha sido un éxito y n es el tamaño de la muestra. Esto significa que el 80% de los pacientes que tendrían esta interveción será un éxito.
Estimación puntual: media
Se pretende estimar el valor de la media de edad de los individuos que practican ejercicio de forma regular. Se cuenta con información sobre 20 individuos que practican algun tipo de ejercicio en los que la media es:
Definiciones
Estadístico: un estadístico es cualquier función de los datos de la muestra o, equivalentemente, cualquier característica cuantitativa calculada a partir de los datos de la muestra. Estimador: un estimador es un estadístico (luego es calculable a partir de los datos de la muestra) que, por su construcción, intenta acercarse al verdadero valor de un parámetro desconocido de la población.
Definiciones
Estadístico: La estatura promedio. Estimador: La estatura promedio en la muestra
Módulo Estadística aplicada
Estadística - Lección 7 -Métodos de Muestreo e inferencia
Christian Hidalgo
Métodos de muestreo
Muestreo aleatorio sistemático
No siempre se puede utilizar el muestreo aleatorio simple. Por ejemplo, si se desea obtener una muestra de tamaño n de una población infinita, como es el caso de personas en una linea de espera en un supermercado. Para ello se aplica el muestreo aleatorio sistemático. En este caso, se puede tomar un número aleatorio, por ejemplo 10, y realizar cada 10 personas la evaluacion.
Muestreo aleatorio sistemático
Para obtener la muestra se sigue el siguiente procedimiento: - Las personas o elementos de estudio se ubican en orden, en este caso por orden de llegada. - Se selecciona al azar el punto de partida. - Luego se elige el k-ésimo elemento de la población.
Muestreo aleatorio estratificado
La población se divide en subgrupos, denominados estratos y se selecciona una muestra por cada uno de los estratos.Una vez que se han dividido los estratos, se puede tomar una muestra proporcional o no proporcional al estrato.
Muestreo aleatorio estratificado: proporcional
Si se determina una muestra de 100 personas con enfermedades relacionadas al sistema endócrino:
Muestreo aleatorio por conglomerados
Sirve para obtener una muestra de la población en un área dispersa. El muestreo por conglomerados es un método de muestreo probabilístico que se utiliza cuando en una población estadística se evidencian grupos homogéneos, pero que son internamente heterogéneos. Los elementos de la población son seleccionados al azar en forma natural por agrupaciones (clusters). Las unidades de muestreo o grupos pueden ser espaciados
Inferencia
Estimaciones puntuales: media
La media muestral es el mejor estimador de la media de la población. Es insesgada, consistente, eficiente y cuando la muestra lo suficientemente grande, la distribución muestral puede ser aproximada por una distribución normal.Ejemplo:Tomamos una muestra aleatoria de 35 cajas y registramos el número de jeringascontenidas en cada caja. Obtenemos el promedio de jeringas
Estimaciones puntuales: varianza
Suponga que la administración de la compañía de suministros clínicos desea estimar la varianza y/o la desviación estándar de la distribución del número de jeringas empacadas por caja. El estimador más utilizado para estimar la desviación estándar de la población, es la desviación estándar de la muestra.
Si se usaba n en el denominado, el resultado habría tenido algo de sesgo como estimador de la varianza de la población; específicamente, hubiera tendido a ser demasiado bajo. Utilizar en el divisor n-1, nos da un estimador imparcial de la varianza
Estimaciones puntuales: proporción
La proporción de unidades de una población dada que tiene una característica de interés particular se denota por p. Si conocemos la proporción de unidades de una muestra que tiene la misma característica se pude estimar p con la proporción de la muestra. Ejemplo:Se desea estimar el número de cajas que llegarán dañadas a su destino por mal manejo en el traslado. Podemos verificar una muestra de 50 cajas a partir del punto de embarque hasta su arribo al punto de destino, y luego registrar la presencia o ausencia de daños. En este caso, si encontramos que la proporción de cajas dañadas en la muestra es 0.08
Ejercicios
Estimaciones por intervalo:
Una estimación de intervalo describe un conjunto o rango de valores dentro del cual es posible que esté un parámetro de la población.
Estimaciones por intervalo:
Suponga que el director del laboratorio necesita hacer una estimación del tiempo de vida promedio unas vacunas. Seleccionamos una muestra aleatoria de 200 vacunas. Nuestra muestra de 200 vacunas tiene una vida media de las baterías de 36 meses. Pero el director también pide una conclusión acerca de la incertidumbre que acompañará a esta estimación; es decir, una afirmación acerca del intervalo dentro del cual es probable que esté la media de la población desconocida. Para proporcionar tal afirmación, necesitamos encontrar el error estándar de la media.
Estimaciones por intervalo:
Para medir la extensión, o dispersión, de nuestra distribución de medias muestrales, podemos utilizar la siguiente fórmula* y calcular el error estándar de la media: Suponga que ya se estimó la desviación estándar de la población de vacunas yse informó que es 10 meses. Con esta desviación estándar podemos calcularel error estándar de la media:
Estimaciones por intervalo:
Estimaciones por intervalo:
Ahora, podemos informar al director que nuestra estimación de la vida útil de las vacunas de la compañía es 36 meses y que el error estándar que acompaña a esta estimación es 0,707.
Estimaciones por intervalo: ejemplo
Para una población con una varianza conocida de 185, una muestra de 64 individuos lleva a 217 como estimación de la media.
- Encuentre el error estándar de la media
- Establezca una estimación de intervalo que incluya la media de la población 68,3% del tiempo
a) Encuentre el error estándar de la media
b) Establezca una estimación de intervalo que incluya la media de la población 68,3% del tiempo
Intervalos de confianza
Al utilizar estimaciones de intervalo no nos estamos limitando a ±1, 2 y 3 errores estándar. Por ejemplo, deseamos un intervalo que contenga 90% o el 95% o el 99%. Nivel de confianza: esta probabilidad indica qué tanta confianza tenemos de que la estimación de intervalo incluya al parámetro de población. Una probabilidad más alta implica una mayor confianza. En la estimación, los niveles de confianza que se utilizan con más frecuencia son 90, 95 y 99%, pero somos libres de aplicar cualquier nivel de confianza.
Intervalos de confianza: ejemplo
Un mayorista de prótesis de rodilla necesita una estimación de la vida media en meses que puede esperar de las prótesis. La administración de la empresa ya ha determinado que la desviación estándar de la vida útil de la población es 6 meses. Suponga que seleccionamos una sola muestra aleatoria de 100 prótesis, tomamos los datos referentes a su vida útil y obtenemos los siguientes resultados:
Intervalos de confianza: ejemplo
Un mayorista de prótesis de rodilla necesita una estimación de la vida media en meses que puede esperar de las prótesis. La administración de la empresa ya ha determinado que la desviación estándar de la vida útil de la población es 6 meses. Suponga que seleccionamos una sola muestra aleatoria de 100 prótesis, tomamos los datos referentes a su vida útil y obtenemos los siguientes resultados:
Intervalos de confianza: ejemplo
Nos piden que encontremos una estimación de intervalo con un nivel de confianza del 95%. Calculamos el error estándar de la media
Intervalos de confianza: ejemplo
A continuación, consideraremos el nivel de confianza con el cual estamos trabajando. Como un nivel del 95% de confianza incluirá 47.5% del área que se encuentra a ambos lados de la media de la distribución de muestreo. Descubrimos que 0,475 del área bajo la curva normal está contenida entre la media y un punto situado a 1,96 errores estándar a la derecha de la media.
=DISTR.NORM.INV(0,975;0;1)
Intervalos de confianza: ejemplo
Por consiguiente, sabemos que (2)(0.475) = 0,95 del área está localizada entre ±1.96 errores estándar de la media y que nuestros límites de confianza son: