Want to create interactive content? It’s easy in Genially!

Get started free

3. El Big Data como desarrollo tecnológico de los datos

EAD Recursos

Created on August 17, 2023

Start designing with a free template

Discover more than 1500 professional designs like these:

Puzzle Game

Scratch and Win

Microlearning: How to Study Better

Branching Scenarios Challenge Mobile

Branching Scenario Mission: Innovating for the Future

Piñata Challenge

Teaching Challenge: Transform Your Classroom

Transcript

3. El Big Data como desarrollo tecnológico de los datos

3.1 Características del Big Data, las diferentes v’s.

Datos MasivosBig Data

  • De manera general, el Big Data o Datos Masivos es un gran conjunto de datos altamente no estructurados y desorganizados generados por una gran cantidad de fuentes diversas.
  • El concepto de Big Data puede ser visto como una forma donde los datos exceden las capacidades tradicionales de procesamiento de la infraestructura de bases de datos.
  • Oracle, una empresa fuerte en cuanto a base de datos se refiere, habla sobre tres tipos:
  • Datos tradicionales de empresas
  • Datos generados por los sensores de máquinas
  • Datos de redes sociales

En los inicios del Big Data o Datos Masivos se pensaba que los grandes contribuidores serían: científicos, físicos, etc. Sin embargo, las redes sociales, el comercio electrónico, el streaming, juegos en línea, dispositivos portátiles que monitorean nuestra salud, entre otros servicios y dispositivos masivos han superado las expectativas.

Las 3 v's

Volumen

  • La V mayúscula de Big Data define por sí misma que se refiere a una gran cantidad de datos.
  • Cada día, las empresas de todo tipo generan y registran un aumento significativo de sus datos.
  • Terabytes, Petabytes y Exabytes, de ese orden es la creación de datos en la actualidad.
  • Grandes cantidades de datos incluyendo texto, video, sonido, interacciones en redes sociales, investigaciones, datos médicos, imágenes espaciales, predicción de fenómenos naturales, sensores en la industria 4.0.
  • La digitalización es parte ya de nuestra vida cotidiana.
  • La Mercadotecnia tradicional se basa en encuestas con interacciones personales con los clientes. La publicidad se hace a través de radio, televisión, periódicos, etc. Es difícil medir el impacto de este tipo de publicidad en los clientes.
  • El ejemplo más claro del uso de Datos es Amazon, recopila datos sobre las compras de millones de personas, da tratamiento y procesamiento a los datos para encontrar y analizar los patrones de compra, métodos de pago, etc. Para genera una campaña publicitaria específica para cada usuario.

Velocidad

  • La velocidad en el Big Data tiene que ver con la velocidad de adquisición de datos de diferentes fuentes y la velocidad a la cual pueden ser procesados. En sensores continuos se genera un intervalo en el cual los datos son registrados.
  • La velocidad con la que se generan los datos está directamente relacionada con el volumen de datos generados y almacenados.
  • A veces es preferible tener pocos datos en tiempo real que muchos con poca velocidad.
  • Los datos tienen que estar disponibles en el momento justo para la toma de decisiones.

Variedad

  • Los datos producidos no corresponden a una sola categoría si no todo lo contrario.
  • Datos de fuentes tan variadas como: páginas web, archivos de bitácoras de internet, redes sociales, correo electrónico, documentos, sensores de dispositivos tanto activos como pasivos.
  • Cada tipo de dato es diferente, pueden ser estructurados, semi estructurados o no estructurados lo cual los hace difíciles de manejar para los sistemas analíticos tradicionales.

Veracidad

  • Por veracidad entendemos en la confianza en los datos.
  • En la comunidad científica y de investigación se supone que los datos recopilados son limpios y precisos.
  • Ahora, con la gran cantidad de datos obtenidos de las redes sociales se genera la duda sobre la confiabilidad de estos datos.
  • Aun cuando disfrutamos las publicaciones, no podemos confiar en que sea verdad lo publicado.

Variabilidad

  • Aquí se consideran las inconsistencias del flujo de datos. Ejemplos:
  • En las redes sociales un evento inesperado causa un tráfico inusual de datos.
  • Una estación de datos meteorológicos puede tener fallos en un sensor y no registrar alguna serie de datos por un tiempo.
  • Una empresa adiciona un proveedor menor por el volumen de venta en alguna materia o producto y provoca alteraciones en los diferentes lotes de ventas. Esto generará diferentes percepciones en los consumidores.

Volatilidad

  • Es el período de tiempo en el que los datos son válidos y deben ser retenidos o almacenados.
  • Aun cuando ha aumentado la capacidad de almacenamiento, hay servicios en la nube y en general los servicios son más inmediatos, no deja de tener un costo asociado.
  • Una organización decide cual es el tiempo de vida promedio de sus datos con todas las características.

Valor

  • Esta característica o V es diferente a las otras v's que tienen que ver con los datos de entrada.
  • Esta V es la salida deseada del procesamiento del Big Data. Siempre estaremos interesados en obtener el máximo Valor de la información del Big Data procesada.
  • Debemos recordar que el almacenamiento de datos cuesta, así como su procesamiento.
  • Por tanto, debe generar valor lo que se obtiene de analizarlos.

Algo que no es una V. Complejidad

  • Dada la gran variedad de tipos de datos, de fuentes, formatos, etc. Es toda una tarea limpiar, relacionar, normalizar y transformar los datos para que se puedan utilizar en algún método posterior para la obtención de conocimiento.
  • Muchas veces del pre procesamiento de los datos deriva el éxito del método posterior.

Infraestructura IoT

Plataforma Big Data

Big Data Analytics O Machine learning

Páginas Web Smartphones Smartwatches GPS Streaming Gaming Monitores de salud Sensores en líneas de producción

Plataformas en la nube Captura Integración Almacenamiento Pre procesamiento Transformación

Análisis Machine Learning Regresión

3.2 Incertidumbre, imprecisión, falta de datos.

Gestión de datos imperfectos

  • Datos imperfectos
  • Hay una gran variedad de imperfecciones que pueden afectar los datos.
  • Se pueden separar aquellos con una apariencia suave o flexible de aquellos con especificaciones precisas y completamente ciertas. (Bases de datos tradicionales)
  • Se definen tres tipos de imperfecciones: imprecisión, incertidumbre y vaguedad.
  • Imprecisión
  • Es la carencia de exactitud en la expresión de la información.
  • Incertidumbre
  • La incertidumbre revela una situación en donde no se está seguro acerca de la veracidad de la información.
  • Vaguedad
  • Sucede cuando la información es afectada por imprecisión, incertidumbre o ambos.
  • La imperfección puede incluir otras deficiencias, falta de precisión de dispositivos o sensores, datos de fuentes heterogéneas o información resultante de técnicas como la consolidación.
  • Por ejemplo: puede ser que un camión suelta una nube densa de su escape y en ese momento un sensor de contaminantes atmosféricos hace la lectura, es probable que ese dato de un valor elevado que no representa la realidad del medio ambiente, pero por el evento extraordinario, registrará un valor alto para el contaminante. Quedando este como una lectura anómala cuando se revisen los datos.
  • La imperfección entonces está en todas partes: Servicios de localización, Servicios de Información Geográficos (GIS), Redes de Sensores Inalámbricos, Flujo de Datos (Streaming), Bases de Datos, Extracción de Conocimiento, Inteligencia Ambiental, etc.
  • Es necesario gestionar la imperfección de los datos adecuadamente con el fin de procesar bien los datos y poder hacer una buena toma de decisiones al final.
  • Una estrategia utilizada regularmente por los manejadores de Bases de Datos tradicionales es la llamada imputación, que consiste en cambiar los valores null en la Base de Datos por valores sustitutos elegidos con algún tipo de criterio establecido.
  • Algunos autores, sin embargo, consideran que se debe utilizar toda la información disponible, incluida la imperfecta.

La generación de datos sigue aumentando de acuerdo a las operaciones realizadas y los sistemas utilizados. Por tanto, también aumentan los datos imperfectos. Una de las áreas que ofrece formalismos y técnicas matemáticas para enfrentar la gestión de datos imperfectos es Soft Computing.

3.3 Herramientas Estadísticas

¿Por qué Estadística y Ciencia de Datos?

  • La Ciencia de Datos es una disciplina científica que es influenciada por:
  • Informática
  • Ciencias computacionales
  • Matemáticas
  • Investigación de operaciones
  • Estadística
  • Ciencias Aplicadas
En 1996, por primera vez, el término Ciencia de Datos fue incluido en el título de una conferencia en Estadística. (International Federation of Classification Societies (IFCS): “Data Science, classification, and related methods” ) Press, G.: A Very Short History of Data Science. https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/?sh=45126b3b55cf . A pesar de haber sido creado el término Ciencia de Datos por estadísticos, en la percepción general está ligado a las Ciencias Computacionales, aplicaciones de negocios, en particular a la etapa del Big Data y Machine Learning.

¿Qué es la estadística?

  • La Estadística es la práctica de recolectar y analizar datos y descubrir información útil o predecir las causas que provocan algún fenómeno.
  • La Estadística es una colección de métodos que nos ayudan a describir, resumir, interpretar y analizar datos.
  • La Probabilidad juega un rol importante en la Estadística y se usa para estimar qué tan probable esta un evento de ocurrir.
  • La Estadística, a veces menospreciada, está en el corazón de muchas innovaciones producto del manejo de datos.
  • “Una investigación sin tratamiento estadístico es una opinión, no es Ciencia”

Estadística descriptiva

Realiza el estudio sobre la población completa, observando una característica de la misma y calculando unos parámetros que den información global de toda la población.

Estadística inferencial

  • Conocer la información que se tiene para poder identificar e interpretar aspectos relevantes de una muestra.
  • Utilizar esta información para obtener resultados, planear o hacer inferencia acerca de la población bajo estudio.

Sin datos no hay estadística

  • Los datos son valores asociados a un suceso o fenómeno.
  • Son la materia prima del estadístico.
  • Los referimos a números para poder interpretarlos.
  • Los datos se pueden recopilar de diversas maneras, pero en general se pueden agrupar en dos grandes categorías: datos cuantitativos y datos cualitativos.

Medidas de tendencia central

Medidas de dispersión

  • Son números o variables que indican qué tan separados o dispersos están los datos entre sí.
  • Rango se define como la diferencia entre el valor máximo y el valor mínimo.
  • Desviación estándar.
  • Varianza.
  • Cuartiles.
  • Son números que se localizan cerca del centro o cerca de donde se encuentran los datos de mayor frecuencia:
  • Moda
  • Mediana
  • Moda

Moda

  • Cuando hablamos de moda, nos referimos a algo que todo mundo quiere usar, tener o hacer. Así lo podemos relacionar con la frecuencia de esta situación.
  • La moda entonces es aquel dato que más se repite.
  • Es decir, aquel dato que tiene mayor frecuencia.

Mediana

  • La mediana se refiere a un punto al medio de una recta.
  • Si se ordena una tabla de datos de menor a mayor o viceversa, la mediana se refiere a aquel dato que se encuentra en el centro de ese listado.

Media aritmética o promedio

  • La media aritmética de un conjunto de datos es el cociente entre la suma de todos los datos y el número de estos.

Desviación estándar

Varianza

  • Una medida diferencial para identificar esos conjuntos de datos es la concentración o dispersión alrededor de la media.
  • Una manera de evitar que los distintos signos se compensen es elevarlas al cuadrado, de manera que todas las desviaciones sean positivas.
  • La raíz cuadrada del promedio de estas cantidades recibe el nombre de desviación estándar.
  • El cuadrado de la desviación estándar recibe el nombre de varianza.

Software estadístico

  • SPSS es una herramienta sofisticada diseñada originalmente para respaldar el análisis y la gestión de datos de ciencias sociales.
  • Desarrollada por SPSS Inc. en 1968, la herramienta existe desde hace más de 50 años. Posteriormente, IBM adquirió SPSS (en 2009) y el nombre de la herramienta cambió a IBM SPSS Statistics. Pero nadie se refiere al software con ese nombre; todos lo llaman SPSS.
  • Ofrece un uso sencillo de las opciones, acceso rápido a datos y procedimientos, generación de salidas y gráficos.
  • R es un programa estadístico y un lenguaje de programación de uso libre, de distribución gratuita y de código abierto.
  • Desarrollado como un gran proyecto colaborativo de estadísticos de diversos países y disciplinas.
  • R también es un programa basado sobre comandos, en el que se puede acceder a todos los procedimientos y opciones a través de sintaxis computacional.
  • Nace en 1997 y se rige por la licencia general pública.
  • Python es mucho más que un lenguaje de programación popular. Se sitúa como una excelente herramienta de análisis de datos.
  • Importa y exporta conjuntos de datos.
  • Maneja desde regresión lineal simple, regresión lineal múltiple y regresión polinomial.
  • Permite realizar muchos procedimientos avanzados y es compatible con el desarrollo de modelos sofisticados.
  • Por el momento, junto con R, son de lo más usado en Ciencia de Datos.
  • SAS. Es uno de los mejores programas de análisis de datos disponibles en la actualidad.
  • Ha sido por largos años el software más utilizado en la comunidad estadística y, por lo tanto, también se ha propagado su uso entre investigadores de diferentes disciplinas.
  • Es un programa que requiere el ingreso de comandos (i.e., sintaxis) para ejecutar gran parte de sus rutinas y opciones.
  • Las industrias que dependen en gran medida de SAS incluyen banca, automotriz, salud, educación, seguros, manufactura, petróleo y gas, deportes y servicios públicos.
  • STATA es un software estadístico multi propósito.
  • Cuenta con una gran variedad de funciones estadísticas, manejo de datos y gráficos con calidad para publicaciones.
  • Se puede usar con comandos en línea o con interfaz gráfica.
  • Los investigadores en biomedicina, sociología, epidemiología, economía y ciencias políticas parecen haber hecho de la herramienta su preferencia.

Resumen

  • Se han definido características dentro de los datos como son el volumen, velocidad, variedad, etc.
  • Dentro del gran volumen de datos, existen imperfecciones que deben ser reconocidas y tratadas.
  • La estadística es parte fundamental en el tratamiento de datos, es una de las precursoras de lo que ahora conocemos como Ciencia de Datos.
  • Lenguajes como Python y R se han posicionado en el desarrollo de Ciencia de Datos.