Presentación Proyecto de Investigación
Daniel Yepiz
Created on September 3, 2024
More creations to inspire you
FOOD AND NUTRITION
Presentation
IAU@HLPF2019
Presentation
SPRING IN THE FOREST 2
Presentation
HUMAN RIGHTS
Presentation
BLENDED PEDAGOGUE
Presentation
VALENTINE'S DAY PRESENTATION
Presentation
WOLF ACADEMY
Presentation
Transcript
Fundamentos de iNGENIERÍA EN ANÁLISIS DE DATOS
Comencemos por el principio...
Introducción
Proceso de la Ciencia de Datos
Roles Profesionales
Herramientas y Plataformas
Definición de Ciencia de Datos
índice
Disciplinas (Habilidades)
Soy un subtítulo
Tendencias y Resumen
Referencias y Material Extra...
Dominios y Aplicaciones
INTRODUCCIÓN
Ten en cuenta que esto es una introducción. Así que aprovecha para contextualizar el tema que vas a tratar, contar brevemente de qué hablarás e indicar los puntos más relevantes a tu audiencia.
La Ciencia de Datos es una disciplina que se encarga de la extracción de conocimiento a partir de los datos y que se encuentra en plena expansión, debido esencialmente al crecimiento exponencial de los datos, conocido como Big Data.
+ info
El científico de datos es aquella persona que practica la Ciencia de Datos, cuya misión es extraer conocimiento de los datos disponibles y transmitir los resultados a los directivos de las organizaciones y empresas, con el objetivo de ayudar en la toma de decisiones para que esta sea aficaz y eficiente.
El científico de datos es un profesional que debe dominar las matemáticas y la estadística, junto con altos conocimientos de algoritmos y programación (lenguajes tradicionales como C/C++, Java, JavaScript, SQL o los más especializados en estadística y Aprendizaje Automático como R, Python, Scala o Julia).
Los contenidos multimedia son esenciales para conseguir un efecto WOW en tus creaciones. Incluir un hilo musical, audios o efectos de sonido aquí… ¡Siempre suma!
DEFINICIÓN
+ info
LINK
ciencia de datos
La evolución de la Ciencia de Datos (Data Science) tiene sus origenes al final de la primera década del sigo XXI, y aunque existen muchas teorías sobre su nacimiento, parece que hay cierto acuerdo en que primero se popularizó el término de Científico de datos (data scientist) como un rol profesional experto en Ciencia de DatosCiencia de Datos es el ámbito del conocimiento que engloba las habilidades asociadas a la extracción del conocimiento de datos, esencialmente del Big Data, que pueda ser comprendido por los expertos del área del dominio o sector. Incorpora diferentes componentes y se basa en métodos, técnicas y herramientas de numerosos campos, que van desde las matemáticas y estadística, informática (ciencias de la computación), almacenamiento y procesamiento de datos, visualización, reconocimiento de patrones, Aprendizaje Automático y profundo y algoritmos, entre otros sectores.
Experiencia del entorno
Habilidades y competencias informáticas
Estadística y Matemáticas.
Las tres diciplinas esenciales, según Conway, que conforman la Ciencia de Datos son: estadística y matemática (Math&Statistics Knowledge), informática y computación (Hacking Skills) y conocimiento del dominio o experiencia en el entorno (Substantive Expertise), como puede ser el conocimiento que se debe tener del entorno; por ejemplo, sobre la gerencia, la publicidad o los recursos humanos. Por lo tanto, para que una persona desempeñe el perfil de científico de datos (experto en Ciencia de Datos), Conway considera que debe ser capaz de desempe;ar estas tres actividades y competencias.
DEFINICIÓN
+ info
LINK
ciencia de datos
ciencia de datos
Un campo de estudio y prácticas que implica la recolección, almacenamiento y procesamiento de datos, para obtener información importante sobre un problema o fenómeno. Tales datos pueden ser generados por humanos (informes, registros...) o máquinas (datos del tiempo, visión de una carretera... ) y pueden estar en diferentes formatos (texto, audio, video, realidad virtual, código binario, ...)
Una definición más actualizada de Ciencia de Datos (Shah, 2020:5)
La Ciencia de Datos es el dominio de estudio que se ocupa de grandes volúmenes de datos utilizando herramientas y técnicas modernas para encontrar patrones invisibles, obtener información significativa y tomar decisiones comerciales. La Ciencia de Datos utiliza complejos algoritmos de Aprendizaje Automático para crear modelos predictivos. Los datos utilizados para el análisis pueden provenir de muchas fuentes diferentes dy presentarse en varios formatos.
Simplilearn, un prestigoso portal educativo proporciona la siguiente definición.
La Ciencia de Datos es el dominio de estudio que se ocupa de grandes volúmenes de datos utilizando herramientas y técnicas modernas para encontrar patrones invisibles, obtener información significativa y tomar decisiones comerciales. La Ciencia de Datos utiliza complejos algoritmos de Aprendizaje Automático para crear modelos predictivos. Los datos utilizados para el análisis pueden provenir de muchas fuentes diferentes dy presentarse en varios formatos.
Definición de IBM
Definición de Data Science de IBM
IBM
IBM, una de las empresas a nivel mundial líder en Big Data y Ciencia de Datos, define Data Science como: "El proceso de utilizar algoritmos, métodos, sistemas para extraer conocimiento e ideas de datos estructurados y no estructurados. Puede ser utilizada para hacer predicciones y decisiones utilizando analítica y Aprendizaje Automático". IBM ya en sus primeras publicaciones consideraba también a la Ciencia de Datos como un área multidisciplinar que estaba cambiando el modo en que las organizaciones resuelven problemas y ganan ventaja competitiva, y que lo concentraba en las tres grandes disciplinas, siguiendo el modelo de Conway: computer science (informática), matemáticas, estadística y dominio del conocimiento. Además de estas áreas de conocimiento, se neceistan otras técnicas de computación avanzada e Inteligencia Artificial, como Aprendizaje Automático (Machine Learning), Minería de Datos, reconocimiento de patrones, almacenamiento de datos, procesamiento avanzado de bases de datos y técnicas y herramientas de visualización de datos.
Definición de Data Science de IBM
IBM
En escencia, la Ciencia de Datos se puede considerar como un campo de estudio que implica la recolección, almacenamiento, procesamiento, análisis y la visualización de los datos, con el objeto de deducir información y conocimientos importantes en la resolución de un problema o proyecto específico. Tales datos pueden ser generados por humanos (informes, estudios. logs de la web) o máquinas (datos del tiempo, visión de una carretera, etc.). Como ya se ha señalado se considerará como un campo o disciplina independiente que está integrado y converge con otros dominios como las matemáticas, la estadística, la programación, las ciencias de la computación, Big Data, la IA, y el Aprendizaje Automático, la Internet de las Cosas y la transversalidad de la ciberseguridad y Blockchain.
disciplinas (habilidades)
Ciencias de datos
Las disciplinas originales de Ciencia de Datos, definidas por Conway han ido creciendo en cantidad y calidad a medida que las nuevas disciplinas iban llegando a las organizaciones y empresas, como ha sido el caso de Big Data, Cloud Computing, Analítica de Datos, etcétera.
+ info
Ciencias de la salud
Transporte
Fabricación
Administración Pública
Reconocimiento de imágenes y de voz
Gaming
Sistemas de recomendación
Ciberseguridad
Comercio
Finanzas
DOMINIOS Y APLICACIÓN
CIENCIA DE DATOS
a. Recolección de datos en bruto, extraídos del mundo real.b. Procesamiento de datos (herramientas como R, Python, SQL, se utilizan en esta etapa en sincronización con las etapas a y b).c. Limpieza de datos.d. Una vez realizada la limpieza de datos, se deberán hacer varias tareas de modo secuencial o en paralelo:
e. Toma de decisiones.
- Análisis exploratorio de datos.
- Realización de algoritmos de Aprendizaje Automático y creación de modelos estadísticos. Construcción de prototipos teniendo presente datos del mundo real con las realimentaciones necesarias.
- Comunizar, realizar visualizaciones y presentación de informes.
- Construir productos datos.
el proceso de ciencia de datos
ciencia de datos
Las etapas del proceso de datos (Schutt y O'Neill) son:
Cada vez con mayor frecuencia, los CDs deben ser capaz de utilizar herramientas y tecnologias asociadas con Big Data, tales como:
tambien conozca y utilice bibliotecas y paquetes de software existentes-, tales como:
Para las aplicaciones de estadistica,matematicas, algoritmos, modelado y visualizacion de datos es importante que, ademas de conocer herramientas
Herramientas y plataforma
ciencia de datos
Las herramientas tipicas o caja de herramientas del cientifico de Datos son muy variadas y responden las necesidades de obtener la maxima eficacia en las multiples disciplinas que componen la Ciencia de Datos y en los roles profesionales que ha de asumir su figura.Dado que la programación de computadoras es un componente muy importante, los CDs deben ser muy eficientes con lenguajes de programación tales como:
Datos Vis
paquetes
Big DATA
Lenguajes
Ingeniero de Datos
Ingeniero de Big Data
Arquitecto de Big Data
Analista de Datos
Ingeniero de Vizualización
Científico de Datos
roles profesionales
CIENCIA DE DATOS
la Ciencia de Datos es una ciencia multidiciplinaria que requiere conocimienos de matematicas y estadistica, experiencia de domimio de datos y desreza de computacion.
e. Toma de decisiones.
TENDENCIAS Y RESUMEN
ciencia de datos
Joel Grus (2015). "Data Science from Scratch". O’Reilly Media, Inc.,
Luis Joyanes Aguilar (2023). "Ciencia de Datos". Alfaomega.
resultados
bibliografía/publicaciones
Libros
Neural Networks (20XX). "Escribe un titular genial". Revista Lorem ipsum dolor.
Foster Provost (2013). "Data Science for Business". Book
Paquetes
- Hadoop
- Spark
- Pig
- Mahout
- Hive
Reconocimiento de imágenes y de voz
El procesamiento del Lenguaje Natural (NPL) unido a las otras tecnologías de reconocimiento de imágenes han popularizado el uso de aplicaciones como Siri de Apple, Cortana de Microsoft, Google Voice, o Alexa de Amazon, y también han facilitado el desarrollo e implementación de muchas otras aplicaciones lo que ha hecho crecer el uso de las ramas de la Inteligencia Artificial Conversacional e Inteligencia Artificial Generativa. Los chatsbots y los asistentes virtuales inteligentes se han convertido en herramientas de uso diario tanto para organizaciones como para empresas como usuarios profesionales o personales.
Ciencias de la salud
El sector de ciencias de la salud médica siempre ha almacenado datos (estudios clínicos, infomación de seguros, registros hospitalarios), el sector salud ahora está inundado de una cantidad de información sin precedentes. Esto incluye datos biológicos como la expresión génica, datos de secuencias ADN de prósima generación, proteómica (estudio de las proteínas) y metabolómica (huellas dactilares químicas de los procesos celulares) (Shah 2020:9).
Ciberseguridad
El uso creciente de datos y algoritmos ha traído consigo un aumento de las actividades maliciosas y ha aumentado los riesgos y peligros de su utilización. El software malioso ha conseguido introdusirse en organizaciones y empresas de todo tipo ya que sus desarrolladores utilizan técnicas cada vez más sofisticadas con las que vulneran los sistemas de seguridad más confiables.Los Científicos de datos utilizan Aprendizaje Automático y la IA para comprender la naturaleza de los ataques maliciosos y ver de cómo combatirlos con eficacia y protegerse de ellos.
Buscadores y sistemas de recomendación
Una gran canidad de motores de búsqueda (Google, Yahoo!, Bing, AOL) utilizan la Ciencia de Datos para comprender mejor el comportamiento humano y los patrones de búsqueda. Para dar los mejores resultados para la búsqueda de cada usuario, todos estos motores utilizan diversas tecnologías y métodos de Ciencias de Datos.
Administración Pública
La administración pública y la aplicación de sus políticas, reglamentos y leyes a los problemas de la sociedad a través de las acciones del Gobierno y las agencias correspondientes contribuyen al bien de la ciudadanía. Muchas ramas de las ciencias sociales (economía, ciencias políticas, sociología) son fundamentales para la creación de políticas públicas. La ciencia de Datos ayuda a los gobiernos y agencias a obtener información sobre los comportamientos de los ciudadanos que afectan la calidad de la vida pública, incluido el tráfico, el transporte público, el bienestar social, bienestar de la comunidad. Esta información o datos, se pueden utilizar para desarrollar planes que aborden la mejoría de estas áreas.
Fabricación
Afecta diretamente a la fabricación por las numerosas ventajsa que aporta, tales como: Optimizar costos de energía y horas productivas; Mejorar las decisiones y mejorar la calidad de los productos sobre la base de las opiniones de los clientes; construir un sistema autónomo utilizando datos históricos y en tiempo real para potenciar la línea de fabricación.
Herramientas
- Tableau
- Qlik
- Power BI
- Looker
- Air Table
Con las plantillas de Genially podrás incluir recursos visuales para dejar a tu audiencia con la boca abierta. También destacar alguna frase o dato concreto que se quede grabado a fuego en la memoria de tu público e incluso embeber contenido externo que sorprenda: vídeos, fotos, audios... ¡Lo que tú quieras!Lo que lees: la interactividad y la animación pueden hacer que el contenido más aburrido se convierta en algo divertido. En Genially utilizamos AI (Awesome Interactivity) en todos nuestros diseños, para que subas de nivel con interactividad y conviertas tu contenido en algo que aporta valor y engancha. ¿Necesitas más motivos para crear contenidos dinámicos?
Bien: el 90% de la información que asimilamos nos llega a través de la vista y, además, retenemos un 42% más de información cuando el contenido se mueve.A la hora de llevar a cabo una presentación hay que perseguir dos objetivos: transmitir información y evitar bostezos. Para ello puede ser una buena praxis hacer un esquema y utilizar palabras que se graben a fuego en el cerebro de tu audiencia. A la hora de llevar a cabo una presentación hay que perseguir dos objetivos: transmitir información y evitar bostezos. Para ello puede ser una buena praxis hacer un esquema y utilizar palabras que se graben a fuego en el cerebro de tu audiencia.
A la hora de llevar a cabo una presentación hay que perseguir dos objetivos: transmitir información y evitar bostezos. Para ello puede ser una buena praxis hacer un esquema y utilizar palabras que se graben a fuego en el cerebro de tu audiencia.Si quieres aportar información adicional o desarrollar el contenido con más detalle puedes hacerlo a través de tu exposición oral. Te recomendamos que entrenes tu voz y ensayes: ¡la mejor improvisación siempre es la más trabajada! ¡Recuerda añadirle animación! Capta la atención de tu público con tus contenidos y elige el efecto ideal seleccionando el elemento y haciendo clic en el icono de Animación, que aparece justo encima.
Ingeniero de datos
Han adquirido gran importancia en la era de Big Data y, de hecho, ya tienen hoy en día competencias similares al ingeniero de Big Data. El ingeniero de datos no está tan concernido a la estadística, Analítica y modelado de datos como sus homólogos analistas de datos, y está más implicado en la ingeniería y arquitectura de datos, infraestructuras de computación, almacenamiento y flujo de datos, etc. Los ingenieros de datos son, por consiguiente, los responsables de la arquitectura de datos y de la instalación de la infraestructura necesaria. Deben tener conocimientos de computación avanzados y deben ser programadores expertos. Recientemente, se les está asociando con unos nuevos perfiles que están emergiendo, los expertos en DevOps (desarrollo y operaciones).
Juego de azar- Videojuegos (Gaming)
La creación de juegos de azar, especialmente en el sector videojuegos, aplica técnicas de análisis de datos. Para diseñar e investigar el comportamiento de los jugadores, y desarrollar modelos matemáticos y la automatización del análisis del juego para detectar los puntos y el uso del juego por parte de cada individuo.Está ayudando a los desarrolladores a determinar qué usuarios encuentran el juego fascinante o difícil, así como qué jugadores se aburren después de cierto periodo de tiempo. Esto permite a las empresas crear funciones de juego únicas que mantienen interesados a los jugadores.
A la hora de llevar a cabo una presentación hay que perseguir dos objetivos: transmitir información y evitar bostezos. Para ello puede ser una buena praxis hacer un esquema y utilizar palabras que se graben a fuego en el cerebro de tu audiencia.Si quieres aportar información adicional o desarrollar el contenido con más detalle puedes hacerlo a través de tu exposición oral. Te recomendamos que entrenes tu voz y ensayes: ¡la mejor improvisación siempre es la más trabajada! ¡Recuerda añadirle animación! Capta la atención de tu público con tus contenidos y elige el efecto ideal seleccionando el elemento y haciendo clic en el icono de Animación, que aparece justo encima.
Bien: el 90% de la información que asimilamos nos llega a través de la vista y, además, retenemos un 42% más de información cuando el contenido se mueve.A la hora de llevar a cabo una presentación hay que perseguir dos objetivos: transmitir información y evitar bostezos. Para ello puede ser una buena praxis hacer un esquema y utilizar palabras que se graben a fuego en el cerebro de tu audiencia. A la hora de llevar a cabo una presentación hay que perseguir dos objetivos: transmitir información y evitar bostezos. Para ello puede ser una buena praxis hacer un esquema y utilizar palabras que se graben a fuego en el cerebro de tu audiencia.
Con las plantillas de Genially podrás incluir recursos visuales para dejar a tu audiencia con la boca abierta. También destacar alguna frase o dato concreto que se quede grabado a fuego en la memoria de tu público e incluso embeber contenido externo que sorprenda: vídeos, fotos, audios... ¡Lo que tú quieras!Lo que lees: la interactividad y la animación pueden hacer que el contenido más aburrido se convierta en algo divertido. En Genially utilizamos AI (Awesome Interactivity) en todos nuestros diseños, para que subas de nivel con interactividad y conviertas tu contenido en algo que aporta valor y engancha. ¿Necesitas más motivos para crear contenidos dinámicos?
Paquetes
- D3
- Scikit-learn
- e1071
- Pandas
- Numpy
- Tensor Flow
- Matplotlib
- Shiny
- ggplot2
Transporte
Tecnologías como Internet de las Cosas, Computación en el Borde, Realidad Virtual y Aumentada, Aprendizaje automático y el uso de aplicaciones como Google Earth, Google Maps, Apple Maps, mapas interactivos, aumentan la eficacia y resultados óptimos de las aplicaciones de la Ciencia de Datos.Industrias automotrices desarrollan aplicaciones de navegación general tanto para los medios de transporte como para los usuarios particulares en sus carros personales.
Científico de datos
Tiene una visión más horizontal de todo el proceso de Ciencia de Datos. Su tarea principal será la programación de algoritmos para el análisis de datos, pero debe conocer bien el negocio de la empresa (su plan de negocio). En definitiva, un científico de datos debe ser capaz de identificar aquellas variables relevantes para la empresa que ayuden a mejorar resultados, multiplicar el volumen de ventas, fidelizar a los clientes, ahorrar costes, etc. Los científicos de datos suelen mezclar, entre otros, conocimientos de matemáticas, estadística e informática, a los que es conveniente unir conocimientos de negocios, administración de empresas, ciencias de la salud y ciencias sociales.
Ingeniero de visualización
Dada la importancia que han adquirido las técnicas y herramientas de visualización, se requiere una alta especialización en comunicación, presentaciones y visualización de datos. Requiere una buena formación de ingeniería con una alta especialización en herramientas de visualización. También son demandados especialistas en diseño gráfico, así como en marketing, comuicaciones y medios sociales.
Analista de datos
Es el responsable de las etapas de procesamiento y análisis de datos. Su formación fundamental será matemáticas, estadística y negocios (Inteligencia de Negocios y Analítica de Datos). Algunas de las tareas que el análista de datos ha de realizar son: acceso y consultas a diferentes fuentes de datos, proceso de limpieza de datos, resumen de datos, visualizaciones de datos e informes. Las herramientas más utilizadas son de Inteligencia de Negocios y Analítica de Datos, tales como Microsoft Excel, Tableau, SAS, SAP, Qlik y MicroStrategy. Pueden realizar, sobre todo cuando alcanzan ya la especialización herramientas de Minería de Datos, tales como IBM SPSS, Rapid Miner y KNIME.
Comercio minorista (Retail)
La industria minorista se enfoca en los consumidores y sus necesidades para continuar prosperando y ser competitivos. Los científicos de datos ayudan a la industria minorista analizando el comportamiento y el patrón del consumidor a través de los datos, para luego utilizarlos en el proceso de toma de decisiones de precios, marketing, etc.Analizar el comportamiento del cliente; Analizar el mercado; Analizar las compras y búsquedas anteriores del cliente para crear un sistema personalizado; Crear un sistema de recomendación y difundirlo mediante mercadotecnia; Mejorar la experiencia del ciente a través del análisis predictivo.
Arquitecto de Big Data
Es el responsable de toda la arquitectura y proceso de Big Data. Deberá tener una visión global del proyecto y el conocimiento de cada una de las áreas necesarias del proceso, desde la recolección de datos, hasta la presetnación de resultados a través de herramientas de visualización. Su formación esencial será ingeniero en informática o ingeniero de sistemas, normalmente especialista en ingeniería de software.
El término Ciencia de Datos ha adquirido gran notoriedad en los últimos años, es una ciencia multidisciplinar y existe cierta unanimidad en considerar el diagrama de Venn, creado por Drew Conway en 2010 - The Data Science Venn Diagram (figura 1.1) - como la definición más empleada de Data Science.
Ingeniero de Big Data
Son los desarrolladores de Big Data. En general, son ingenieros de software, responsables de realizar los programas establecidos por los analistas, científicos de datos y arquitectos de Big Dat. Serán los encargados de diseñar y construir los algoritmos, los sistemas de recolección y almacenamiento de datos, y realizar los programas de gestión de software de la empresa, donde se tengan en cuenta sus planes y líneas de negocios.
Las empresas utilizan algoritmos de Aprendizaje Automático para analizar el comportamiento y los patrones de gasto anteriores para decidir la solvencia de los clientes, junto con otros factores, como la duración del historial crediticio, y la edad del cliente, que se utilizan a su vez para predecir el monto aproximado del préstamo que se puede enviar de manera segura al cliente al solicitar u na nueva tarjeta de crédito o un préstamo bancario (Shah, 2020:9)
Las prácticas de Ciencia de Datos pueden minimiazar la posibilidad de impago de préstamos a través de información como perfiles de clientes, gastos pasados y otras variables esenciales que pueden usarse para analizar las probabilidades de riesgo de impago.
Finanzas
Las finanzas constituyen una de las actividades más populares de la Ciencia de Datos. La actividad de las redes sociales, las interacciones móviles, los registros del servidor, las fuentes de mercado en tiempo real, los registros del servicio a cliente, los detalles de las transacciones y la información de las bases de datos se combinan para crear un conglomerado rico y complejo de información que expertos deben abordar.
El crecimiento exponencial de los datos en la década pasada y en la actual ha consolidado la disciplina de Ciencia de Datos. El informe anual de IDC de 2012, relativo a la presencia de datos en la Tierra, señalaba "los volúmenes de datos previstos para finales del 2020 a 40 zettabytes (ZB), que suponía un crecimiento de más de 50 veces el volumen que estaba disponible a principios de 2010 (0.8 ZB); el informe proyectaba que la población mundial se acercaría a los 8 mil millones para fines de 2020, lo que significa que, si se piensa en datos por persona, cada individuo en el mundo tendría aproximadamente 5 TB de datos" (Shah, 2020:6).
Lenguajes
- R
- Python
- SQL
- Scala
- Julia
- Java
- C/C++