Want to create interactive content? It’s easy in Genially!

Get started free

Una breve historia de la ciencia de los datos

AOL

Created on June 23, 2023

Start designing with a free template

Discover more than 1500 professional designs like these:

Transcript

Una breve historia de la ciencia de datos

Empezar

Introducción

La estadística y el uso de modelos estadísticos están muy arraigados en el campo de la ciencia de datos. La ciencia de datos comenzó con estadísticas y ha evolucionado para incluir conceptos/prácticas como inteligencia artificial, aprendizaje automático e Internet de las cosas, por nombrar algunos. A medida que se dispone de más y más datos, primero a través de tendencias y comportamientos de compra registrados, las empresas los recopilan y almacenan en cantidades cada vez mayores. Con el crecimiento de Internet, Internet de las cosas y el crecimiento exponencial de los volúmenes de datos disponibles para las empresas, ha habido una avalancha de nueva información o big data. Una vez que las empresas abrieron las puertas que buscaban aumentar las ganancias e impulsar una mejor toma de decisiones, el uso de big data comenzó a aplicarse a otros campos, como la medicina, la ingeniería y las ciencias sociales. Un científico de datos funcional, a diferencia de un estadístico general, tiene una buena comprensión de la arquitectura de software y comprende múltiples lenguajes de programación. El científico de datos define el problema, identifica las fuentes clave de información y diseña el marco para recopilar y filtrar los datos necesarios. El software suele ser responsable de recopilar, procesar y modelar los datos. Utilizan los principios de la ciencia de datos y todos los subcampos y prácticas relacionados incluidos en la ciencia de datos para obtener una visión más profunda de los activos de datos bajo revisión.

Una breve historia de la ciencia de datos

Hay muchas fechas y cronogramas diferentes que se pueden usar para rastrear el lento crecimiento de la ciencia de datos y su impacto actual en la industria de administración de datos, algunos de los más significativos se describen a continuación.
Da click en todos los círculos de colores

Actualidad

El término ciencia de datos se creó a principios de la década de 1960 para describir una nueva profesión que respaldaría la comprensión, el análisis y la interpretación de las grandes cantidades de datos que se acumulaban en ese momento. (En ese momento, no había forma de predecir las cantidades verdaderamente masivas de datos durante los próximos cincuenta años). La ciencia de datos continúa evolucionando como una disciplina que utiliza la informática y la metodología estadística para hacer predicciones útiles y obtener información en una amplia gama de campos. Si bien la ciencia de datos se usa en áreas como la astronomía y la medicina, también se usa en los negocios para ayudar a tomar decisiones más inteligentes.

1960

1962

En 1962, John Tukey escribió un artículo titulado El futuro del análisis de datos y describió un cambio en el mundo de las estadísticas, diciendo: “... mientras observaba la evolución de las estadísticas matemáticas, he tenido motivos para preguntarme y dudar... He llegado a sentir que mi interés central es el análisis de datos…” Tukey se refiere a la fusión de estadísticas y computadoras, cuando las computadoras se usaban por primera vez para resolver problemas matemáticos y trabajar con estadísticas, en lugar de hacer el trabajo a mano.

En 1974, Peter Naur fue autor de Concise Survey of Computer Methods, utilizando el término "Ciencia de datos" repetidamente. Naur presentó su propia definición complicada del nuevo concepto: “La utilidad de los datos y los procesos de datos deriva de su aplicación en la construcción y manejo de modelos de la realidad”.

1974

En 1977, se formó el IASC, también conocido como la Asociación Internacional de Computación Estadística. La primera frase de su declaración de misión dice: "La misión del IASC es vincular la metodología estadística tradicional, la tecnología informática moderna y el conocimiento de expertos en el dominio para convertir los datos en información y conocimiento". En 1977, Tukey escribió un segundo artículo, titulado Análisis exploratorio de datos, argumentando la importancia de usar datos para seleccionar "cuáles" hipótesis para probar, y que el análisis de datos confirmatorios y el análisis de datos exploratorios deberían funcionar de la mano.

1977

En 1989, Knowledge Discovery in Databases, que se convertiría en la Conferencia ACM SIGKDD sobre Knowledge Discovery y Data Mining, organizó su primer taller.

1989

En 1994, Business Week publicó el artículo de portada, Marketing de base de datos, que revelaba las noticias siniestras que las empresas habían comenzado a recopilar grandes cantidades de información personal, con planes para iniciar nuevas y extrañas campañas de marketing. La avalancha de datos fue, en el mejor de los casos, confusa para muchos gerentes de la empresa, que intentaban decidir qué hacer con tanta información desconectada.

1994

En 1999, Jacob Zahavi señaló la necesidad de nuevas herramientas para manejar las cantidades masivas y en continuo crecimiento de datos disponibles para las empresas, en Minería de datos para pepitas de conocimiento. El escribió: “La escalabilidad es un gran problema en la minería de datos… Los métodos estadísticos convencionales funcionan bien con pequeños conjuntos de datos. Las bases de datos de hoy, sin embargo, pueden incluir millones de filas y decenas de columnas de datos... Otro desafío técnico es desarrollar modelos que puedan hacer un mejor trabajo analizando datos, detectando relaciones no lineales e interacciones entre elementos... Es posible que se deban utilizar herramientas especiales de minería de datos. desarrollado para abordar las decisiones del sitio web”.

1999

En 2001, se creó el software como servicio (SaaS). Este fue el precursor del uso de aplicaciones basadas en la nube. En 2001, William S. Cleveland presentó planes para capacitar a científicos de datos para satisfacer las necesidades del futuro. Presentó un plan de acción titulado Data Science: An Action Plan for Expanding the Technical Areas of the field of Statistics. Describía cómo aumentar la experiencia técnica y la gama de analistas de datos y especificaba seis áreas de estudio para los departamentos universitarios. Promovió el desarrollo de recursos específicos para la investigación en cada una de las seis áreas. Su plan también se aplica a la investigación gubernamental y corporativa. En 2001, se creó el software como servicio (SaaS). Este fue el precursor del uso de aplicaciones basadas en la nube.

2001

En 2002, el Consejo Internacional para la Ciencia: Comité de Datos para la Ciencia y la Tecnología comenzó a publicar Data Science Journal, una publicación enfocada en temas como la descripción de sistemas de datos, su publicación en Internet, aplicaciones y temas legales.

2002

En 2006, se lanzó Hadoop 0.1.0, una base de datos no relacional de código abierto. Hadoop se basó en Nutch, otra base de datos de código abierto. Dos problemas con el procesamiento de big data son el almacenamiento de grandes cantidades de datos y luego el procesamiento de esos datos almacenados. (Los sistemas de administración de bases de datos relacionales (RDBMS) no pueden procesar datos no relacionales). Hadoop resolvió esos problemas. Apache Hadoop es ahora una biblioteca de software de código abierto que permite la investigación de grandes datos.

2006

En 2008, el título "científico de datos" se convirtió en una palabra de moda y, finalmente, en parte del lenguaje. DJ Patil y Jeff Hammerbacher, de LinkedIn y Facebook, reciben crédito por iniciar su uso como palabra de moda. (En 2012, la Universidad de Harvard declaró que los científicos de datos tenían el trabajo más sexy del siglo XXI).

2008

En 2009, Johan Oskarsson re-introdujo el término NoSQL (una variación se había utilizado desde 1998), cuando organizó una discusión sobre "bases de datos no relacionales de código abierto".

2009

En 2011, las ofertas de trabajo para científicos de datos aumentaron un 15 000 %. También hubo un aumento en los seminarios y conferencias dedicados específicamente a Data Science y Big Data. Data Science había demostrado ser una fuente de ganancias y se había convertido en parte de la cultura corporativa. Además, en 2011, James Dixon, CTO de Pentaho promovió el concepto de lagos de datos, en lugar de almacenes de datos. Dixon afirmó que la diferencia entre un almacén de datos y un lago de datos es que el almacén de datos clasifica previamente los datos en el punto de entrada, perdiendo tiempo y energía, mientras que un lago de datos acepta la información utilizando una base de datos no relacional (NoSQL) y no categoriza los datos, sino que simplemente los almacena.

2011

En 2013, IBM compartió estadísticas que mostraban que el 90 % de los datos del mundo se habían creado en los últimos dos años.

2013

En 2015, mediante el uso de técnicas de aprendizaje profundo, el reconocimiento de voz de Google, Google Voice, experimentó un aumento espectacular del rendimiento del 49 %. En 2015, Jack Clark de Bloomberg escribió que había sido un año histórico para la inteligencia artificial (IA). Dentro de Google, el total de proyectos de software que utilizan IA aumentó de "uso esporádico" a más de 2700 proyectos durante el año.

2015

Ciencia de datos hoy

En los últimos 30 años, la ciencia de los datos ha crecido silenciosamente para incluir empresas y organizaciones en todo el mundo. Ahora está siendo utilizado por gobiernos, genetistas, ingenieros e incluso astrónomos. Durante su evolución, el uso de Big Data por parte de Data Science no fue simplemente una "ampliación" de los datos, sino que incluyó el cambio a nuevos sistemas para procesar datos y las formas en que se estudian y analizan los datos. La ciencia de datos se ha convertido en una parte importante de la investigación empresarial y académica. Técnicamente, esto incluye la traducción automática, la robótica, el reconocimiento de voz, la economía digital y los motores de búsqueda. En términos de áreas de investigación, Data Science se ha expandido para incluir las ciencias biológicas, el cuidado de la salud, la informática médica, las humanidades y las ciencias sociales. La ciencia de datos ahora influye en la economía, los gobiernos y los negocios y las finanzas.

Un resultado curioso y potencialmente negativo de la revolución de la ciencia de datos ha sido un cambio gradual hacia la escritura de una programación cada vez más conservadora. Se ha descubierto que los científicos de datos pueden dedicar demasiado tiempo y energía a desarrollar algoritmos innecesariamente complejos, cuando los más simples funcionan con mayor eficacia. Como consecuencia, los cambios dramáticos "innovadores" ocurren cada vez con menos frecuencia. Muchos científicos de datos ahora piensan que las revisiones masivas son simplemente demasiado arriesgadas y, en cambio, intentan dividir las ideas en partes más pequeñas. Cada parte se prueba y luego se integra con cautela en el flujo de datos. Si bien la programación más conservadora es más rápida y eficiente, también minimiza la experimentación y limita nuevos descubrimientos y pensamientos "fuera de la caja".

Referencias

Foote, Keith D. (October 16, 2021). A brief history of Data Science. Dataversity Education Digital LLC. https://www.dataversity.net/brief-history-data-science/