Want to make creations as awesome as this one?

Linea de tiempo de la mineria de datos

More creations to inspire you

Transcript

MINEO DE DATOSTIMELINE

1960

uso de computadoras

INFO

INFO

INFO

INFO

INFO

INFO

INFO

INFO

INFO

INFO

INFO

INFO

INFO

INFO

INFO

INFO

1961

integrated data store

1970

Administración de base de datos

1980

ACCESO A datos

1990

Minería de datos

2001

Ciencia de datos

2002

Apache nutch

2003

GOOGLE FILE SYSTEM

2004

Google mapreduce

2005

NUTCH MApreduce

2006

hadoop phase 1

2008

HAdoop at yahoo!

2009

apache spark

2010

hadoop phase 2

2012

hadoop phase 3YARN

2020

Minería de datos en tiempos modernos

Referencias

2001

Aunque el término ciencia de los datos ha existido desde la década de 1960, no fue hasta 2001 que William S. Cleveland lo introdujo como una disciplina independiente. Según Build Data Science Teams, DJ Patil y Jeff Hammerbacher utilizaron el término para describir sus roles en LinkedIn y Facebook.

1980

A principios de los años 80’s, Rakesh Agrawal, GioWiederhold, Robert Blum y Gregory Piatetsky-Shapiro entre otros, empezaron a consolidar los términos de minería de datos y KDD.

La minería de datos es la fase de descubrimiento en el proceso de Knowledge Discovery in Databases.

2010

En 2010, Apache Hadoop experimentó varias actualizaciones importantes. La versión 0.20 introdujo mejoras en el rendimiento, la escalabilidad y la estabilidad del sistema. Por otro lado, la versión 0.21 fue notable por la incorporación de Apache Hadoop NextGen (más tarde conocido como Apache Hadoop 2), que introdujo el marco de administración de recursos YARN (Yet Another Resource Negotiator).

2012

Introducción de YARN (Yet Another Resource Negotiator), que reemplaza el administrador de recursos original de Hadoop y permite la ejecución de aplicaciones más allá de MapReduce, como Spark y Tez. Así, lo que comenzó como un chascarrillo, acabó por integrarse dentro de Apache Hadoop en 2012 y estuvo disponible a partir de 2013 dentro del framework. Su adición amplió significativamente los usos de Apache Hadoop, lo que convierte a YARN e uno de sus componentes más importantes.

2005

Nace MapReduce de Nutch, para poder procesar información a gran escala en diferentes computadoras.

1960

  • El uso de computadoras era más accesible al público.
  • Inicio a las primeras generaciones de bases de datos de red.
  • Inicio a las primeras generaciones de bases de datos jerárquicas.

2009

Apache Spark nació en 2009 en la Universidad de Berkeley, y actualmente se encuentra en la versión 2.3.0. Ayudó a procesar información en tiempo real sin tener cuellos de botella, con un flujo mucho más rápido y un procesamiento que, aunque haya mucha información no fuera lento. Sentó las bases para lo que hoy conocemos como la nube

2020

La minería de datos en tiempos modernos se ha convertido en parte importante de las grandes empresas, donde estas pueden decidir y predecir el rumbo de las tendencias de una sociedad que consume diariamente tecnologías en donde se comparten datos personales, como las redes sociales y servicios de streaming. Donald Trump llegó a la presidencia en 2016 cuando contrató los servicios de Cambridge Analitycs (Empresa de Minería de datos) para tener los patrones de como hacerle frente a la oposición

2002

Comienzan los antecedentes de lo que hoy conocemos como big data que va de la mano con minería de datos. En google unos estudiantes querían hacer un proyecto para generar el mejor buscador del mundo, generando clústeres de computadoras baratas, conectándolas entre sí, generando una red para procesar datos en tiempo real, creando el sistema de archivos distribuidos.

2008

Yahoo presentó Hadoop como proyecto de código abierto. Hoy día, la estructura y el ecosistema de tecnologías de Hadoop son gestionados y mantenidos por la Apache Software Foundation (ASF) sin fines de lucro, que es una comunidad global de programadores de software y otros contribuyentes.

1990

El término "minería de datos" apareció en la comunidad de la base de datos. Las empresas minoristas y la comunidad financiera están utilizando la minería de datos para analizar datos y reconocer las tendencias para aumentar su base de clientes, predecir las fluctuaciones en las tasas de interés, los precios de las acciones y la demanda de los clientes.

2004

Se comienza a liberar las patentes para NDFS y se hace algo gratuito, para que las demás organizaciones puedan hacer uso de esta tecnología.

MapReduce fue concebido en Google y sus detalles fueron divulgados en un artículo de Jeffrey Dean y Sanjay Ghemawat publicado en el 6º Simposio sobre Diseño e Implementación de Sistemas Operativos (OSDI) celebrado en San Francisco en 2004

REFERENCIAS

https://www.mikelnino.com/2015/02/map-reduce-origen-era-big-data.html https://uag.instructure.com/courses/38577/assignments/767648https://www.tokioschool.com/noticias/yarn-hadoop/https://hadoop.apache.org

1970

Con el uso de sofisticados sistemas de administración de bases de datos, es posible almacenar y consultar terabytes y petabytes de datos. Además, los almacenes de datos permiten a los usuarios pasar de una forma de pensar orientada a las transacciones a una forma mas analítica de ver los datos.

2003

Google lanza el sistema de archivos distribuidos Nutch Distribute File Syetm (NDFS) al mercado, generando patentes y protegiendose.

En junio de 2003, se desarrolló con éxito un sistema de demostración de 100 millones de páginas. Para satisfacer las necesidades de procesamiento de múltiples máquinas de las tareas de rastreo e indexación, el proyecto Nutch también implementó un sistema de archivos distribuido.

1961

La creación de un nuevo tipo de sistemas de bases de datos conocido como modelo en red que permitió la creación de un estándar en los sistemas de bases de datos, gracias a la creación de nuevos lenguajes de sistemas de información.

2006

Sistema de archivos distribuido Hadoop, o HDFS comenzó en 2006 como una implementación de código abierto del sistema de archivos de Google y del motor de ejecución MapReduce.

En 2006, Cutting se unió a Yahoo y se llevó con él el proyecto Nutch, así como también ideas basadas en los trabajos iniciales de Google con la automatización del almacenaje y procesamiento de datos distribuidos.