Want to create interactive content? It’s easy in Genially!
Orígenes IA by Eduk.iΔ-UPA
Javier Asenjo
Created on September 20, 2025
Start designing with a free template
Discover more than 1500 professional designs like these:
Transcript
Orígenes y desarrollo de la IA
Javier Asenjo (2025, Eduk.iΔ) Economista Universidad de Navarra (España) Dr. Pedagogía aplicada (Universidad autónoma de Barcelona)
Irrupción del Chat GPT
Walter Pitts y Warren McCullog (1943)
Herbert Simon
Allan Newell (1955)
George Polya: heurística (1945)
Pioneros
Neuronas artificiales
Crean el software "Teórico de la lógica"
Alan Turing Test (1950)
La conferencia de Dartmouth: nombre sexy (1956)
Tipos de IA
(En relación a la inteligencia humana)
IA estrecha (NAI)
Super IA (SAI)
IA general (GAI)
3 caminos para desarrollar la IA
Fuente: IBM research (2025)
Experimento Georgetown-IBM
Arthur Samuel: Damas
IA Simbólica
3 en raya
Consejera psicológica
Sistemas expertos
Deep Blue contra Kasparov
Neurona artificial El perceptrón de Rosenblatt (1956)
Reducción de inversiones militares en IA
Hubert Dreyfus: IA y alquimia (1965)
Informe de Sr. James Lighthill (1973)
El invierno de la IA (1964-1984)
Perceptrones: crítica de Minsky y Papert (1964)
Seppo Linnaimaa Retropropagación (1970)
Geoffrey Hinton (1971-hoy)
David Rumelhart en San Diego Retropropagación (1985)
Kunihiko Fukushima (1980)Redes Neuro Convucionales (CNN)
Redes neuronalesAprendizaje profundo(Deep learning)
Redes neuronales multicapa DNN (Deep Neural Networks)
Dean Pomerleau. ALVINN. Vehículo autónomo (1987-90s)
Terrence Sejnowski. NettalkTraducción automática (1987-90s)
Redes neuronales Primeras aplicaciones de DNNs
Yann Lecun. LeNet. CNN de reconocimiento de imágenes numéricas (1989)
Fei-Fei Li. ImageNet (2003-2009)ImageNet Challenge (2010)
Alex Krizhevsky, Ilya Sutskever, Geoffrey HintonAlexNet (2012)
Redes neuronales La tercera ola
Andrev Karpathy. Error humano en ImageNet 5% (2014)
GPU (Graphic Processing Unit)NVIDIA (2010)
La carrera por el talento (2012-2014)
Reconocimiento facial: salud, seguridad, RRSS, compras...
Google y Facebook: publicidad y noticias
Recomendaciones
Redes neuronales
La IA predictiva: la era de la aplicación
- Salud
- Fintech: banca, seguros, inversión
- RRHH
- Justicia
- Compras
- Empresas industriales
- ...
- Fragilidad (fáciles de engañar)
- Datos insuficientes
- Sesgos: raciales, género...
- Esconder la cabeza bajo el ala
- Cajas negras y explicabilidad
- Impredecibilidad
Q-Learning (1950s)
Demis Hassabis (2010)
Conductismo: Pavlov, Thorndike, Watson, Skinner, Olds, Milner
Redes neuronales
Juegos y aprendizaje por refuerzo
El reto del lenguaje natural para la IA simbólica (1954-1977)
Yoshua Bengio Mecanismo de atención (2015)
Ilya Suskever, Quoc Viet Le, Oriol Vinyals Word2vec & Seq2seq (2013-2014)
IA Generativa
Los fundamentos
Le pedimos a un transformerque complete la frase:
Artículo Transformers: Attention is all you need (Google 2017)
Reunión hotel Rosewood (junio 2015)Presentación Fundación NIPS conference (nov 2015)
Nick Borstrom (2014)
Sam Altman
Open AI
Los orígenes
Fundaciónsin ánimo de lucro
Empresa: OpenAi Global LLC
Nucleo duro Illya Suskever (Jefe científico), Sam Altman (Presidente) Mira Murati (CTO), Greg Brockman (CEO)
Fundación, primeros pasos: Open AI Gym, GPT1 y GPT2 (2015-2018)
OpenAi: Transición hacia empresa privada
GPTs internos
Modelo LLM (Large Language Model) lanzado en junio de 2020
Hipótesis del escalado
Chat GPT (GPT 3.5)
Chat GPT 4
30 de noviembre de 2022
14 de marzo de 2023
Los GPTs públicos
Chat GPT 5
Chat GPT 4o
18 de julio de 2024
7 de agosto de 2025
Indicaciones de texto para generar imágenes
AlicIA: Gato,¿qué camino he de elegir?
Gato: ¿A dónde quieres ir?
AlicIA: No lo sé
Gato: Pues elige cualquier camino, que te llevará a cualquier parte
Referencias
Carroll, L. (2022). Alicia en el País de las Maravillas. Biblioteca virtual Miguel de Cervantes. https://www.cervantesvirtual.com/obra/alicia-en-el-pais-de-las-maravillas-1147995/EDteam. (2024, 29 junio). La historia completa de la Inteligencia Artificial[Vídeo].https://www.youtube.com/watch?v=WCM0h9TX7cY Gentile, N. (2023, 7 marzo). ¿Cómo funciona ChatGPT? La revolución de la InteligenciaArtificial [Vídeo]. https://www.youtube.com/watch?v=FdZ8LKiJBhQIBM (2025, 25 febrero). Historia de la inteligencia artificial. IBM. https://www.ibm.com/es-es/think/topics/history-of-artificial-intelligence Sáenz de Cabezón, E. (2021, 4 agosto). ¿Qué es y cómo funciona la INTELIGENCIAARTIFICIAL? [Vídeo]. https://www.youtube.com/watch?v=_tA5cinv0U8Sala i Martí, X. (2025). Entre el paradís i l’apocalipsi. L’economia de la intel·ligènciaartificial. Rosa dels vents. Barcelona
edukia.org
Primeros pasos de Open AI. * Dificultades iniciales: - Se prometieron 1000M y llegaron 130M. - Parecían estar condenados a vivir de donaciones (NVIDIA: 1 supercomputador DGX-1) - Primer proyecto Open AI Gym, una plataforma para investigar en IA * Un rayo de esperanza, el GPT: - En 20217 Google publica el artículo de los transformers (Attention is all you need) - Se concentran en 1 proyecto y en 2018 hacen público el GPT (Generative Pre-trained Transformer). - La "G" hace referencia a que era un algorimo de generación de lenguaje. - La "P" a que estava entrenado previamente con la base de datos BookCorpus: 7.000 libros de ficción incluyendo 985M de palabras. - La "T"es la inicial de Transformer. Entre todos codificadores, descodificadores, mecanismos de multiatención y otros, el GPT tenía 117M de parámetros * GPT2: 6 meses después presentan un modelo 10 veces más grande. Este modelo de lenguage tenía 1.500M de parámetros y se entrenó con 8M de páginas web de internet. Se necesitaba un modelo más grande y para eso había que multiplicar el número de GPU de NVIDIA, cosa que requería mucho dinero.
Conductismo. - 1901. Ivan Pavlov. Reflejo condicional. Perro - 1911. Eduard Thorndike. Ensayo y error. Gato - 1920. John B. Watson. El niño y el ratón - 1940. Burrhus F. Skinner. Condicionamiento y refuerzo. Paloma - 1950. James Old, Peter Milner. La dopamina y el placer. Rata.
Ada Lovelace colaboró con Charles Babbage en su Máquina Analítica, un dispositivo mecánico considerado el precursor de las computadoras. Lovelace es famosa por traducir un artículo sobre la máquina y agregar sus propias notas, que contenían el primer algoritmo informático conocido. Además de crear el primer programa de computadora, Lovelace vaticinó que las computadoras podrían ir más allá de los simples cálculos numéricos, vislumbrando su potencial para manejar símbolos y otros tipos de información, lo que la convierte en una pionera de la informática. Colaboración y el primer programa de computadora Charles Babbage: diseñó la Máquina Analítica, un complejo diseño de una computadora mecánica programable. Ada Lovelace, una matemática talentosa, fue presentada a Babbage por su mentora Mary Somerville. Lovelace tradujo al inglés un artículo de Luigi Menabrea sobre la Máquina Analítica y añadió sus propias notas, denominadas "Notas". En estas notas, incluyó lo que se considera el primer algoritmo informático, un conjunto de instrucciones para la Máquina Analítica, con el fin de calcular los números de Bernoulli. Visión de la computación y el legado A diferencia de otros, incluida la propia Babbage, quien se enfocaba en la capacidad de las máquinas para procesar números, Lovelace tuvo una visión más amplia. Ella predijo que los ordenadores no solo podrían procesar números, sino también símbolos y otros tipos de información. Este algoritmo y sus ideas visionary hicieron que Lovelace fuera reconocida como la primera programadora de la historia. Su trabajo, sin embargo, fue en gran parte olvidado durante mucho tiempo, y sus notas solo fueron completamente reconocidas como el primer software cien años después de su muerte.
El perceptrón: Frank Rosenblatt nació el 1928. Fue al Bronx High School of Science de Nueva York, el instituto público más prestigioso de los Estados Unidos. El año 1956, al acabar el doctorado, obtuvo su primer trabajo en el laboratorio aeronáutico de la Universidad de Cornell. Allá implementó los modelos estadísticos neuronales del aprendizaje supervisado, aplicándolos en el campo de la visión por ordenador o visión artificial. Como que lo que intentaba era reproducir la percepción visual de los humanos en las máquinas, bautizó sus neuronas electrónicas con el nombre de «perceptrones». El objetivo final era poder enseñar a un ordenador la imagen de una cara, un animal o un objeto y pedirle que lo identificara, es decir, que el ordenador dijera si aquello era un gato, un perro, una pelota de fútbol. Debido a la escasa capacidad de cálculo de los ordenadores de los 50, Rosenblatt y sus colegas todavía estaban muy lejos de poder conseguirlo. El mecanismo todavía era una caja negra. Rosenblatt se excedió en sus expectativas con la prensa (NYT) y aventuró que sería inmediato.
Explicado de manera resumida, el proceso de entrenamiento del modelo de aprendizaje supervisado tendría que seguir los pasos siguientes:1) Se crea una base de datos con miles (o millones) de ejemplos de frases. 2) Un grupo de humanos clasifican (o etiquetan) cada frase en la categoría «favorable» o «desfavorable». 3) Una vez etiquetadas, se coge el 80% de las frases y se utilizan para entrenar el modelo, es decir, para hacer que vaya cambiando los pesos que tiene que tener cada palabra. Si funciona, el modelo «aprenderá» que las palabras con connotaciones favorables tienen un peso cada vez más positivo, las desfavorables un peso cada vez más negativo y las neutras, valores próximos a cero. 4) Una vez el modelo «ha aprendido» los pesos, se utiliza el 20% de frases que no han sido incluidas en el proceso de entrenamiento para verificar su funcionamiento: se introduce una, se pide al modelo que prediga si es favorable o desfavorable y se compara la predicción con la etiqueta. Como que somos a la fase de comprobación, ahora ya no se cambian los pesos del modelo. Solo se apunta el número de aciertos y de errores para calcular el porcentaje de error. 5) Si la tasa de error es aceptable, se considera que el modelo funciona y ya se puede poner en un web donde los usuarios comentan las películas. El algoritmo dirá si el comentario es favorable o desfavorable sin que ningún humano haya de intervenir. Si todo se ha hecho como es debido, tendría que poder evaluar todas las frases, aunque no las haya visto nunca.
Denis Hassabis - Nacido en UK 1976 de padre griego-chipriota y madre asiática - Jugador de juegos a nivel maestro: ajedrez, Pentamind, Diplomacy - Estudiante sobresaliente y emprendedor: * Con 12 años pasa a "home-schooling". Le compran un ZxSpectrum y aprende a programar BASIC * Trabaja creando videojuegos con Peter Molyneux: Theme park y se pagó la carrera de informática en Cambridge (1993-1997)* Crea la startup "Elixir studios". La gestión no es lo suyo. Tras 8 años, quiebra*Doctorado en neurociencias para crear máquinas inteligentes en la UCL (University College London)*Post-doc en la Gatsby Unit (UCL), creada por Geoffrey Hinton. Neurociencias aplicadas a la IA.
Deepmind:- Creada por Demis Hassabis en 2007, junto con Shane Legg de Nueva Zelanda (tesis en máquinas superinteligentes) y Mustafa Suleiman, nacido en UK de padres sirios (creó una ONG para ayudar a superar los traumas mentales de las personas inmigrantes en el país de acogida). - Se presenta en Londres en 2010. Objetivo: crear una IAG beneficiosa para la humanidad. - Inversores iniciales: Elon Musk, Peter Thiel (Linkedin)
NEURONA ARTIFICIAL: veamos el ejemplo de las críticas de cine para ver específicamente como, a través del gráfico, el algoritmo llega a la conclusión correcta. Empezamos por la primera frase: «Esta película es fantástica». Cuando ponemos las palabras al lugar correspondiente (como en la imagen 6), vemos que los círculos 1, 3, 4 y 6 se encienden y se activa el número 1, mientras que en el segundo y lo quinto círculos hay un 0 porque las palabras «aburrida» y «la» no forman parte de la primera frase. Entonces el algoritmo hace una operación muy simple: coge cada 0 y cada 1 del input de entrada, lo multiplica por su peso y en suma el resultado. Como que la primera palabra («esta») sale en la frase (y, por lo tanto, tiene un 1 al círculo), pero tiene un peso 0, entonces multiplicamos 1 por 0 y obtenemos 0. La segunda palabra («aburrida») no aparece a la frase y, por lo tanto, tiene un 0 al círculo. Como que tiene un peso de −6, multiplicamos 0 por −6 y obtenemos 0. La tercera palabra («es») sí que aparece a la frase (un 1 al círculo), pero tiene un peso 0; multiplicamos 1 por 0 y obtenemos un 0. La cuarta palabra es «fantástica», que sí que aparece a la frase (un 1 al círculo) y tiene un peso +4. Por lo tanto, multiplicamos 1 por +4 y obtenemos +4. La quinta palabra es «la», que no aparece a la frase (y, por lo tanto, tiene un 0 al círculo) y, además, tiene un peso de 0, o sea que multiplicamos 0 por 0 y obtenemos 0. Y, finalmente, la sexta palabra («película») sí que aparece a la frase (por lo tanto, tiene un input de 1 al círculo) y como que tiene un peso de 0, multiplicamos 1 por 0 y obtenemos cero. Ahora cogemos los resultados de todas estas simples multiplicaciones, las sumamos y el resultado es +4 (1 × 0 + 0 × (−6) + 1 × 0 + 1 × (+4) + 0 × 0 + 1 × 0 = 0 + 0 + 0 + 4 + 0 + 0 = +4). Finalmente, el algoritmo mira si el número resultante es más grande que +1 o más pequeño que −1. Si es más grande que +1, envía un mensaje que dice que la crítica es favorable. Vosotros mismos podéis hacer el ejercicio de analizar la frase «La película es aburrida» y veréis que el algoritmo concluye que la crítica es desfavorable. Vuelvo a insistir que en los gráficos de las imágenes 8.1 y 8.3 hemos puesto solo seis entradas posibles a fin de simplificarlos. Pero si quisiéramos hacer un algoritmo de verdad, el gráfico tendría que incluir decenas de miles de entradas, una para cada palabra del diccionario. Sería complicado dibujar un gráfico con tantas entradas en un libro, pero un ordenador, con la capacidad computacional que tienen los microchips actuales, puede manipular esta cantidad de datos en milésimas de segundo!
La IA generativa es un tipo de inteligencia artificial que, en lugar de solo procesar datos, es capaz de crear contenido original como texto, imágenes, música o vídeos. Para hacerlo, se basa en complejos modelos de aprendizaje profundo (deep learning) que han sido entrenados con grandes cantidades de datos, aprenden patrones y estructuras, y luego pueden generar contenido nuevo y similar a los datos de entrenamiento. ¿Cómo funciona? Modelos Fundacionales: La IA generativa utiliza modelos fundacionales, que son grandes modelos de inteligencia artificial pre-entrenados. Aprendizaje de Patrones: Estos modelos aprenden los patrones y las relaciones de los datos con los que son entrenados, ya sea texto, imágenes, audio, etc. Generación de Contenido: Una vez entrenados, pueden generar nuevo contenido que se parece a los datos que han visto, respondiendo a una solicitud o "prompt" del usuario. Diferencias con la IA tradicional IA tradicional (o analítica): Se enfoca en analizar, clasificar o reconocer contenido existente. IA generativa: Va más allá, dando un salto a las capacidades creativas y produciendo información completamente nueva.
En 1949 el psicólogo canadiense Donald Hebb descubrió que el mecanismo fundamental del aprendizaje de los humanos era el fortalecimiento de las conexiones neuronales. Por ejemplo, cuando a un niño se le muestra una imagen y se le explica que aquello es un gato, la información fluye a través de un grupo de neuronas y genera unos cambios físicos y metabólicos en las conexiones neuronales (las sinapsis) que forman el que se denomina una «red neuronal». Cuando se repite el ejercicio, se vuelve a activar la misma red de neuronas y las conexiones entre las diferentes neuronas se refuerzan. Cuanto más repeticiones, más fuertes son los vínculos que unen las neuronas en aquella red concreta. El aprendizaje es este proceso a través del cual las sinapsis o conexiones se fortalecen a copia de repeticiones. Las ideas mejor grabadas son las que recordamos más fácilmente.
ALGORITMO DE GRADIENTE ESTOCÁSTICO: La clave de todo el mecanismo es la manera como se cambian los pesos de todas las palabras cada vez que la máquina detecta que la predicción que ha hecho es errónea. El mecanismo favorito de los informáticos tiene un nombre intimidador, pero muy sencillo: «algoritmo de gradiente estocástico» (stochastic gradiente descent o SGD). El que hace el SGD es cambiar los parámetros que hacen disminuir más el error. Imaginad que estáis arriba de una montaña y que vuestro objetivo es bajar al valle, pero no veis el camino. Sólo veis tres o cuatro metros allá de la nariz, quizás porque hay niebla. ¿En qué dirección andaréis? Pues el SGD dice que analizéis todas las direcciones en los próximos tres o cuatro metros y que sigáis la que baja más. Esto es justo el que hace el algoritmo de aprendizaje automático: está en la cumbre de una montaña llamada «error» y cambia todos los parámetros (o pesos) en la dirección que hace que el error disminuya más. Y lo hace después de cada ejemplo, hasta que encuentra los pesos que hacen que las predicciones no se equivoquen casi nunca. No hay que decir que este proceso de aprendizaje automático que va modificando los pesos de todas las palabras del diccionario requiere miles, quizás millones, de ejemplos y unos ordenadores (unos procesadores) con potencia suficiente para manipular esta cantidad de datos ingente. Hace muchos años, cuando los circuitos integrados eran primitivos y lentos, esto era un problema. Pero gracias a la ley de Moore, hoy en día ya no lo es.
Modelos estadísticos de predicción Es interesante señalar que este procedimiento entrena un algoritmo que nos dice si la crítica de una película es favorable o desfavorable, aunque, como hemos visto, la máquina no sabe leer, no entiende de cine y ni siquiera sabe qué quiere decir la palabra «favorable». Ahora bien, las personas que observen el comportamiento de la máquina tendrán la sensación que sí que entiende las frases que analiza. ¿Cómo puede llegar a la conclusión que una oración es favorable? La realidad es que el ordenador consigue clasificar críticas de cine sin entender el léxico ni la semántica del lenguaje; simplemente hace aquello que sabe hacer: sumar, restar, multiplicar números y hacer operaciones matemáticas simples a gran velocidad. Eso sí, estas operaciones matemáticas estarán diseñadas para extraer la información estadística que hay a la base de datos —en este caso, en todos los textos utilizados y etiquetados en el proceso de entrenamiento—, a partir de la observación de los patrones comunes para hacer predicciones. Es decir, viendo muchos ejemplos, el mecanismo de aprendizaje encontrará un patrón sistemático: la palabra «fantástica» tiende a aparecer sistemáticamente sistemáticamente en las frases favorables, mientras que «aburrida» tiende a aparecer en las negativas. Al ver estos patrones estadísticos, los pesos que el algoritmo otorga a «fantástica» serán cada vez más positivos y los que otorga a «aburrida» serán más negativos. Una vez establecidos los pesos, el algoritmo podrá hacer predicciones sobre la etiqueta (favorable o desfavorable) que tendría que tener cualquier crítica de cine. Todo esto lo explico porque, por muy grandilocuentes que sean los nombres de estos algoritmos (aprendizaje automático, aprendizaje supervisado, IA conexionista), la realidad es que son modelos estadísticos de hacer predicciones. Es decir, son modelos que utilizan datos, extraen los patrones estadísticos y los utilizan para hacer predicciones. Quizás si en vez de decir inteligencia artificial, estos modelos los denomináramos «apps estadísticas de predicción», la gente no tendría miedo de una posible revolución de los robots inteligentes, del mismo modo que no tiene miedo que algún día el Excel empiece a asesinar humanos. Está claro que con este nombre, las empresas que diseñan modelos de IA seguramente tendrían problemas en la hora de atraer inversores. O sea que ya les van bien los nombres grandilocuentes.