Want to create interactive content? It’s easy in Genially!

Get started free

Talleres IA AUDIO

davidmval

Created on September 21, 2024

Start designing with a free template

Discover more than 1500 professional designs like these:

Word Search

Sorting Cards

Word Search: Corporate Culture

Corporate Escape Room: Operation Christmas

Happy Holidays Mobile Card

Christmas Magic: Discover Your Character!

Christmas Spirit Test

Transcript

Talleres de Inteligencia Artificial en educación

Intro

David Martínez Valeriano

Imagen

Audio

Texto

Edu IA

Vídeo

Audio

Inicio

INTELIGENCIA ARTIFICIAL, TALLER 1: INTRODUCCIÓN A LAS IA DE AUDIO

Introducción

¿Cómo funciona?

Categorización

Entrenamiento

Relación Usuario - IA

Prompts / Parámetros

A vista de pájaro

Riesgos y peligros

¿Sabías que...?

Manos a la obra

10

Audio

Inicio

10

INTRODUCCIÓN

Hoy en este taller vamos a trabajar con herramientas de IA para audio. Vamos a agrupar varias áreas que bien podrían tener una sección propia cada una pero que por el nexo de unión que tienen entre ellas, el audio, nos permiten abordarlas en un único espacio. Por un lado veremos las opciones que tenemos para tratar voces (la nuestra, por ejemplo), trabajaremos con ediciones de audio y veremos creaciones musicales asistidas por IA. Esta vez la presentación del potencial de estas herramientas de IA se la dejo a los más grandes

Observación de mis hijos

Audio

Inicio

10

¿CÓMO FUNCIONA?

El primer paso, como siempre, es la captación de millones de datos para el entrenamiento de las IA, en este caso, obviamente de audios. Con el entrenamiento las IA identifican patrones, clasifican y ordenan expresiones, consecución de sonidos, tendencias, frecuencias,... Todo esto es común a todas las IA de audio, a partir de aquí podemos notar esas diferencias que comentábamos al principio. Dividiremos en tres grupos, tratamiento de audio, transcripciones de texto a sonido y creación de música.

Creación

Tratamiento

Transcripciones

  • Procesado digital con espectogramas
  • Separación de pistas de audio
  • Cotejo
  • Edición
  • Procesado del texto
  • Conversión fonética
  • Síntesis de audio
  • Cotejo en redes neuronales
  • Conversión en lenguaje hablado natural
  • Reconocimiento de composición, tipos y variantes de música, notas, acordes, secuencias rítmicas
  • Análisis de la petición del usuario
  • Trabajo libre/condicionado/colaborativo
  • Ajuste y refinamiento de la composición

Audio

Inicio

10

CATEGORIZACIÓN

Composición y producción

Conversión texto a voz

Reconocimiento de voz

Mejora de audio

Análisis tonos y emociones

Detectores de audio IA

Chatbots Live

Modificación y edición de voz

Audio

Inicio

10

ENTRENAMIENTO

Primeramente, como siempre, se recopilan datos, millones de fragmentos de audio, grabaciones de voz, sonidos ambientales, música, melodías,... Estos datos se etiquetan y categorizan. Se preprocesan, ajustando volúmenes, eliminando ruidos y distorsiones,... se segmentan en audios más pequeños y se vuelven a etiquetar y categorizar. Se crean representaciones espectrales de los audios para tener referentes visuales en forma de espectrograma. Luego se modelan los datos en redes neuronales, pueden ser de diferentes tipos dependiendo de la finalidad de la IA (generación de voz, transcripciones, melodías,...) Con todos estos datos se procede al entrenamiento en sí, se extraen patrones, se generan relaciones y se crean modelos de predicciones de audio. Por último los datos son validados y cotejados al igual que hacen el resto de IA. Una vez con el resultado final el poder recae en el usuario para hacer el ajuste fino tocando los diferentes parámetros que la IA permita. Después de todo este proceso se entraría en la fase final de producción donde tendríamos el resultado final a nuestra petición.

Audio

Inicio

10

RELACIÓN USUARIO - IA

Generación simple

  • Petición genérica inicial.
  • Peticiones extendidas a cada nueva respuesta de la IA.

Reformulación del prompt

  • Formulación incial del prompt.
  • Adecuación del prompt dependiendo del resultado obtenido.

Repetición de prompt en diferentes herramientas de IA

  • Formulación del mismo prompt en varias herramientas para elegir el mejor resultado.

Subida de audio propio para crear con IA

  • Utilización de imágenes subidas desde nuestro equipo para dirigir el resultado del vídeo

Edición multitarea de audio

  • Diferentes usos para editar audios propios (mejora, limpieza, estilos, ediciones, transcripciones,...)

Generación y tratamiento de voces

  • Clonado o creación de voces con diferentes usos

Audio

Inicio

10

PROMPTS / PARÁMETROS

Idéntico al tratamiento de vídeo unicamente con cambios en la paremetrizción en cuanto a formato de salida

INCLUSIÓN DE CONTENIDO

ESPECÍFICOS Y DETALLISTAS

SUBIDAS DE AUDIO

ESTILO

VOCES Y TONOS

CLARIDAD

PROMPT NEGATIVO

Audio

Inicio

10

A VISTA DE PÁJARO

Info de ChatGPT de uso de IA generativas de audio en los últimos 3 meses y convertida en una web para mostrar el resultado

Audio

Inicio

10

¿SABÍAS QUE...

...en Suno podemos subir, por ejemplo, unos acordes de guitarra y que componga una canción usando esos acordes como base?

...se puede diseñar un proyecto con AIVA o Soundraw para poner banda sonora a nuestros sueños?

...con herramientas generativas de IA para audio podemos crear cuentos personalizados con palabras clave o una descripción de sus intereses?

...podemos darle voz a algún personaje histórico con herramientas como Character.ai?

Audio

Inicio

10

RIESGOS Y PELIGROS

Desinformación y Fake News

Fraude en verificación de identidad

Suplantación de identidad

Desestabilización social

Manipulación emocional

Erosión de confianza

Privacidad y seguridad

Contenido inapropiado

Audio

Inicio

10

MANOS A LA OBRA

1.- T2S S2S

7.- Tatatataaaan

2.- Resemble

8.- La oveja Dolly

3.- Aclárate la voz

9.- Sherlock

4.- Chatvoz

10.- La empanadilla

5.- Podcasting

11.- Taller IA Metal

6.- Lalala la la la lalala

Hasta el momento hemos probado cosas interesantes pero aún no he oído ningún ¡Wow!, eso va a cambiar en esta actividad. Vamos a hablar con un chatbot. Tenemos varias opciones, por accesibilidad, gratuidad y variedad probaremos con Character.ai 1.-Entramos en Character.AI y buscamos en el menú central (a media altura de página aprox) la sección aprendizaje. Allí elegimos un "profe virtual" por ejemplo el English Teacher. 2.-Cuando entremos nos dirá que ahora podemos hablar con ellos por voz, le decimos que sí y una vez dentro buscamos el simbolito del teléfono y llamamos a nuestros Chatbot. Ojo, hay que aceptar el uso del micrófono

Chatbot mutando en chatvoz en 3,2,1,...

Herramientas para conversar por audio, diseñadas para interacciones a tiempo real en múltiples contextos cobrando mucha fuerza en el ámbito educativo. Debemos trabajar estas herramientas con cuidado y con mucha información por la exposición a conductas adictivas.Destacan en este apartado herramientas como Character.ai, Gemini Live, Replika o Inworld AI

Gemini Live

Replika

Character.ai

Inworld AI

Vamos a darle personalidad, muletillas, sentimientos y reacciones condicionadas a un chatbot, para ello tenemos que empezar recordando a Martes y Trece

1.- Entramos en character.ai y creamos a "nuestra" Encarna 2.- Le damos personalidad y buscamos la forma de que cada vez que le preguntemos algo que incluya la palabra "empanadilla" la voz nos conteste histérica. 3.-Podemos elegir una voz predefinida, la voz que creamos antes o incluso generar una nueva voz imitando la voz de Millán

Encarna de noche, Encarna de día

Toca componer, bueno, nos toca sugerir y que la IA componga por nosotros, para ello vamos a trabajar con Suno. 1.-Entramos en Suno AI 2.-En "Make a song of anything" le pedimos qué queremos que nos cree, el tema, si queremos incluir alguna frase o palabra determinada, el estilo musical... 3.-Generamos la canción. 4.- Descargamos la canción (la necesitaremos para más adelante)

Tranquilos, no vais a causar más daño a la música que Bad Bunny

Una categoría de la que hemos visto un ejemplo real en el vídeo de introducción. Herramientas encargadas en limpiar el sonido, eliminar ruidos de fondos, mejorar la calidad del audio,... permitiendo una masterización automática. En esta categoría hay herramientas muy potentes (y caras) y otras más accesibles a todos los públicos como Adobe Enhance Speech, Auphonic, Krisp o Cleanvoice.

Adobe Enhance Speech

Krisp

Auphonic

Cleanvoice

Vamos a trabajar nuevamente con una herramienta de detección de contenido generado por IA que ya hemos visto en otros talleres, DeepFake o Meter, para ello recuperamos la canción que hemos creado un par de actividades atrás. 1.-Subimos el audio a DeepFake o Meter 2.-Seleccionamos todos los modelos de IA de sonido para que la analice 3.-Esperamos a obtener el resultado del análisis (esto funcionaría igual para audios de voz)

Elemental, querido Watson

Vamos a terminar componiendo una canción de Heavy Metal con UDIO. Además vamos a aprovecharla para dejar la valoración sobre este taller (sed buenos... o muy malos, vamos). Este recurso podemos llevarlo al aula e incluir teoría en cualquier tipo de canción. He escogido UDIO porque podemos ponerle textos más largos y Heavy Metal por lo chocante del resultado (pero podéis elegir cualquier estilo musical, por supuesto). 1.- En "Suggestions" buscamos "Heavy Metal" o el género que queráis 2.- En "Lyrics" escogemos la opción "Write Lyrics", le decimos sobre lo que va la canción y en "Lyric Editor" escribimos nuestra opinión sobre el taller. 3.- Pinchamos en Create y que Dios nos coja confesados

Heavy es que me hagas hacer cosas así, pero como dijo Juancar: "Lo siento mucho, me he equivocado, no volverá a pasar" o sí, no sé a quién pretendo engañar

Generación de voces artificiales a partir de textos, usadas por ejemplo en audiolibros o asistentes de voz. En esta categoría se encontrarían aplicaciones como Google Text-to-Speech, Amazon Polly o ElevenLabs

ElevenLabs

Google Text-to-Speech

Amazon Polly

Usadas principalmente en aplicaciones de atención al cliente o estudios psicológicos. Se está avanzando a pasos agigantados en esta área y tenemos aplicaciones españolas como Celia para detectar precozmente el deterioro cognitivo además de acompañar a personas mayores. Tenemos también otras herramientas como Sonantic, Emotibot o Cogito

Sonatic

Celia te cuida

Cogito

Emotibot

Vamos a trabajar con clonación de voces, un recurso que entraña su peligro pero del que podemos sacar mucho provecho para crear feedbacks automáticos del tema que queramos como profes. Volvemos a trabajar con Character.ai. Una vez dentro: 1.-Pinchamos en "Crear un personaje" (lo tendréis abajo del todo) 2.-Rellenamos los datos del personaje (Nombre, eslogan, descripción, frase de bienvenida... 3.-En "Voz" pinchammos en "Crear" y seguimos los pasos para clonar nuestra propia voz a través el micrófono del ordenador. 4.-Asociamos la voz al personaje y probamos nuestra creación.

Recién llegado de GATTACA

Volvemos a incluir en este apartado una categoría exclusivamente para herramientas que detectan voces generadas digitalmente o manipulaciones hechas por IA. Normalmente las encontraremos como un apartado más dentro de plataformas de detección de Deepfakes. Deepware Scanner, Reality Defender, Sensity AI o Hive Moderation podrían ser buenos ejemplos de este tipo de herramientas. DeepFake o meter vuelve a aparecer también en esta categoría como megabuscador de DeepFakes. Hive Moderation además incluye un detector de audios con contenido violento, de índole sexual, odio o bullying.

Reality Defender

Sensity AI

Deepware Scanner

Hive Moderation

DeepFake o meter

Vamos a repetir la actividad anterior pero con otra herramienta, Resemble AI. Resemble es mucho más potente en cuanto a opciones e incluye además un clonador de voz (que no vamos a poder probar porque requiere una hora de tiempo de entrenamiento de la voz, pero sí que os animo a probarla con tiempo). 1.- Probamos el Text to speech eligiendo varias voces de las que tiene Resemble, jugamos con la configuración de la voz. 2.-Speech to Speech, subimos un audio y probamos a cambiarle la voz.

¿Me lo repita?

Muchas veces acompañando a herramientas de mejora de audio o como siguiente paso a ellas. Son las encargadas de crear música original o recomendar progresiones armónicas y arreglos. Pueden crear desde cero con una simple idea proporcionada por el usuario o incluyendo pistas de audio proporcionadas por él. Aquí quiero destacar Suno y Udio por todo lo que nos permiten trabajar en su modo gratuito, luego también tenemos otras como AIVA, Amper Music o Soundraw que también funcionan realmente bien.

Suno

AIVA

Udio

Soundraw

Amper Music

Herramientas dedicadas a cambiar el idioma, el tono, el estilo o el acento de una grabación, ideales para doblaje y gaming. Aplicaciones como Respeecher, Voice.ai y VocaliD están progresando con fuerza en esta categoría

Respeecher

VocaliD

Voice.ai

En esta actividad vamos a aprender a separar pistas de audio con la herramienta Lalal.ai

1.- Descargamos el Lalala de Massiel y la subimos a Lalal.ai 2.- Elegimos una pista de las que nos ofrecen y pinchamos en crear previas. 3.- Jugamos con los volúmenes para poder escuchar las pistas por separado

¿Muy soft para ti?¿falta guitarreo?¿más percusión? 1.- Descargamos el Highway to hell de ACDC y la subimos a Lalal.ai 2.- Elegimos una pista de las que nos ofrecen y pinchamos en crear previas. 3.- Jugamos con los volúmenes para poder escuchar las pistas por separado

Este crossover entre Massiel y ACDC no lo habías visto venir, eh Highway to Massiel (porque mi mujer veía feo Massiel to hell)

Pasamos a trabajar con herramientas para mejorar nuestros audios, en esta ocasión vamos a probar CleanVoice. Una herramienta muy utilizada para la generación de audios de calidad para podcast. 1.-Grabamos un audio de Whatsapp o elegimos uno que tengamos a mano. 2.-Lo subimos a CleanVoice y lo depuramos para ver cómo mejora la calidad del audio.

El carraspear se va a terminar

En esta categoría las herramientas de IA transcriben audios a textos con alta precisión, suelen integrarse en sistemas más completos con herramientas de productividad. De cierta forma llevamos conviviendo con productos similares en nuestros teléfonos o altavoces inteligentes desde hace tiempo. Aunque hay muchas de estas herramientas integradas en dispositivos nosotros vamos a ver herramientas independientes como Otter.ai, Rev o Whisper

Otter.ai

Rev

Whisper

En el taller de IA para Educación descubrimos el potencial de NotebookLM de Google de cara a la gestión del proceso de aprendizaje del alumnado (y el nuestro) peeeero se nos quedó algo por ver, ¿y si pudiéramos crear automáticamente un podcast de los PDF de contenido teórico para favorecer aún más el proceso de aprendizaje? 1.-Subimos un PDF de un tema cualquiera a NotebookLM 2.-En la "Guía del cuaderno" nos aparecerá la opción de generar una conversación. Pinchamos, esperamos y...¡voilá!

Podcasteando nuestros apuntes

Comenzamos estas actividades con una de las funciones más básicas de estas herramientas de IA para audio, la conversión de texto a audio. Para ello nos vamos a servir de ElevenLabs aunque hay otras muchas que hacen lo mismo. 1.-Entramos en ElevenLabs y vamos a su opción Text to Speech, escribimos el texto que queramos y generamos su audio. 2.-Vamos a ir un paso más allá y buscamos su Speech to Speech, subimos un audio en el que se distinga claramente una voz y le cambiamos la voz (puedes usar un audio tuyo de Whatsapp por ejemplo)

Escríbeme que te cuento