Want to create interactive content? It’s easy in Genially!
Talleres IA AUDIO
davidmval
Created on September 21, 2024
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Word Search
View
Sorting Cards
View
Word Search: Corporate Culture
View
Corporate Escape Room: Operation Christmas
View
Happy Holidays Mobile Card
View
Christmas Magic: Discover Your Character!
View
Christmas Spirit Test
Transcript
Talleres de Inteligencia Artificial en educación
Intro
David Martínez Valeriano
Imagen
Audio
Texto
Edu IA
Vídeo
Audio
Inicio
INTELIGENCIA ARTIFICIAL, TALLER 1: INTRODUCCIÓN A LAS IA DE AUDIO
Introducción
¿Cómo funciona?
Categorización
Entrenamiento
Relación Usuario - IA
Prompts / Parámetros
A vista de pájaro
Riesgos y peligros
¿Sabías que...?
Manos a la obra
10
Audio
Inicio
10
INTRODUCCIÓN
Hoy en este taller vamos a trabajar con herramientas de IA para audio. Vamos a agrupar varias áreas que bien podrían tener una sección propia cada una pero que por el nexo de unión que tienen entre ellas, el audio, nos permiten abordarlas en un único espacio. Por un lado veremos las opciones que tenemos para tratar voces (la nuestra, por ejemplo), trabajaremos con ediciones de audio y veremos creaciones musicales asistidas por IA. Esta vez la presentación del potencial de estas herramientas de IA se la dejo a los más grandes
Observación de mis hijos
Audio
Inicio
10
¿CÓMO FUNCIONA?
El primer paso, como siempre, es la captación de millones de datos para el entrenamiento de las IA, en este caso, obviamente de audios. Con el entrenamiento las IA identifican patrones, clasifican y ordenan expresiones, consecución de sonidos, tendencias, frecuencias,... Todo esto es común a todas las IA de audio, a partir de aquí podemos notar esas diferencias que comentábamos al principio. Dividiremos en tres grupos, tratamiento de audio, transcripciones de texto a sonido y creación de música.
Creación
Tratamiento
Transcripciones
- Procesado digital con espectogramas
- Separación de pistas de audio
- Cotejo
- Edición
- Procesado del texto
- Conversión fonética
- Síntesis de audio
- Cotejo en redes neuronales
- Conversión en lenguaje hablado natural
- Reconocimiento de composición, tipos y variantes de música, notas, acordes, secuencias rítmicas
- Análisis de la petición del usuario
- Trabajo libre/condicionado/colaborativo
- Ajuste y refinamiento de la composición
Audio
Inicio
10
CATEGORIZACIÓN
Composición y producción
Conversión texto a voz
Reconocimiento de voz
Mejora de audio
Análisis tonos y emociones
Detectores de audio IA
Chatbots Live
Modificación y edición de voz
Audio
Inicio
10
ENTRENAMIENTO
Primeramente, como siempre, se recopilan datos, millones de fragmentos de audio, grabaciones de voz, sonidos ambientales, música, melodías,... Estos datos se etiquetan y categorizan. Se preprocesan, ajustando volúmenes, eliminando ruidos y distorsiones,... se segmentan en audios más pequeños y se vuelven a etiquetar y categorizar. Se crean representaciones espectrales de los audios para tener referentes visuales en forma de espectrograma. Luego se modelan los datos en redes neuronales, pueden ser de diferentes tipos dependiendo de la finalidad de la IA (generación de voz, transcripciones, melodías,...) Con todos estos datos se procede al entrenamiento en sí, se extraen patrones, se generan relaciones y se crean modelos de predicciones de audio. Por último los datos son validados y cotejados al igual que hacen el resto de IA. Una vez con el resultado final el poder recae en el usuario para hacer el ajuste fino tocando los diferentes parámetros que la IA permita. Después de todo este proceso se entraría en la fase final de producción donde tendríamos el resultado final a nuestra petición.
Audio
Inicio
10
RELACIÓN USUARIO - IA
Generación simple
- Petición genérica inicial.
- Peticiones extendidas a cada nueva respuesta de la IA.
Reformulación del prompt
- Formulación incial del prompt.
- Adecuación del prompt dependiendo del resultado obtenido.
Repetición de prompt en diferentes herramientas de IA
- Formulación del mismo prompt en varias herramientas para elegir el mejor resultado.
Subida de audio propio para crear con IA
- Utilización de imágenes subidas desde nuestro equipo para dirigir el resultado del vídeo
Edición multitarea de audio
- Diferentes usos para editar audios propios (mejora, limpieza, estilos, ediciones, transcripciones,...)
Generación y tratamiento de voces
- Clonado o creación de voces con diferentes usos
Audio
Inicio
10
PROMPTS / PARÁMETROS
Idéntico al tratamiento de vídeo unicamente con cambios en la paremetrizción en cuanto a formato de salida
INCLUSIÓN DE CONTENIDO
ESPECÍFICOS Y DETALLISTAS
SUBIDAS DE AUDIO
ESTILO
VOCES Y TONOS
CLARIDAD
PROMPT NEGATIVO
Audio
Inicio
10
A VISTA DE PÁJARO
Info de ChatGPT de uso de IA generativas de audio en los últimos 3 meses y convertida en una web para mostrar el resultado
Audio
Inicio
10
¿SABÍAS QUE...
...en Suno podemos subir, por ejemplo, unos acordes de guitarra y que componga una canción usando esos acordes como base?
...se puede diseñar un proyecto con AIVA o Soundraw para poner banda sonora a nuestros sueños?
...con herramientas generativas de IA para audio podemos crear cuentos personalizados con palabras clave o una descripción de sus intereses?
...podemos darle voz a algún personaje histórico con herramientas como Character.ai?
Audio
Inicio
10
RIESGOS Y PELIGROS
Desinformación y Fake News
Fraude en verificación de identidad
Suplantación de identidad
Desestabilización social
Manipulación emocional
Erosión de confianza
Privacidad y seguridad
Contenido inapropiado
Audio
Inicio
10
MANOS A LA OBRA
1.- T2S S2S
7.- Tatatataaaan
2.- Resemble
8.- La oveja Dolly
3.- Aclárate la voz
9.- Sherlock
4.- Chatvoz
10.- La empanadilla
5.- Podcasting
11.- Taller IA Metal
6.- Lalala la la la lalala
Hasta el momento hemos probado cosas interesantes pero aún no he oído ningún ¡Wow!, eso va a cambiar en esta actividad. Vamos a hablar con un chatbot. Tenemos varias opciones, por accesibilidad, gratuidad y variedad probaremos con Character.ai 1.-Entramos en Character.AI y buscamos en el menú central (a media altura de página aprox) la sección aprendizaje. Allí elegimos un "profe virtual" por ejemplo el English Teacher. 2.-Cuando entremos nos dirá que ahora podemos hablar con ellos por voz, le decimos que sí y una vez dentro buscamos el simbolito del teléfono y llamamos a nuestros Chatbot. Ojo, hay que aceptar el uso del micrófono
Chatbot mutando en chatvoz en 3,2,1,...
Herramientas para conversar por audio, diseñadas para interacciones a tiempo real en múltiples contextos cobrando mucha fuerza en el ámbito educativo. Debemos trabajar estas herramientas con cuidado y con mucha información por la exposición a conductas adictivas.Destacan en este apartado herramientas como Character.ai, Gemini Live, Replika o Inworld AI
Gemini Live
Replika
Character.ai
Inworld AI
Vamos a darle personalidad, muletillas, sentimientos y reacciones condicionadas a un chatbot, para ello tenemos que empezar recordando a Martes y Trece
1.- Entramos en character.ai y creamos a "nuestra" Encarna 2.- Le damos personalidad y buscamos la forma de que cada vez que le preguntemos algo que incluya la palabra "empanadilla" la voz nos conteste histérica. 3.-Podemos elegir una voz predefinida, la voz que creamos antes o incluso generar una nueva voz imitando la voz de Millán
Encarna de noche, Encarna de día
Toca componer, bueno, nos toca sugerir y que la IA componga por nosotros, para ello vamos a trabajar con Suno. 1.-Entramos en Suno AI 2.-En "Make a song of anything" le pedimos qué queremos que nos cree, el tema, si queremos incluir alguna frase o palabra determinada, el estilo musical... 3.-Generamos la canción. 4.- Descargamos la canción (la necesitaremos para más adelante)
Tranquilos, no vais a causar más daño a la música que Bad Bunny
Una categoría de la que hemos visto un ejemplo real en el vídeo de introducción. Herramientas encargadas en limpiar el sonido, eliminar ruidos de fondos, mejorar la calidad del audio,... permitiendo una masterización automática. En esta categoría hay herramientas muy potentes (y caras) y otras más accesibles a todos los públicos como Adobe Enhance Speech, Auphonic, Krisp o Cleanvoice.
Adobe Enhance Speech
Krisp
Auphonic
Cleanvoice
Vamos a trabajar nuevamente con una herramienta de detección de contenido generado por IA que ya hemos visto en otros talleres, DeepFake o Meter, para ello recuperamos la canción que hemos creado un par de actividades atrás. 1.-Subimos el audio a DeepFake o Meter 2.-Seleccionamos todos los modelos de IA de sonido para que la analice 3.-Esperamos a obtener el resultado del análisis (esto funcionaría igual para audios de voz)
Elemental, querido Watson
Vamos a terminar componiendo una canción de Heavy Metal con UDIO. Además vamos a aprovecharla para dejar la valoración sobre este taller (sed buenos... o muy malos, vamos). Este recurso podemos llevarlo al aula e incluir teoría en cualquier tipo de canción. He escogido UDIO porque podemos ponerle textos más largos y Heavy Metal por lo chocante del resultado (pero podéis elegir cualquier estilo musical, por supuesto). 1.- En "Suggestions" buscamos "Heavy Metal" o el género que queráis 2.- En "Lyrics" escogemos la opción "Write Lyrics", le decimos sobre lo que va la canción y en "Lyric Editor" escribimos nuestra opinión sobre el taller. 3.- Pinchamos en Create y que Dios nos coja confesados
Heavy es que me hagas hacer cosas así, pero como dijo Juancar: "Lo siento mucho, me he equivocado, no volverá a pasar" o sí, no sé a quién pretendo engañar
Generación de voces artificiales a partir de textos, usadas por ejemplo en audiolibros o asistentes de voz. En esta categoría se encontrarían aplicaciones como Google Text-to-Speech, Amazon Polly o ElevenLabs
ElevenLabs
Google Text-to-Speech
Amazon Polly
Usadas principalmente en aplicaciones de atención al cliente o estudios psicológicos. Se está avanzando a pasos agigantados en esta área y tenemos aplicaciones españolas como Celia para detectar precozmente el deterioro cognitivo además de acompañar a personas mayores. Tenemos también otras herramientas como Sonantic, Emotibot o Cogito
Sonatic
Celia te cuida
Cogito
Emotibot
Vamos a trabajar con clonación de voces, un recurso que entraña su peligro pero del que podemos sacar mucho provecho para crear feedbacks automáticos del tema que queramos como profes. Volvemos a trabajar con Character.ai. Una vez dentro: 1.-Pinchamos en "Crear un personaje" (lo tendréis abajo del todo) 2.-Rellenamos los datos del personaje (Nombre, eslogan, descripción, frase de bienvenida... 3.-En "Voz" pinchammos en "Crear" y seguimos los pasos para clonar nuestra propia voz a través el micrófono del ordenador. 4.-Asociamos la voz al personaje y probamos nuestra creación.
Recién llegado de GATTACA
Volvemos a incluir en este apartado una categoría exclusivamente para herramientas que detectan voces generadas digitalmente o manipulaciones hechas por IA. Normalmente las encontraremos como un apartado más dentro de plataformas de detección de Deepfakes. Deepware Scanner, Reality Defender, Sensity AI o Hive Moderation podrían ser buenos ejemplos de este tipo de herramientas. DeepFake o meter vuelve a aparecer también en esta categoría como megabuscador de DeepFakes. Hive Moderation además incluye un detector de audios con contenido violento, de índole sexual, odio o bullying.
Reality Defender
Sensity AI
Deepware Scanner
Hive Moderation
DeepFake o meter
Vamos a repetir la actividad anterior pero con otra herramienta, Resemble AI. Resemble es mucho más potente en cuanto a opciones e incluye además un clonador de voz (que no vamos a poder probar porque requiere una hora de tiempo de entrenamiento de la voz, pero sí que os animo a probarla con tiempo). 1.- Probamos el Text to speech eligiendo varias voces de las que tiene Resemble, jugamos con la configuración de la voz. 2.-Speech to Speech, subimos un audio y probamos a cambiarle la voz.
¿Me lo repita?
Muchas veces acompañando a herramientas de mejora de audio o como siguiente paso a ellas. Son las encargadas de crear música original o recomendar progresiones armónicas y arreglos. Pueden crear desde cero con una simple idea proporcionada por el usuario o incluyendo pistas de audio proporcionadas por él. Aquí quiero destacar Suno y Udio por todo lo que nos permiten trabajar en su modo gratuito, luego también tenemos otras como AIVA, Amper Music o Soundraw que también funcionan realmente bien.
Suno
AIVA
Udio
Soundraw
Amper Music
Herramientas dedicadas a cambiar el idioma, el tono, el estilo o el acento de una grabación, ideales para doblaje y gaming. Aplicaciones como Respeecher, Voice.ai y VocaliD están progresando con fuerza en esta categoría
Respeecher
VocaliD
Voice.ai
En esta actividad vamos a aprender a separar pistas de audio con la herramienta Lalal.ai
1.- Descargamos el Lalala de Massiel y la subimos a Lalal.ai 2.- Elegimos una pista de las que nos ofrecen y pinchamos en crear previas. 3.- Jugamos con los volúmenes para poder escuchar las pistas por separado
¿Muy soft para ti?¿falta guitarreo?¿más percusión? 1.- Descargamos el Highway to hell de ACDC y la subimos a Lalal.ai 2.- Elegimos una pista de las que nos ofrecen y pinchamos en crear previas. 3.- Jugamos con los volúmenes para poder escuchar las pistas por separado
Este crossover entre Massiel y ACDC no lo habías visto venir, eh Highway to Massiel (porque mi mujer veía feo Massiel to hell)
Pasamos a trabajar con herramientas para mejorar nuestros audios, en esta ocasión vamos a probar CleanVoice. Una herramienta muy utilizada para la generación de audios de calidad para podcast. 1.-Grabamos un audio de Whatsapp o elegimos uno que tengamos a mano. 2.-Lo subimos a CleanVoice y lo depuramos para ver cómo mejora la calidad del audio.
El carraspear se va a terminar
En esta categoría las herramientas de IA transcriben audios a textos con alta precisión, suelen integrarse en sistemas más completos con herramientas de productividad. De cierta forma llevamos conviviendo con productos similares en nuestros teléfonos o altavoces inteligentes desde hace tiempo. Aunque hay muchas de estas herramientas integradas en dispositivos nosotros vamos a ver herramientas independientes como Otter.ai, Rev o Whisper
Otter.ai
Rev
Whisper