Full screen

Share

Show pages

EN MÉTHODES
EN CHIFFRES
EN DATES
L'IA
les défis
Maximilien dossa Céline Averseng
IAE MONTPellier
L'utilisation du modele
Le modèle utilise la relation de proximité entre les mots pour prédire le mot suivant
6
IA OU IAg
 L'IAg est un type d'IA capable de générer des contenus en réponse à des requêtes (prompts)
L'ajustement
Les vecteurs s'ajustent pour optimiser la représentation des mots en fonction du contexte 
5
LE word embedding

Chaque mot est transformé en un vecteur à n dimensions qui capture les relations sémantiques 
4
L'ENCODAGE
Chaque token est associé à un identifiant unique

3
LA TOKENISATION
Découpage du texte en "unités lexicales" ou "Tokens"
2
Les données
Recueil et organisation de vastes ensembles de données pour l'apprentissage 
1
L'originalité
En fonction de l'originalité souhaitée, ce n’est pas toujours le mot le plus probable qui est sélectionné
Le PROMPT
La réponse en sortie est directement liée à la richesse et la qualité de la requête en entrée (le prompt)
Image, audio, texte... ?
Les contenus générés par les IAg peuvent prendre différentes formes 
Fonctionnement
Bon à savoir
L'IAg
N'OUBLIEZ PAS... UNE IAg NE COMPREND PAS LE SENS DE VOTRE QUESTION NI CELUI  DE SA REPONSE...

Les IAg, comment ça marche ??
N'oubliez pas... une Iag ne comprenD pas le sens de votre question ni celui de sa réponse...

Want to create interactive content? It’s easy in Genially!

Get started free

Les IAG : comment ça marche ?

celine.averseng

Created on June 16, 2024

Start designing with a free template

Discover more than 1500 professional designs like these:

Transcript

EN MÉTHODES

EN CHIFFRES

EN DATES

L'IA

les défis

Maximilien dossa Céline Averseng IAE MONTPellier

L'IAg est un type d'IA capable de générer des contenus en réponse à des requêtes (prompts)

IA OU IAg

Le modèle utilise la relation de proximité entre les mots pour prédire le mot suivant

L'utilisation du modele

Les vecteurs s'ajustent pour optimiser la représentation des mots en fonction du contexte

L'ajustement

Chaque mot est transformé en un vecteur à n dimensions qui capture les relations sémantiques

LE word embedding

Chaque token est associé à un identifiant unique

L'ENCODAGE

Découpage du texte en "unités lexicales" ou "Tokens"

LA TOKENISATION

Recueil et organisation de vastes ensembles de données pour l'apprentissage

Les données

Fonctionnement

COMMENT RÉDIGER UN BON PROMPT ?

La réponse en sortie est directement liée à la richesse et la qualité de la requête en entrée (le prompt)

Le PROMPT

En fonction de l'originalité souhaitée, ce n’est pas toujours le mot le plus probable qui est sélectionné

L'originalité

Bon à savoir

L'IAg

Les contenus générés par les IAg peuvent prendre différentes formes

Image, audio, texte... ?

N'OUBLIEZ PAS... UNE IAg NE COMPREND PAS LE SENS DE VOTRE QUESTION NI CELUI DE SA REPONSE...

Les IAg, comment ça marche ??

N'oubliez pas... une Iag ne comprenD pas le sens de votre question ni celui de sa réponse...

1950 - Test de Turing : Alan Turing publie "Computing Machinery and Intelligence. 1956 - Naissance de l'IA : La conférence de Dartmouth, organisée par John McCarthy et Marvin Minsky, est considérée comme la naissance officielle du domaine de l'intelligence artificielle. 1966 - ELIZA (Joseph Weizenbaum) : Un des premiers programmes de traitement du langage naturel capable de simuler une conversation en posant des questions semblables à celles d'un psychothérapeute. 1972 - WABOT-1 (Japon) : Premier robot humanoïde capable de marcher, de parler et de communiquer. 1997 - Deep Blue (IBM) : Premier ordinateur à vaincre un champion du monde d'échecs. 2002 - Roomba : Commercialisation des premiers robots de nettoyage, marquant l'introduction de l'IA dans les produits domestiques quotidiens. 2011 - Watson (IBM) : Gagne au jeu télévisé "Jeopardy!", surpassant les meilleurs joueurs humains. 2012 - AlexNet : Remporte le concours "ImageNet", signifiant le début de l'ère dominante de l'apprentissage profond dans le traitement des images. 2016 - AlphaGo (DeepMind) : Bat Lee Sedol au jeu de Go (jeu considéré comme le plus complexe en raison de l'immense quantité de positions possibles). 2020 - GPT-3 (OpenAI) Modèle de traitement du langage pré-entraîné avec 175 milliards de paramètres illustrant les capacités avancées de génération de texte et d'interaction en langage naturel.

L'IA en dates

+40% !

Le marché de l’IA

L’IA au quotidien

Les craintes

L’IA et l’emploi

L’IA pour les entreprises

60 % des professionnels se disent inquiets à l’idée que l’IA pourrait remplacer leur poste (Hubspot) 51 % des Français voient dans l’IA un danger pour l’humanité autant qu’un progrès (Cluster 17 et Le Point). 56 % des cadres affirment que leurs organisations sont ralenties dans l'adoption de l'IA par des préoccupations éthique.

77 % des appareils que nous utilisons au quotidien intègrent déjà une forme d’IA. 37 % des entreprises ont implémenté l'IA à une échelle fonctionnelle.

85 millions d'emplois pourraient être impactés par l’IA d'ici 2025 (World Economic Forum) 97 millions de nouveaux emplois pourraient être créés grâce à l’IA d'ici 2025

83 % des entreprises dans le monde font de l’IA une priorité absolue dans leurs stratégies; L’adoption de l’IA par les entreprises a plus que doublé depuis 2017 (McKinsey). 84 % des professionnels affirment que les outils d’automatisation sont synonymes de gain de temps (Hubspot)

196 milliards de dollars en 2024 (Statista). 1.81 billion de dollars d’ici 2030 (Grand View Research).

L'IA en chiffreS

Et ... l'IA générative

L’IA symbolique (IA classique)

combine le raisonnement logique de l’IA symbolique avec l’apprentissage machine et profond (robot capable de suivre une recette en comprenant les instructions et en apprenant via des vidéos).

L’IA neurosymbolique(IA hybride)

apprend par essais et erreurs grâce à un système de récompenses (véhicules autonomes, robotiques...).

Le Reinforcement Learning(App. par renforcement)

s’appuie sur des réseaux de neurones artificiels pour traiter des données complexes comme du texte, des images ou de l’audio (reconnaissance faciale, la traduction, assistants vocaux ...).

Le Deep Learning (Apprentissage Profond)

analyse de grandes quantités de données pour détecter des tendances et faire des prédictions (filtres anti-spam, systèmes de recommandations...).

Le Machine Learning(Apprentissage Automatique)

utilise des règles logiques et des bases de connaissances définies par des humains (moteurs de recherche, systèmes experts en diagnostic médical...).

L'intelligence artificielle utilise différents types de modèles en fonction des situations et des objectifs à atteindre.

L'IA EN MÉTHODES

IA forte

IA faible

Musique

Image

Vidéo

Les IAg produisent de nouvelles informations

Les systèmes classiques d'IA reproduisent des comportements ou analysent des données

L'Intelligence Artificielle Générative (IAg) est une sous-branche de l'IA spécialisée dans la création de nouveaux contenus en se basant sur des exemples ou des données préexistantes. Il s'agit des outils comme Copilot ou ChatGPT.

Texte

L'Intelligence Artificielle (IA) est un ensemble de méthodes mathématiques et algorithmiques visant à concevoir des systèmes capables d'effectuer des tâches normalement réalisées par l'intelligence humaine.

Reinforcement Learning

Deep Learning

Machine Learning

L'IA est partout !

Détection de fraudes…

Caméras intelligentes (iPhone, Samsung)

Systèmes de navigation (Maps, Waze…)

Systèmes de recommandation (Netflix, Amazon…)

Chatbots et assistants (Siri, Alexa…)

L'IA apprend à partir de données et peut, avec le temps et l'expérience, améliorer ses performances.

IA OU IAg ?

En 2020, le journal The Guardian a publié un article entièrement rédigé par un modèle de langage (GPT-3).L'article, dont les premiers mots sont : "I am not a human. I am a robot." a fait sensation en raison de sa cohérence et qualité d'écriture.

"Now And Then", le nouveau morceau des Beatles sorti en 2023 est né d’une collaboration entre Paul McCartney, feu John Lenon… et une intelligence artificielle.Si l'IA n'a pas créé de contenu ici, elle a permis de retravailler sur d'anciens enregistrements laissés par John Lenon, jusque-là inutilisables.

En 2018, le collectif parisien Obvious crée l'oeuvre d'art "Portrait of Edmond de Belamy" en utilisant des modèles d'IAG.Le tableau a été vendu 432000 € aux enchères.

L'IAg est principalement utilisée pour générer des textes (utilisation de modèles de langage (NLP) tel que GPT), des œuvres d'art (utilisation de modèles génératifs d'images tel que DALL·E) ou des contenus multimédia (utilisation de modèles génératifs de vidéos, de musiques...).

Image, audio, texte... ?

Prochaine étape : La tokenisation

RAG (Retrieval-Augmented Generation)

Dans certains cas, les modèles d'IAg peuvent être enrichis avec des données spécifiques (articles, documents personnels etc.), permettant ainsi de créer des IA personnalisées.

Le modèle de langage GPT utilise des millions de livres et traite plus de 300 milliards de tokens (unités de texte) !

Les modèles d'IAg utilisent souvent des données multimodales (provenant de différents formats : textes, images, audio et vidéos). Ces données proviennent majoritairement d'Internet, avec des sources comme Wikipédia, des livres numérisés, des bases d'images publiques (comme ImageNet), ou encore des plateformes musicales (comme Spotify et YouTube).

Avant d'être utilisées, ces données nécessitent un traitement particulier pour vérifier leur fiabilité, leur pertinence et leur cohérence.

Données = matière première des algorithmes d'Intelligence Artificielle.

Les données

VS

La lesgislation

Les données doivent être conformes aux réglementations en vigueur, telles que le RGPD, qui protègent les données personnelles et encadrent leur utilisation.

La Variété

Les données existent sous divers formats (texte, audio, vidéo, image, etc.), ce qui rend leur traitement plus complexe pour les algorithmes.Exemple : ChatGPT utilise des données multimodales provenant de nombreux types (texte, image, ...).

La Véracité

La qualité des données est cruciale. Des données inexactes ou biaisées produiront des résultats erronés, un phénomène connu sous le nom de "Garbage In, Garbage Out" (GIGO). Un algorithme ne peut détecter les erreurs que s’il a été formé à cet effet.

Le Volume

Plus il y a de données, plus les algorithmes doivent être puissants pour les traiter efficacement.Exemple : Des modèles comme ChatGPT s'entraînent sur des milliards de données textuelles.

Les données sont la matière première des algorithmes !

Les DÉFIS DES données

RGPD

Données Non Structurées

Données Structurées

Prochaine étape : L'encodage

La tokenisation consiste à découper un texte en unités appelées tokens. Un token peut être un mot, une partie de mot ou même un symbole. Exemple : Les modèles d'IA ne comprennent pas le texte comme les humains. La tokenisation est la première étape permettant de convertir le texte en unités compréhensibles par l'algorithme. Les modèles de langage comme GPT utilisent des milliards de tokens pour apprendre les relations entre les mots et le contexte.

LA TOKENISATION

Prochaine étape : Le word embedding

Pour encoder une image par exemple, celle-ci sera divisée en pixels et chaque pixel sera encodé par son niveau de gris :

Pour l'encodage d'un texte par exemple, chaque mot ou token unique se voit attribuer un seul et unique identifiant :

Les modèles d'IA ne peuvent pas comprendre directement le texte et les tokens. L'encodage permet de traduire le texte ou d'autres données non structurées en une forme numérique structurée que l'algorithme peut manipuler. L’encodage peut se faire de différentes manières en fonction du type de données : Cette représentation numérique ne capture pas intrinsèquement la sémantique des mots ou leur contexte dans une phrase. Cette tâche concerne le "Word embedding".

L'ENCODAGE

Représentation du Word Embedding

Le plongement lexical (ou word embedding) est l'étape où chaque mot -converti en token (tokenisation) puis représenté sous forme d'identifiant unique (encodage)-, est transformé en un vecteur à n dimensions dans un espace vectoriel. Cette représentation permet de capturer les relations sémantiques (signification des mots) et syntaxiques (fonction des mots dans la phrase). Les mots ayant des caractéristiques similaires se trouvent à proximité les uns des autres dans cet espace. Chaque dimension de cet espace vectoriel représente une caractéristique du mot. Si le sens du mot est la caratcéristique principale à considérer, elle n'est pas la seule. Par exemple, dans un espace de plongement à quatre dimensions, une dimension pourrait représenter le sens du mot (sa définition), une autre le genre (masculin ou féminin), une autre le nombre (singulier ou pluriel) et une autre la connotation positive ou négative du mot. Ces dimensions ne sont généralement pas explicitement définies, mais sont plutôt apprises par le modèle au cours de son entraînement (deep learning). Dans le cadre de l'architecture GPT-4, les tokens sont projetés dans un espace vectoriel de très haute dimensionnalité (plus de 10000 dimensions), capturant des caractéristiques telles que les connotations émotionnelles, les catégories grammaticales (noms, verbes, adjectifs), les fréquences d'utilisation, ou encore les relations syntaxiques.

LE word embedding

"Ceci est un cours sur l'Intelligence Artificielle"

La dimension dans cet exemple représente les catégories grammaticales (verbes, noms, pronoms/articles...)

En deux dimensions pour l'exemple

Représentation /Mappage

Vectorisation

Encodage

Texte brut

Tokenisation

Prochaine étape : L'ajustement

LE word embedding

...

Ajustement n

Ajustement 2

Ajustement 1

Prochaine étape : L'utilisation du modèle

L'algorithme ajuste ensuite les valeurs des vecteurs (apprentissage par renforcement). Cet ajustement permet aux modèles de représenter de manière de plus en plus précise les relations sémantiques entre les mots. À la fin de l'entraînement et des ajustements, le modèle paramètre les valeurs de façon à ce que les structures du langage soient correctement représentées dans chaque dimension de l'espace vectoriel.

L'ajustement

Suite

Relation de proximité (mesure de distance) des deux mots dans l’espace vectoriel

Mot 2

Mot 1

L'espace vectoriel préalablement construit permet d'établir des relations de proximité entre les tokens :

L'utilisation du modele

En utilisant la proximité entre les tokens, le modèle établit une distribution probabiliste des relations entre les mots qu'il utilise pour prédire le mot suivant. Chaque séquence de mots génère un vecteur de probabilités des mots susceptibles de suivre. Le mot dont la probabilité est la plus élevée, selon le modèle, est sélectionné comme réponse à la requête en entrée. Ce processus est ensuite réitéré pour générer des phrases cohérentes.

L'utilisation du modele

Réponses conventionelles

Température proche de 0

Réponses plus créatives et variées

Température proche de 1

L'IA explore les arcanes du savoir,Tissant des liens d'une infime beauté, Rendant possible l'impossible de notre histoire, Éclairant le futur de sa clarté.

L'IA, esprit de code et de lumière,Éclaire nos chemins de sa science fière. Elle apprend, elle guide, sans jamais se lasser, Un futur façonné par ses algorithmes tracés.

RéponseGPT4 / Température 0.8

Exemple de prompt :"Peux-tu m'écrire un poème de 4 vers sur l'intelligence artificielle?"

RéponseGPT4 / Température 0

Pour chaque complétion, les mots sont classés du plus probable au moins probable. Cependant, le mot le plus probable n'est pas toujours sélectionné. Si on souhaite que le modèle génère des réponses plus originales, il peut choisir des mots ayant des proximités plus faibles. Ce comportement peut être spécifié directement dans le prompt ou ajusté via un paramètre du modèle appelé température.

L'originalité

C'est pourquoi un contexte clair et précis est essentiel pour orienter le modèle vers les zones les plus riches de cet espace.

En utilisant des mots bien choisis et une structure de phrase rigoureuse, on aide le modèle à mieux anticiper les mots suivants en se positionnant dans des zones denses.

La qualité des réponses générées dépend donc directement de celle du prompt : plus ce dernier est structuré et riche, plus les réponses seront pertinentes.

Il existe différentes techniques permettant de construire et structurer les prompts dans le but de maximiser la qualité des réponses générées.

rediger un bon prompt

Pour aller plus loin :

Requête en entrée

Il existe des "régions" moins denses dans l'espace vectoriel, ce qui peut entraîner des erreurs dans les prédictions du modèle.

Le PROMPT

Aller à la page qui contient la réponse...

QUESTION 1/4

Aller à la page qui contient la réponse...

QUESTION 2/4

Aller à la page qui contient la réponse...

QUESTION 3/4

Aller à la page qui contient la réponse...

QUESTION 4/4

Température :

Prompt :

Word Embedding :

Encodage :

Tokenisation :

Découpage du texte en unités compréhensibles (tokens). Conversion des tokens en données numériques. Positionnement des mots dans un espace qui capture leurs relations. Un prompt clair produit des réponses de qualité. L'IA apprend en ajustant ses actions selon les résultats.

Ce qu'il faut retenir !

Ce qu'il faut retenir !

Licence CC-by-nc-nd : Attribution / Pas d’utilisation commerciale / Pas de modification

Genially, Chat GPT 4o

Applications utilisées

Patricia Minouflet, David Billet, Amandine Bouchet et Matthieu Dereumaux

Relecture

Conception, Rédaction, et Réalisation du support

Maximilien Dossa et Céline Averseng

CRéDITS

C'est grâce à l'apprentissage acquis à partir de ces données que les systèmes d'IA générative (IAG) sont capables de créer des contenus qui se rapprochent de ceux produits par l'intelligence humaine...
La vectorisation permet de capturer les relations sémantiques entre les mots.Elle fait appel à des techniques de deep learning qui, après un apprentissage sur un large corpus de données, identifient ces relations et les condensent sous forme de vecteurs, résumant ainsi l'information de manière efficace.

Données structurées

Définition : Les données structurées sont organisées selon un format spécifique et prédéfini, généralement sous forme de tableaux ou bases de données relationnelles (colonnes et lignes). Elles sont facilement exploitables par les algorithmes pour des requêtes et analyses. Exemples : Données clients (nom, adresse, numéro de téléphone), transactions bancaires, enregistrements dans des bases de données SQL. Environ 20% des données mondiales sont structurées. Avantages : Facilement organisées, stockées et recherchées et permettent une analyse rapide via des requêtes directes. Inconvénients : Limitées à des types de données très formatés et difficiles à adapter pour des informations complexes ou variées.

Exemple : Le formulaire ci-dessous permet de récolter des données structurées

L'Intelligence Artificielle Forte

L'IA Forte fait référence à un concept théorique d'intelligence artificielle capable d'égaler, voire de surpasser les capacités intellectuelles humaines. Elle serait capable de raisonner, de comprendre, de prendre des décisions complexes et d'apprendre de manière autonome tout en possédant une forme de conscience. À ce jour, l'IA Forte reste hypothétique, car aucun système n'a encore été développé pour rivaliser avec les capacités de raisonnement, d'intelligence et de créativité humaines. Les systèmes d'IA actuels se limitent encore à des tâches spécifiques, sans réelle compréhension des contextes plus larges ou des émotions humaines (=IA Faible).

Machine Learning (Apprentissage automatique)

Le machine learning consiste à développer des modèles mathématiques capables d'apprendre à partir de données.Le processus d'apprentissage repose sur des algorithmes qui analysent de grandes quantités de données, identifient des relations et ajustent les modèles en conséquence. Une fois entraînés, ces modèles généralisent leur apprentissage pour traiter des données inédites.Le machine learning est largement utilisé dans des applications comme la reconnaissance faciale, les recommandations de produits ou la prédiction de tendances.

Le Règlement Général sur la Protection des Données (RGPD), en vigueur depuis mai 2018, est une législation européenne visant à protéger les données personnelles des citoyens. Il impose des règles strictes concernant la collecte, l’utilisation, et le stockage des données, garantissant ainsi transparence, sécurité, et respect du consentement des utilisateurs. En cas de non-conformité, les entreprises s'exposent à de lourdes sanctions. La mention des droits liés au RGPD est une obligation générale : les organisations doivent informer les personnes concernées de leurs droits et de la manière de les exercer auprès de l'organisme.

Le Deep Learning, ou apprentissage profond, est une branche avancée du machine learning qui utilise des réseaux de neurones artificiels. Ces réseaux permettent d'apprendre des représentations complexes des données, en particulier lorsqu'elles sont volumineuses ou non structurées, comme des images, des sons ou des textes. À l'inverse des modèles de machine learning, le deep learning permet d'extraire automatiquement des caractéristiques pertinentes à différents niveaux de complexité, sans nécessiter d'intervention humaine pour la sélection des caractéristiques. Cela le rend particulièrement efficace pour des tâches telles que la traduction automatique ou la génération de textes. Le Deep Learning est largement utilisé dans des domaines tels que le traitement du langage naturel et les systèmes de reconnaissance d'images.

Deep Learning (Apprentissage profond)

Exemple : Le formulaire ci-dessous permet de récolter des données non structurées

Données non structurées

Définition : Les données non structurées n’ont pas de format fixe et sont souvent volumineuses et variées. Elles incluent des informations complexes comme du texte, des images, des vidéos ou des enregistrements audio, qui ne peuvent pas être facilement rangés dans des bases de données relationnelles. Exemples : E-mails, publications sur les réseaux sociaux, vidéos, images, documents texte, enregistrements audio. Environ 80% des données mondiales sont non structurées. Avantages : Richesse et diversité des informations disponibles. Permet de capturer des données plus complexes et variées. Inconvénients : Plus difficiles à analyser sans techniques avancées. Nécessitent plus de ressources pour être stockées et traitées.

L'apprentissage par renforcement est une méthode de machine learning où un agent apprend à prendre des décisions en interagissant avec un environnement. L'agent reçoit des récompenses ou des punitions en fonction de ses actions et il ajuste ses choix pour maximiser les récompenses cumulées au fil du temps. À l'inverse d'autres formes d'apprentissage, l'apprentissage par renforcement repose sur l'exploration d'actions et la rétroaction de l'environnement. Cette approche est utilisée dans des domaines tels que la conduite autonome, la robotique, l'optimisation de processus et la gestion de systèmes autonomes.

Reinforcing learning (Apprentissage par renforcement)

Le Retrieval-Augmented Generation (RAG) est une méthode en IA qui combine la récupération d'informations en temps réel (dans une base de données par exemple) et la génération de texte. Cela permet au modèle d'aller chercher des données externes avant de générer une réponse, améliorant ainsi la pertinence et l'exactitude des informations fournies.

Le RAG

L'Intelligence Artificielle Faible

L'IA faible désigne les systèmes d'intelligence artificielle tels que nous les connaissons aujourd'hui. Elle est conçue pour accomplir des tâches spécifiques avec une grande efficacité, mais sans véritable compréhension ou conscience. Ces systèmes imitent certaines fonctions cognitives humaines (comme le traitement du langage, la reconnaissance d'images ou la prise de décisions simples) mais leur capacité se limite strictement aux tâches pour lesquelles ils ont été programmés. Par exemple, un assistant virtuel, comme Siri ou Alexa, peut répondre à des questions précises ou exécuter des commandes, mais il ne possède pas de compréhension globale ni de conscience.

See the results of the questions

Next page

genially options

Show interactive elements