TAL CM
46 %
Created on October 21, 2024
More creations to inspire you
ANCIENT EGYPT
Learning unit
MONSTERS COMIC "SHARING IS CARING"
Learning unit
PARTS OF THE ANIMAL CELL
Learning unit
PARTS OF A PROKARYOTIC CELL
Learning unit
PARTS OF THE PLANT CELL
Learning unit
Transcript
Traitement des Données Langagières
COMMENCER
AMBLARD-VIROLLAUD Maxime
Sommaire
Expressions régulières
Python
Généralités
Sommaire
+ wikipedia
Généralités
Introduction
Le TAL joue un rôle clé dans le développement de technologies modernes.
Qu'est ce que le traitement automatique des langues ?
Quelle est son utilité?
Langues
.
.
Langage non naturelle
Langue pour définir des programmes (outils concrets) et penser des algorithmes (outils abstraits de modélisation).
.
Langue naturelle
Langue utilisée par des humains dans des processus de communication.
Généralités
Traitement Automatique des Langues
Traitement Automatique des Langues
Calculs, manipulations numériques réalisés sur des données exprimées en langue naturelle.
Utilités du TAL
Généralités
Comprendre l'intelligence par la commmunication
Langage comme trace de la pensée, du raisonnement et du sens commun.
Faciliter la communication Humain/Machine et Humain/Humain
Accès à l’information, médiation de la communication.
IA et représentation de connaissances
.
.
.
Sources du TAL
Les données langagières sont partout.
Approches
.
.
Informatique linguistique ‘’Computational Linguistics’’
Science, modèles explicatifs, validation des données (partir théorique)
.
.
TAL ‘’Natural Language Processing’’
Tâches à résoudre, ingénierie, approche expérimentale par évaluation (partie pratique)
Généralités
Paradigmes
Stochastique
Modélisation fondée sur les données/ modèles statistiques pour repérer des occurrences/corrélations (machine learning, réseaux de neurones).
Symbolique
Modélisation fondée sur les symboles pour définir des règles (grammaires lexiques systèmes à base de règles).
Approches
.
.
Informatique linguistique ‘’Computational Linguistics’’
Science, modèles explicatifs, validation des données (partir théorique)
.
.
TAL ‘’Natural Language Processing’’
Tâches à résoudre, ingénierie, approche expérimentale par évaluation (partie pratique)
Généralités
Paradigmes
Stochastique
Modélisation fondée sur les données/ modèles statistiques pour repérer des occurrences/corrélations (machine learning, réseaux de neurones).
Symbolique
Modélisation fondée sur les symboles pour définir des règles (grammaires lexiques systèmes à base de règles).
Introduction
On va en avoir besoin quand on va chercher des dates dans un document par exemple. On va donc généraliser les formulations de dates.
+ wikipedia
Qu'est ce qu'une expression régulière?
Expressions Régulières
Comment on va exprimer une propriété la généraliser et la trouver ?
Opérations sur les langages
Expressions Régulières
Exemple
Union
Description
∪
Concaténation
Description
.
Clôture positive
Description
Clôture de Kleene
Description
L+
L*
Exemple : L1 = {a, b} et L2 = {c, d} Union : L1 ∪ L2 = L2 ∪ L1 = {a, b, c, d} Concaténation : L1.L2 = {ac, ac, bc, bd}L2.L1 = {ca, cb, da, db} Clôture de Kleene : L1* = {a, b, aa, bb, ab, ba, …} Clôture positive : L2+ ={c, d, cc, dd, cd, dc, …}
Symboles
Expressions Régulières
Wildcard
Représenter n’importe quel caractère
.
Ensemble de caractères
Spécifier une classe de caractères
[ ]
Clôture positive
indique qu’un pattern ou un autre apparait à un endroit particulier
Complémentaire
Inverser le sens de la classe : inclu devient exclu
|
^
Rassemblement d'ER
Regrouper plusieurs caractères en une petite ER qui fait partie d’une ER plus large
( )
^
Symboles spécifiques
Expressions Régulières
Caractères spéciaux sur la position
Début de la chaîne
Spécifier la position de début de chaîne
^
Fin de la chaîne
Spécifier la position de fin de chaîne
$
Recherche gourmande
Gourmands : + , * , ?
Cherchent à couvrir le plus possible
G
Non-Gourmands : +? , *? , ??
NG
Répétition : 0 - n
Spécifier des occurrences 0 à n fois d’un caractère
*
Répétition : 0 - 1
Spécifier des occurrences de 0 à 1 fois d’un caractère
Répétition : 1 - n
Spécifier des occurrences 1 à n fois d’un caractère
?
+
Caractères spéciaux sur la répétition
Cherchent à couvrir le moins possible
*
Répétition numérique
Spécifier en compte précis des occurrences{borne minimum , borne maximum}
{ }
Séquences Backslash
Expressions Régulières
Digit
[ ]
Word
Not digit
|
^
( )
^
[ ]
|
^
( )
^
[ ]
|
^
( )
^
\d
|
\D
Tabulation
[ ]
Space
New line
Nouvelle ligne
|
^
Not space
( )
^
[ ]
|
^
( )
^
[ ]
|
^
( )
^
\t
|
\n
( )
\s
( )
\w
\S
Tout sauf les symboles d'espace
Symboles d'espace
Not Word
Tout sauf les symboles de mot
Caractères alphanumériques et underscore
Tous sauf les chiffres
Les chiffres de 0 à 9
Symboles de tabulation
Home
*
Session 01 : Notions
Session 02 : Opérations
Session 03 : Symboles spéciaux
Exercices sur différents points
Exercices
Exercices de TD
Notions
Session 01
introduction
goals
Lorem ipsum dolor sit amet consectetur adipiscing elit erat dictum interdum, vestibulum litora proin imperdiet integer habitasse semper id vulputate, inceptos senectus urna mi odio nec penatibus mus cubilia. Felis pretium cras eros cubilia fermentum varius sociis condimentum suscipit cursus, auctor molestie pellentesque suspendisse feugiat ridiculus vivamus sapien pulvinar at quisque
Erat sodales orci risus rutrum taciti suspendisse augue vivamus mauris, nec elementum tellus bibendum auctor massa pulvinar pharetra dis fermentum, nisi id viverra aliquam sed egestas ultricies dictumst. Fames ultricies per dapibus elementum condimentum ad nam mus, faucibus magnis maecenas habitant integer nisl mi mollis facilisi.
contents
Exercices / 01
Write a title here
Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat. Ut wisi enim ad minim veniam, quis nostrud exerci tation ullamcorper suscipit lobortis nisl ut aliquip ex ea commodo consequat.
Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse. Usu ea mundi tincidunt, omnium virtute aliquando. Expetenda tincidunt in sed, ex partem placerat sea, porro commodo ex eam. His putant aeterno interesset at. Usu ea mundi tincidunt, omnium virtute aliquando ius ex.
"Malesuada libero class per ut posuere odio parturient aenean vivamus congue, habitant inceptos enim"
Exercices / 01
Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh
Write a title here
Exercices / 01
Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa.
Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa.
Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa.
Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa.
Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa.
Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa.
Exercices / 02
Opérations sur les langues
Session 02
Clôture de Kleene
Concaténation
Exercices / 03
Symboles spéciaux
Session 03
Chaines de caractères
Contraintes
Consignes
Répétitions
Symboles spéciaux
"Nullam rutrum duis ac primis velit faucibus malesuada, consequat elementum nostra curabitur potenti"
...
03
Exercices / 03
Chaines de caractères correspondant aux expressions régulières suivantes :
Malesuada venenatis cum nisl diam nam augue vestibulum sagittis sem, eleifend feugiat nisi ante nunc dui dictumst torquent mattis pharetra, dapibus hac faucibus senectus est ad sociis.
Write a title here
Malesuada venenatis cum nisl diam nam augue vestibulum sagittis sem, eleifend feugiat nisi ante nunc dui dictumst torquent mattis pharetra, dapibus hac faucibus senectus est ad sociis.Laculis felis class habitant litora himenaeos mi a dictum bibendum urna, gravida potenti fusce nullam nisl at nam hac augue penatibus, aliquam feugiat sociis euismod consequat lacinia cum sapien rutrum.Laculis fusce hendrerit eget proin rhoncus platea quam, mus dapibus lacinia ornare cubilia pharetra velit vitae, aptent molestie volutpat a sem erat. Et interdum cras dis leo facilisi tempor maecenas.
Donec tellus senectus suspendisse mollis dui orci bibendum aliquet quam quis, natoque auctor rhoncus neque fermentum habitant sapien suscipit nunc, etiam blandit laoreet interdum tincidunt ut magna massa id.Nec sodales viverra aenean integer feugiat lacus euismod, habitant accumsan ligula per ante facilisis nisi malesuada, proin erat placerat in magnis donec.Aptent pulvinar blandit enim tincidunt nam id ligula, himenaeos dapibus torquent metus hac fermentum laoreet.
Elementum orci aenean aptent pulvinar vitae faucibus turpis nullam curae accumsan, lacinia aliquam porta nec non lobortis morbi per vel, maecenas primis dis duis vivamus erat.
Fermentum mi etiam turpis molestie, hendrerit primis ac scelerisque montes rhoncus sodales blandit ut sociosqu suspendisse curae, enim euismod mollis elementum laoreet litora lacus pulvinar risus dui platea. Quam luctus rutrum eleifend ornare egestas dictumst velit nam sollicitudin per vel laoreet, vulputate mauris lacinia commodo diam dignissim nisi tempor quis integer fermentum lobortis imperdiet. Sodales placerat urna nullam himenaeos tortor montes varius molestie neque dictum quam.
Learning sessions / 03
Lorem 1
Duis autem vel eum iriure dolor in hendrerit
Lorem 2
Ullamcorper suscipit lobortis nisl ut aliquip
Duis autem vel eum iriure dolor in hendrerit
Lorem 3
Ullamcorper suscipit lobortis nisl ut aliquip
key ideas
Lorem 4
reflect
01
example
02
03
Lorem ipsum dolor sit amet consectetur
04
Malesuada libero class per ut posuere odio velit parturient aenean vivamus congue, habitant inceptos enim dapibus primis et risus lacus quis.
Learning sessions / 03
Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna.
+ info
Facilisis maecenas neque urna sem senectus metus ridiculus sed ad, non arcu laoreet feugiat lacinia iaculis bibendum netus, aenean augue torquent phasellus nullam eleifend fusce vel. Litora tellus sollicitudin sociosqu vitae.
Learning sessions / 03
Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa. Lectus ac velit netus pulvinar integer tristique ullamcorper tempor id cum diam.
Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa. Lectus ac velit netus pulvinar integer tristique ullamcorper tempor id cum diam.
Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa. Lectus ac velit netus pulvinar integer tristique ullamcorper tempor id cum diam.
Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa. Lectus ac velit netus pulvinar integer tristique ullamcorper tempor id cum diam.
Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa. Lectus ac velit netus pulvinar integer tristique ullamcorper tempor id cum diam.
Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna.
key ideas
Mollis bibendum pretium donec dapibus tristique ad laoreet aliquam id curae morbi viverra nostra.
reflect
example
Lorem ipsum dolor sit amet consectetur adipiscing elit lacus elementum aenean nisl class,malesuada integer tempus ante donec placerat aptent facilisi inceptos libero condimentum.
Facilisis maecenas neque urna sem senectus metus ridiculus sed ad, non arcu laoreet feugiat lacinia iaculis bibendum netus.
Aenean augue torquent phasellus nullam eleifend fusce vel. Litora tellus sollicitudin sociosqu vitae.
Lorem ipsum dolor sit amet
Lorem ipsum dolor sit amet
Learning sessions / 03
Cubilia feugiat dignissim mauris curabitur scelerisque conubia turpis ullamcorper nullam posuere platea, metus urna vivamus gravida nec condimentum montes etiam imperdiet natoque est, aliquet mollis per euismod maecenas dictum blandit placerat magna himenaeos.
Cubilia feugiat dignissim mauris curabitur scelerisque conubia turpis ullamcorper nullam posuere platea, metus urna vivamus gravida nec condimentum montes etiam imperdiet natoque est, aliquet mollis per euismod maecenas dictum blandit placerat magna himenaeos.
Conclusion
__
___
__
+ info
___
__
___
3
__
4
___
1
1. Lorem ipsum dolor sit amet consectetur adipiscing elit ante taciti, cursus egestas auctor nisi at porttitor orci euismod est ullap.2. Cras rhoncus condimentum conubia eros maecenas nec ac facilisis malesuada cum montes purus feugiat.
2
Idées secondaires
3. Sapien maecenas ad feugiat accumsan dictumst enim dignissim curae litora, scelerisque per semper.4. Massa mattis tempor bibendum netus felis augue nec, vehicula suscipit non dignissim neque nascetur at, parturient elementum condimentum.
5. Cubilia feugiat dignissim mauris curabitur scelerisque conubia turpis ullamcorper nullam posuere platea
Idées principales
Summary
- Lorem ipsum dolor sit amet.
- Consectetur adipiscing elit.
- Sed do eiusmod tempor incididunt ut.
- Labore et dolore magna aliqua.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.
Lorem ipsum dolor
Lorem ipsum dolor sit amet, consectetur adipiscing elit
Déterminer les expressions régulières correspondant aux énoncés suivants
Symboles spéciaux
| Contraintes
Toute ligne dont le premier mot commence par ‘’v’’ et se poursuit par au moins 4 caractères alphabétiques en minuscules.
^v[a-z]{4, }
Toute ligne commençant par au moins une majuscule poursuivi par entre 2 et 7 minuscules.
___
- Lorem ipsum dolor sit amet.
- Consectetur adipiscing elit.
- Sed do eiusmod tempor incididunt ut.
- Labore et dolore magna aliqua.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.
Lorem ipsum dolor
Lorem ipsum dolor sit amet, consectetur adipiscing elit
L.M des langues suivantes
Opérations sur les langues
| Concaténation
L = {a, ab, b²} et M = {ε, b, a²}
L = ensemble vide et M = {a, ba, bb}
L.M = {a, ab, a3, ab, ab², aba², b², b3, b²a²}
L.M = ensemble vide
L = {ε} et M = {a, ba, bb}
L.M = M
L = {aa, ab, ba} et M = {a, b}* ~ {epsilon, a, b, aa, ab, bb, ba, aaa, bbb…}
L.M = {aa, aaa, aab, aaab, ab, aba, abb, abaa, abab, ba
Ecrire toutes les expressions régulières pour les situations suivantes
Symboles spéciaux
| Consignes
Toute année comprise entre 2000 et 2024
Un prénom suivi d'un nom de famille
___
___
Une date au format JJ/MM/AAAA
Tous les mots commençant par la lettre m (maj ou min) de 5 caractères maximums
___
Une marque de ponctuation finale dans un texte (ex : ‘’Je marche. Je cours.’’ Il faut le dernier point et pas le premier)
___
___
- Lorem ipsum dolor sit amet.
- Consectetur adipiscing elit.
- Sed do eiusmod tempor incididunt ut.
- Labore et dolore magna aliqua.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.
Lorem ipsum dolor
Lorem ipsum dolor sit amet, consectetur adipiscing elit
- Lorem ipsum dolor sit amet.
- Consectetur adipiscing elit.
- Sed do eiusmod tempor incididunt ut.
- Labore et dolore magna aliqua.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.
Lorem ipsum dolor
Lorem ipsum dolor sit amet, consectetur adipiscing elit
Chaines de caractères correspondant aux expressions régulières suivantes :
Opérations sur les langues
| Clôture de Kleene
L = {1}
L = {1, 2}
L* = { ε, 1, 11, 111…}
L* = {ε, 1, 2, 11, 12, 21, 22, 111, …}
L = { 1, 2, 3}
L* = {ε, 1, 2, 3, 11, 12, 13, 21, 22, 23, 31, 32, 33, 111, 122, 123, 222, 213, 231, … }
- Lorem ipsum dolor sit amet.
- Consectetur adipiscing elit.
- Sed do eiusmod tempor incididunt ut.
- Labore et dolore magna aliqua.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.
Lorem ipsum dolor
Lorem ipsum dolor sit amet, consectetur adipiscing elit
Chaines de caractères correspondant aux expressions régulières suivantes :
Symboles spéciaux
| Chaines de caractères
[abc]
[abc] ?
« a », « b », « c »
ε, « a », « b », « c »
\d{1, 2}
\d{1, 2} | \w
0, 1, 2, 3, … , 98, 99
0, 1, 2, 3, … , 98, 99, a, b, … , z, A, B, … , Z
\.\ ?
\. ?
« . ? »
[sS]acha[-_]du[-_] ?[1-9]{2}
ε , « . »
sSacha -_ du -_ et répéter 2 fois le dernier encadré
- Lorem ipsum dolor sit amet.
- Consectetur adipiscing elit.
- Sed do eiusmod tempor incididunt ut.
- Labore et dolore magna aliqua.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.
Lorem ipsum dolor
Lorem ipsum dolor sit amet, consectetur adipiscing elit
- Lorem ipsum dolor sit amet.
- Consectetur adipiscing elit.
- Sed do eiusmod tempor incididunt ut.
- Labore et dolore magna aliqua.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.
Lorem ipsum dolor
Lorem ipsum dolor sit amet, consectetur adipiscing elit
- Lorem ipsum dolor sit amet.
- Consectetur adipiscing elit.
- Sed do eiusmod tempor incididunt ut.
- Labore et dolore magna aliqua.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.
Lorem ipsum dolor
Lorem ipsum dolor sit amet, consectetur adipiscing elit
- Lorem ipsum dolor sit amet.
- Consectetur adipiscing elit.
- Sed do eiusmod tempor incididunt ut.
- Labore et dolore magna aliqua.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.
Lorem ipsum dolor
Lorem ipsum dolor sit amet, consectetur adipiscing elit
Déterminer tous les mots de longueur maximale de 4 qui appartiennent au langage dénoté par chacune des expressions régulières suivantes
Symboles spéciaux
| Répétitions
(b | ba)
(b | ba)*
___
___
ab*|b
(a | b)*abb
___
___
(x | ε)*dd*
(xd | ε)*d*
___
___
a*(b | c)d*
___
- Lorem ipsum dolor sit amet.
- Consectetur adipiscing elit.
- Sed do eiusmod tempor incididunt ut.
- Labore et dolore magna aliqua.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.
Lorem ipsum dolor
Lorem ipsum dolor sit amet, consectetur adipiscing elit
- Lorem ipsum dolor sit amet.
- Consectetur adipiscing elit.
- Sed do eiusmod tempor incididunt ut.
- Labore et dolore magna aliqua.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.
Lorem ipsum dolor
Lorem ipsum dolor sit amet, consectetur adipiscing elit
Chaines de caractères correspondant aux expressions régulières suivantes :
Symboles spéciaux
| Chaines de caractères
___
___
___
___
___
___
___
___
___
___
___
___