Want to make creations as awesome as this one?

Transcript

Traitement des Données Langagières

COMMENCER

AMBLARD-VIROLLAUD Maxime

Sommaire

Expressions régulières

Python

Généralités

Sommaire

+ wikipedia

Généralités

Introduction

Le TAL joue un rôle clé dans le développement de technologies modernes.

Qu'est ce que le traitement automatique des langues ?

Quelle est son utilité?

Langues

.

.

Langage non naturelle

Langue pour définir des programmes (outils concrets) et penser des algorithmes (outils abstraits de modélisation).

.

Langue naturelle

Langue utilisée par des humains dans des processus de communication.

Généralités

Traitement Automatique des Langues

Traitement Automatique des Langues

Calculs, manipulations numériques réalisés sur des données exprimées en langue naturelle.

Utilités du TAL

Généralités

Comprendre l'intelligence par la commmunication

Langage comme trace de la pensée, du raisonnement et du sens commun.

Faciliter la communication Humain/Machine et Humain/Humain

Accès à l’information, médiation de la communication.

IA et représentation de connaissances

.

.

.

Sources du TAL

Les données langagières sont partout.

Approches

.

.

Informatique linguistique ‘’Computational Linguistics’’

Science, modèles explicatifs, validation des données (partir théorique)

.

.

TAL ‘’Natural Language Processing’’

Tâches à résoudre, ingénierie, approche expérimentale par évaluation (partie pratique)

Généralités

Paradigmes

Stochastique

Modélisation fondée sur les données/ modèles statistiques pour repérer des occurrences/corrélations (machine learning, réseaux de neurones).

Symbolique

Modélisation fondée sur les symboles pour définir des règles (grammaires lexiques systèmes à base de règles).

Approches

.

.

Informatique linguistique ‘’Computational Linguistics’’

Science, modèles explicatifs, validation des données (partir théorique)

.

.

TAL ‘’Natural Language Processing’’

Tâches à résoudre, ingénierie, approche expérimentale par évaluation (partie pratique)

Généralités

Paradigmes

Stochastique

Modélisation fondée sur les données/ modèles statistiques pour repérer des occurrences/corrélations (machine learning, réseaux de neurones).

Symbolique

Modélisation fondée sur les symboles pour définir des règles (grammaires lexiques systèmes à base de règles).

Introduction

On va en avoir besoin quand on va chercher des dates dans un document par exemple. On va donc généraliser les formulations de dates.

+ wikipedia

Qu'est ce qu'une expression régulière?

Expressions Régulières

Comment on va exprimer une propriété la généraliser et la trouver ?

Opérations sur les langages

Expressions Régulières

Exemple

Union

Description

Concaténation

Description

.

Clôture positive

Description

Clôture de Kleene

Description

L+

L*

Exemple : L1 = {a, b} et L2 = {c, d} Union : L1 ∪ L2 = L2 ∪ L1 = {a, b, c, d} Concaténation : L1.L2 = {ac, ac, bc, bd}L2.L1 = {ca, cb, da, db} Clôture de Kleene : L1* = {a, b, aa, bb, ab, ba, …} Clôture positive : L2+ ={c, d, cc, dd, cd, dc, …}

Symboles

Expressions Régulières

Wildcard

Représenter n’importe quel caractère

.

Ensemble de caractères

Spécifier une classe de caractères

[ ]

Clôture positive

indique qu’un pattern ou un autre apparait à un endroit particulier

Complémentaire

Inverser le sens de la classe : inclu devient exclu

|

^

Rassemblement d'ER

Regrouper plusieurs caractères en une petite ER qui fait partie d’une ER plus large

( )

^

Symboles spécifiques

Expressions Régulières

Caractères spéciaux sur la position

Début de la chaîne

Spécifier la position de début de chaîne

^

Fin de la chaîne

Spécifier la position de fin de chaîne

$

Recherche gourmande

Gourmands : + , * , ?

Cherchent à couvrir le plus possible

G

Non-Gourmands : +? , *? , ??

NG

Répétition : 0 - n

Spécifier des occurrences 0 à n fois d’un caractère

*

Répétition : 0 - 1

Spécifier des occurrences de 0 à 1 fois d’un caractère

Répétition : 1 - n

Spécifier des occurrences 1 à n fois d’un caractère

?

+

Caractères spéciaux sur la répétition

Cherchent à couvrir le moins possible

*

Répétition numérique

Spécifier en compte précis des occurrences{borne minimum , borne maximum}

{ }

Séquences Backslash

Expressions Régulières

Digit

[ ]

Word

Not digit

|

^

( )

^

[ ]

|

^

( )

^

[ ]

|

^

( )

^

\d

|

\D

Tabulation

[ ]

Space

New line

Nouvelle ligne

|

^

Not space

( )

^

[ ]

|

^

( )

^

[ ]

|

^

( )

^

\t

|

\n

( )

\s

( )

\w

\S

Tout sauf les symboles d'espace

Symboles d'espace

Not Word

Tout sauf les symboles de mot

Caractères alphanumériques et underscore

Tous sauf les chiffres

Les chiffres de 0 à 9

Symboles de tabulation

Home

*

Session 01 : Notions

Session 02 : Opérations

Session 03 : Symboles spéciaux

Exercices sur différents points

Exercices

Exercices de TD

Notions

Session 01

introduction

goals

Lorem ipsum dolor sit amet consectetur adipiscing elit erat dictum interdum, vestibulum litora proin imperdiet integer habitasse semper id vulputate, inceptos senectus urna mi odio nec penatibus mus cubilia. Felis pretium cras eros cubilia fermentum varius sociis condimentum suscipit cursus, auctor molestie pellentesque suspendisse feugiat ridiculus vivamus sapien pulvinar at quisque

Erat sodales orci risus rutrum taciti suspendisse augue vivamus mauris, nec elementum tellus bibendum auctor massa pulvinar pharetra dis fermentum, nisi id viverra aliquam sed egestas ultricies dictumst. Fames ultricies per dapibus elementum condimentum ad nam mus, faucibus magnis maecenas habitant integer nisl mi mollis facilisi.

contents

Exercices / 01

Write a title here

Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat. Ut wisi enim ad minim veniam, quis nostrud exerci tation ullamcorper suscipit lobortis nisl ut aliquip ex ea commodo consequat.

Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse. Usu ea mundi tincidunt, omnium virtute aliquando. Expetenda tincidunt in sed, ex partem placerat sea, porro commodo ex eam. His putant aeterno interesset at. Usu ea mundi tincidunt, omnium virtute aliquando ius ex.

"Malesuada libero class per ut posuere odio parturient aenean vivamus congue, habitant inceptos enim"

Exercices / 01

Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh

Write a title here

Exercices / 01

Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa.

Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa.

Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa.

Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa.

Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa.

Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa.

Exercices / 02

Opérations sur les langues

Session 02

Clôture de Kleene

Concaténation

Exercices / 03

Symboles spéciaux

Session 03

Chaines de caractères

Contraintes

Consignes

Répétitions

Symboles spéciaux

"Nullam rutrum duis ac primis velit faucibus malesuada, consequat elementum nostra curabitur potenti"

...

03

Exercices / 03

Chaines de caractères correspondant aux expressions régulières suivantes :

Malesuada venenatis cum nisl diam nam augue vestibulum sagittis sem, eleifend feugiat nisi ante nunc dui dictumst torquent mattis pharetra, dapibus hac faucibus senectus est ad sociis.

Write a title here

Malesuada venenatis cum nisl diam nam augue vestibulum sagittis sem, eleifend feugiat nisi ante nunc dui dictumst torquent mattis pharetra, dapibus hac faucibus senectus est ad sociis.Laculis felis class habitant litora himenaeos mi a dictum bibendum urna, gravida potenti fusce nullam nisl at nam hac augue penatibus, aliquam feugiat sociis euismod consequat lacinia cum sapien rutrum.Laculis fusce hendrerit eget proin rhoncus platea quam, mus dapibus lacinia ornare cubilia pharetra velit vitae, aptent molestie volutpat a sem erat. Et interdum cras dis leo facilisi tempor maecenas.

Donec tellus senectus suspendisse mollis dui orci bibendum aliquet quam quis, natoque auctor rhoncus neque fermentum habitant sapien suscipit nunc, etiam blandit laoreet interdum tincidunt ut magna massa id.Nec sodales viverra aenean integer feugiat lacus euismod, habitant accumsan ligula per ante facilisis nisi malesuada, proin erat placerat in magnis donec.Aptent pulvinar blandit enim tincidunt nam id ligula, himenaeos dapibus torquent metus hac fermentum laoreet.

Elementum orci aenean aptent pulvinar vitae faucibus turpis nullam curae accumsan, lacinia aliquam porta nec non lobortis morbi per vel, maecenas primis dis duis vivamus erat.

Fermentum mi etiam turpis molestie, hendrerit primis ac scelerisque montes rhoncus sodales blandit ut sociosqu suspendisse curae, enim euismod mollis elementum laoreet litora lacus pulvinar risus dui platea. Quam luctus rutrum eleifend ornare egestas dictumst velit nam sollicitudin per vel laoreet, vulputate mauris lacinia commodo diam dignissim nisi tempor quis integer fermentum lobortis imperdiet. Sodales placerat urna nullam himenaeos tortor montes varius molestie neque dictum quam.

Learning sessions / 03

Lorem 1

Duis autem vel eum iriure dolor in hendrerit

Lorem 2

Ullamcorper suscipit lobortis nisl ut aliquip

Duis autem vel eum iriure dolor in hendrerit

Lorem 3

Ullamcorper suscipit lobortis nisl ut aliquip

key ideas

Lorem 4

reflect

01

example

02

03

Lorem ipsum dolor sit amet consectetur

04

Malesuada libero class per ut posuere odio velit parturient aenean vivamus congue, habitant inceptos enim dapibus primis et risus lacus quis.

Learning sessions / 03

Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna.

+ info

Facilisis maecenas neque urna sem senectus metus ridiculus sed ad, non arcu laoreet feugiat lacinia iaculis bibendum netus, aenean augue torquent phasellus nullam eleifend fusce vel. Litora tellus sollicitudin sociosqu vitae.

Learning sessions / 03

Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa. Lectus ac velit netus pulvinar integer tristique ullamcorper tempor id cum diam.

Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa. Lectus ac velit netus pulvinar integer tristique ullamcorper tempor id cum diam.

Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa. Lectus ac velit netus pulvinar integer tristique ullamcorper tempor id cum diam.

Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa. Lectus ac velit netus pulvinar integer tristique ullamcorper tempor id cum diam.

Interdum mattis pharetra himenaeos faucibus vulputate pretium quam etiam blandit, ornare consequat fringilla morbi suspendisse in massa. Lectus ac velit netus pulvinar integer tristique ullamcorper tempor id cum diam.

Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna.

key ideas

Mollis bibendum pretium donec dapibus tristique ad laoreet aliquam id curae morbi viverra nostra.

reflect

example

Lorem ipsum dolor sit amet consectetur adipiscing elit lacus elementum aenean nisl class,malesuada integer tempus ante donec placerat aptent facilisi inceptos libero condimentum.

Facilisis maecenas neque urna sem senectus metus ridiculus sed ad, non arcu laoreet feugiat lacinia iaculis bibendum netus.

Aenean augue torquent phasellus nullam eleifend fusce vel. Litora tellus sollicitudin sociosqu vitae.

Lorem ipsum dolor sit amet

Lorem ipsum dolor sit amet

Learning sessions / 03

Cubilia feugiat dignissim mauris curabitur scelerisque conubia turpis ullamcorper nullam posuere platea, metus urna vivamus gravida nec condimentum montes etiam imperdiet natoque est, aliquet mollis per euismod maecenas dictum blandit placerat magna himenaeos.

Cubilia feugiat dignissim mauris curabitur scelerisque conubia turpis ullamcorper nullam posuere platea, metus urna vivamus gravida nec condimentum montes etiam imperdiet natoque est, aliquet mollis per euismod maecenas dictum blandit placerat magna himenaeos.

Conclusion

__

___

__

+ info

___

__

___

3

__

4

___

1

1. Lorem ipsum dolor sit amet consectetur adipiscing elit ante taciti, cursus egestas auctor nisi at porttitor orci euismod est ullap.2. Cras rhoncus condimentum conubia eros maecenas nec ac facilisis malesuada cum montes purus feugiat.

2

Idées secondaires

3. Sapien maecenas ad feugiat accumsan dictumst enim dignissim curae litora, scelerisque per semper.4. Massa mattis tempor bibendum netus felis augue nec, vehicula suscipit non dignissim neque nascetur at, parturient elementum condimentum.

5. Cubilia feugiat dignissim mauris curabitur scelerisque conubia turpis ullamcorper nullam posuere platea

Idées principales

Summary

  • Lorem ipsum dolor sit amet.
  • Consectetur adipiscing elit.
  • Sed do eiusmod tempor incididunt ut.
  • Labore et dolore magna aliqua.

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.

Lorem ipsum dolor

Lorem ipsum dolor sit amet, consectetur adipiscing elit

Déterminer les expressions régulières correspondant aux énoncés suivants

Symboles spéciaux

| Contraintes

Toute ligne dont le premier mot commence par ‘’v’’ et se poursuit par au moins 4 caractères alphabétiques en minuscules.

^v[a-z]{4, }

Toute ligne commençant par au moins une majuscule poursuivi par entre 2 et 7 minuscules.

___

  • Lorem ipsum dolor sit amet.
  • Consectetur adipiscing elit.
  • Sed do eiusmod tempor incididunt ut.
  • Labore et dolore magna aliqua.

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.

Lorem ipsum dolor

Lorem ipsum dolor sit amet, consectetur adipiscing elit

L.M des langues suivantes

Opérations sur les langues

| Concaténation

L = {a, ab, b²} et M = {ε, b, a²}

L = ensemble vide et M = {a, ba, bb}

L.M = {a, ab, a3, ab, ab², aba², b², b3, b²a²}

L.M = ensemble vide

L = {ε} et M = {a, ba, bb}

L.M = M

L = {aa, ab, ba} et M = {a, b}* ~ {epsilon, a, b, aa, ab, bb, ba, aaa, bbb…}

L.M = {aa, aaa, aab, aaab, ab, aba, abb, abaa, abab, ba

Ecrire toutes les expressions régulières pour les situations suivantes

Symboles spéciaux

| Consignes

Toute année comprise entre 2000 et 2024

Un prénom suivi d'un nom de famille

___

___

Une date au format JJ/MM/AAAA

Tous les mots commençant par la lettre m (maj ou min) de 5 caractères maximums

___

Une marque de ponctuation finale dans un texte (ex : ‘’Je marche. Je cours.’’ Il faut le dernier point et pas le premier)

___

___

  • Lorem ipsum dolor sit amet.
  • Consectetur adipiscing elit.
  • Sed do eiusmod tempor incididunt ut.
  • Labore et dolore magna aliqua.

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.

Lorem ipsum dolor

Lorem ipsum dolor sit amet, consectetur adipiscing elit

  • Lorem ipsum dolor sit amet.
  • Consectetur adipiscing elit.
  • Sed do eiusmod tempor incididunt ut.
  • Labore et dolore magna aliqua.

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.

Lorem ipsum dolor

Lorem ipsum dolor sit amet, consectetur adipiscing elit

Chaines de caractères correspondant aux expressions régulières suivantes :

Opérations sur les langues

| Clôture de Kleene

L = {1}

L = {1, 2}

L* = { ε, 1, 11, 111…}

L* = {ε, 1, 2, 11, 12, 21, 22, 111, …}

L = { 1, 2, 3}

L* = {ε, 1, 2, 3, 11, 12, 13, 21, 22, 23, 31, 32, 33, 111, 122, 123, 222, 213, 231, … }

  • Lorem ipsum dolor sit amet.
  • Consectetur adipiscing elit.
  • Sed do eiusmod tempor incididunt ut.
  • Labore et dolore magna aliqua.

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.

Lorem ipsum dolor

Lorem ipsum dolor sit amet, consectetur adipiscing elit

Chaines de caractères correspondant aux expressions régulières suivantes :

Symboles spéciaux

| Chaines de caractères

[abc]

[abc] ?

« a », « b », « c »

ε, « a », « b », « c »

\d{1, 2}

\d{1, 2} | \w

0, 1, 2, 3, … , 98, 99

0, 1, 2, 3, … , 98, 99, a, b, … , z, A, B, … , Z

\.\ ?

\. ?

« . ? »

[sS]acha[-_]du[-_] ?[1-9]{2}

ε , « . »

sSacha -_ du -_ et répéter 2 fois le dernier encadré

  • Lorem ipsum dolor sit amet.
  • Consectetur adipiscing elit.
  • Sed do eiusmod tempor incididunt ut.
  • Labore et dolore magna aliqua.

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.

Lorem ipsum dolor

Lorem ipsum dolor sit amet, consectetur adipiscing elit

  • Lorem ipsum dolor sit amet.
  • Consectetur adipiscing elit.
  • Sed do eiusmod tempor incididunt ut.
  • Labore et dolore magna aliqua.

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.

Lorem ipsum dolor

Lorem ipsum dolor sit amet, consectetur adipiscing elit

  • Lorem ipsum dolor sit amet.
  • Consectetur adipiscing elit.
  • Sed do eiusmod tempor incididunt ut.
  • Labore et dolore magna aliqua.

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.

Lorem ipsum dolor

Lorem ipsum dolor sit amet, consectetur adipiscing elit

  • Lorem ipsum dolor sit amet.
  • Consectetur adipiscing elit.
  • Sed do eiusmod tempor incididunt ut.
  • Labore et dolore magna aliqua.

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.

Lorem ipsum dolor

Lorem ipsum dolor sit amet, consectetur adipiscing elit

Déterminer tous les mots de longueur maximale de 4 qui appartiennent au langage dénoté par chacune des expressions régulières suivantes

Symboles spéciaux

| Répétitions

(b | ba)

(b | ba)*

___

___

ab*|b

(a | b)*abb

___

___

(x | ε)*dd*

(xd | ε)*d*

___

___

a*(b | c)d*

___

  • Lorem ipsum dolor sit amet.
  • Consectetur adipiscing elit.
  • Sed do eiusmod tempor incididunt ut.
  • Labore et dolore magna aliqua.

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.

Lorem ipsum dolor

Lorem ipsum dolor sit amet, consectetur adipiscing elit

  • Lorem ipsum dolor sit amet.
  • Consectetur adipiscing elit.
  • Sed do eiusmod tempor incididunt ut.
  • Labore et dolore magna aliqua.

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod.

Lorem ipsum dolor

Lorem ipsum dolor sit amet, consectetur adipiscing elit

Chaines de caractères correspondant aux expressions régulières suivantes :

Symboles spéciaux

| Chaines de caractères

___

___

___

___

___

___

___

___

___

___

___

___