Want to create interactive content? It’s easy in Genially!
Deep Learning report
LE GOUEZ Thomas
Created on April 7, 2022
Start designing with a free template
Discover more than 1500 professional designs like these:
Transcript
2022
Deep Learning
Paris Ynov Campus Mastère 2 Data Engineer/Data Science
Commencer
BOUDCHICH Oumaima LE GOUEZ Thomas SNOUSSI Iliane SMAILI Yasmine
Introduction
index
Données
Pré traitement
Modélisation
Métriques
Visualisation
01
Introduction
01
Introduction
Contexte
Déterminer l'auteur·rice d'une phrase sur une sélection d'écrivains·nes donnés
- Trouver des auteurs·rices libres de droits
- Constituer une base de données
- Entrainer diffèrents types de modèles
- Sélectionner la modélisation adéquate
DEEP LEARNING 2022
02
Données
02
DONNEES
Recherche des données
Wikisource est un projet multilingue de bibliothèque numérique, libre d'accès, sans publicité, librement distribuable.
- Wikisource édite une large variété de textes : littéraires (romans, poésies, contes…), d'histoire , de philosophie...
- Les textes classés par genre, époques, auteurs
- Choix de 5 auteurs
- 2 livres par auteur pour le train et 1 livre pour le test
- Fichier au format txt
DEEP LEARNING 2022
02
DONNEES
Traitement des données
Concaténation des données
Label encoding
Import des fichiers
Concaténation de l'ensemble des dataframe
Attribution d'un nombre à un auteur
Importation et tri de l'ensemble des textes
Création d'indicateurs
Train / Test
Liste
Attribution d'un label train ou test pour chaque ligne
Nombre de mot, Nombre de mot moyen par phrase..
Pour chaque phrase d'un texte on créer une liste avec les ponctuation comme séparateur
DEEP LEARNING 2022
03
Pré traitement
03
PRE TRAITREMENT
Word embedding - Word2Vec
CBOW
CBOW reçoit en entrée le contexte d’un mot. Ce sont les termes qui l’entourent dans une phrase, et essaye de prédire le mot en question.
Word2Vec
Représentations vectorielles des mots composant un texte
Paramétrage Word2Vec
Les mots qui partagent des contextes similaires sont représentés par des vecteurs numériques proches
Skip-gram
Skip-gram prend en entrée un mot et essaye de prédire son contexte
DEEP LEARNING 2022
04
Modélisation
04
Modélisation
CNN & MLP
MLP
CNN
Modèles
Modèles
avec peu de couches de convolution et dense dont 1 avec drop out
avec peu de couches dense 1 drop out
avec plusieurs couches de convolution et dense 1 avec plusieurs drop out / 1 sans drop out
avec plusieurs couches dense dont 1 avec plusieurs drop out
Modèle mlp drop large
Modèle conv drop small
Modèle conv nodrop large
Modèle mlp no drop small
4 couches Dense / 3 Dropout
2 couches Dense
1 couche de convolution2 couches Dense/ 1 drop out
2 couches de Convolution4 couches Dense
DEEP LEARNING 2022
05
Métriques
05
Métriques
Matrice de confusion
CNN
Lorem ipsum dolor sit amet
05
Métriques
Matrice de confusion
MLP
DEEP LEARNING 2022
DEEP LEARNING 2022
05
Métriques
Accuraccy
Test - Courbe accuracy
Train - Courbe Accuraccy
Test < train avec presque0.65 pour le MLP drop large
Le train tend vers 0.85 pour le Conv no drop large
DEEP LEARNING 2022
DEEP LEARNING 2022
06
Visualisation
Lien