Want to create interactive content? It’s easy in Genially!

Get started free

Deep Learning report

LE GOUEZ Thomas

Created on April 7, 2022

Start designing with a free template

Discover more than 1500 professional designs like these:

Transcript

2022

Deep Learning

Paris Ynov Campus Mastère 2 Data Engineer/Data Science

Commencer

BOUDCHICH Oumaima LE GOUEZ Thomas SNOUSSI Iliane SMAILI Yasmine

Introduction

index

Données

Pré traitement

Modélisation

Métriques

Visualisation

01

Introduction

01

Introduction

Contexte

Déterminer l'auteur·rice d'une phrase sur une sélection d'écrivains·nes donnés

  • Trouver des auteurs·rices libres de droits
  • Constituer une base de données
  • Entrainer diffèrents types de modèles
  • Sélectionner la modélisation adéquate

DEEP LEARNING 2022

02

Données

02

DONNEES

Recherche des données

Wikisource est un projet multilingue de bibliothèque numérique, libre d'accès, sans publicité, librement distribuable.

  • Wikisource édite une large variété de textes : littéraires (romans, poésies, contes…), d'histoire , de philosophie...
  • Les textes classés par genre, époques, auteurs
  • Choix de 5 auteurs
  • 2 livres par auteur pour le train et 1 livre pour le test
  • Fichier au format txt

DEEP LEARNING 2022

02

DONNEES

Traitement des données

Concaténation des données

Label encoding

Import des fichiers

Concaténation de l'ensemble des dataframe

Attribution d'un nombre à un auteur

Importation et tri de l'ensemble des textes

Création d'indicateurs

Train / Test

Liste

Attribution d'un label train ou test pour chaque ligne

Nombre de mot, Nombre de mot moyen par phrase..

Pour chaque phrase d'un texte on créer une liste avec les ponctuation comme séparateur

DEEP LEARNING 2022

03

Pré traitement

03

PRE TRAITREMENT

Word embedding - Word2Vec

CBOW

CBOW reçoit en entrée le contexte d’un mot. Ce sont les termes qui l’entourent dans une phrase, et essaye de prédire le mot en question.

Word2Vec

Représentations vectorielles des mots composant un texte

Paramétrage Word2Vec

Les mots qui partagent des contextes similaires sont représentés par des vecteurs numériques proches

Skip-gram

Skip-gram prend en entrée un mot et essaye de prédire son contexte

DEEP LEARNING 2022

04

Modélisation

04

Modélisation

CNN & MLP

MLP

CNN

Modèles

Modèles

avec peu de couches de convolution et dense dont 1 avec drop out

avec peu de couches dense 1 drop out

avec plusieurs couches de convolution et dense 1 avec plusieurs drop out / 1 sans drop out

avec plusieurs couches dense dont 1 avec plusieurs drop out

Modèle mlp drop large

Modèle conv drop small

Modèle conv nodrop large

Modèle mlp no drop small

4 couches Dense / 3 Dropout

2 couches Dense

1 couche de convolution2 couches Dense/ 1 drop out

2 couches de Convolution4 couches Dense

DEEP LEARNING 2022

05

Métriques

05

Métriques

Matrice de confusion

CNN

Lorem ipsum dolor sit amet

05

Métriques

Matrice de confusion

MLP

DEEP LEARNING 2022

DEEP LEARNING 2022

05

Métriques

Accuraccy

Test - Courbe accuracy

Train - Courbe Accuraccy

Test < train avec presque0.65 pour le MLP drop large

Le train tend vers 0.85 pour le Conv no drop large

DEEP LEARNING 2022

DEEP LEARNING 2022

06

Visualisation

Lien