Want to make creations as awesome as this one?

Apresentação do Trabalho Pratico 2

More creations to inspire you

7 CONTINENTS

Horizontal infographics

A2 - ABENTEUER AUTOBAHN

Horizontal infographics

STEVE JOBS

Horizontal infographics

OSCAR WILDE

Horizontal infographics

TEN WAYS TO SAVE WATER

Horizontal infographics

NORMANDY 1944

Horizontal infographics

LIZZO

Horizontal infographics

Transcript

Fases do trabalho e seus resultados

4ªFase

Treino e Avaliação de Modelos de Aprendizagem Automática

2ªFase

Limpeza e Preprocessamento de Dados

Conclusões

3ªFase

Construção do Protocolo de Treino e Avaliação

1ªFase

Recolha e Limpeza de Dados

ConclusõesGráficas

Trabalho realizado por: Tomás Gomes e João Nuno

Resources

  • Generate experiences with your content.
  • It’s got the Wow effect. Very Wow.
  • Make sure your audience remembers the message.
  • Activate and surprise your audience.

Create a new layer with all the Genially features.

Bring it to life with an interactive window

Got an idea?

Como podemos averiguar, o resultado das métricas de avaliação dos diferentes Dataset são bastante distintas: Mean Squared Error: 0.020027839168567613Mean Absolute Error: 0.10992033226876925R2 Score: 0.07532155928514905MSE e MAE indicam que os erros de previsão do modelo são relativamente pequenos, mas não insignificantes, em relação à escala dos dados (MinMax).R² indica que o modelo tem uma capacidade muito limitada de explicar a variabilidade nos dados.

Conclusões

Ja os resultados obtidos do Dataset fornecido pelo "dataprofessor" foram significativamente melhores:Mean Squared Error: 0.007691377136035885 Mean Absolute Error: 0.06954967935026017 R2 Score: 0.7805174782375401 MSE e MAE são ambos bastante baixos, indicando que os erros de previsão do modelo são pequenos em relação à escala dos dados (0 a 1).R² é alto, indicando que o modelo explica uma grande parte da variabilidade nos dados.No geral, estas métricas indicam que o modelo está bem implementado, com previsões precisas e uma boa capacidade de explicar a variabilidade nos dados. Assim podemos averiguar que por melhor que esteja implementado um modelo, se os dados não possibilitarem uma boa previsão nunca se conseguirá tirar o melhor proveito do mesmo.

  • Mean Squared Error: 0.020027839168567613
  • Mean Absolute Error: 0.10992033226876925
  • R2 Score: 0.07532155928514905
<- Mapa de Correlações de Melbourne

Após percorrer o codigo implementado obtiveram-se resultados medíocres, tanto na dispersão grafica como o resultado das métricas de avaliação do modelo. Se um dos resultados fosse bom e o outro não, poderia indicar alguma erro na implementação.

Treino e Avaliação de Modelos de Aprendizagem Automática

Como input deste projeto reutilizamos os datasets previamente empregues no primeiro trabalho. Os Datasets possuíam características iguais, porém tinham nomes diferentes, tendo sido necessário codificar e recorrer à ferramenta Notepad++ para equiparar as variáveis. Relativamente a codificação apenas foi necessário modificar o valor da moeda de Dolar Australiano para Euro e preencher valores nulos, nas características essenciais para o modelo de aprendizagem automática.

Recolha e Limpeza de Dados

  • Generate experiences with your content.
  • It’s got the Wow effect. Very Wow.
  • Make sure your audience remembers the message.
  • Activate and surprise your audience.

Create a new layer with all the Genially features.

Bring it to life with an interactive window

Got an idea?

  • Generate experiences with your content.
  • It’s got the Wow effect. Very Wow.
  • Make sure your audience remembers the message.
  • Activate and surprise your audience.

Create a new layer with all the Genially features.

Bring it to life with an interactive window

Got an idea?

Para averiguar se o modelo estava mal implementado decidimos experimentar outros dataset, tendo obtido resultados melhores com dataset mais pequenos.

Grafico de Melbourne e Perth

Como Dataset alternativo aproveitamos um ficheiro csv de um utilizador do GitHub "dataprofessor", com um numero consideravelmente pequeno de dados

Grafico com outro dataset

VS

  • Generate experiences with your content.
  • It’s got the Wow effect. Very Wow.
  • Make sure your audience remembers the message.
  • Activate and surprise your audience.

Create a new layer with all the Genially features.

Bring it to life with an interactive window

Got an idea?

Nesta fase dividimos os dois datasets em treino e teste, isto é, Melbourne ficou para treino e Perth para teste. A função de custo escolhida foi GridSearchCV e as métricas de avaliação utilizadas foram Coeficiente de Determinação(R2), Erro Absoluto Médio(MAE) e Erro Quadrático Médio(MSE). A implementação de ambos foi acessível não manifestando erros. Tendo ainda assim, dentro da função de custo, iplementado mapas de calor para percebermos a correlação entre as variaveis.

Construção do Protocolo de Treino e Avaliação

  • Generate experiences with your content.
  • It’s got the Wow effect. Very Wow.
  • Make sure your audience remembers the message.
  • Activate and surprise your audience.

Create a new layer with all the Genially features.

Bring it to life with an interactive window

Got an idea?

Nesta fase, para além de recorrermos aos procedimentos da fase anterior, foi necessária a remoção de outliers e a normalização dos dados tendo lidado com ambos através do metodo IQR e MinMaxScaler, respetivamente. Conseguindo assim obter os resultados pretendidos. Alguns exemplos da remoção de outliers e normalização:

Limpeza e Preprocessamento de Dados