Sound and speech_Application

Start

Nhóm 10:

Trương Văn Khải - 21520274
Hoàng Tiến Đạt - 21520696

VIETNAMESE TRADITIONAL MUSIC CLASSIFICATION

Phụ Lục

03. Hạn chế và các điểm cần cải tiến trong đồ án

02. Tóm tắt các kết qủa đạt được

01. Demo chương trình / ứng dụng

Index

Demo chương trình / ứng dụng

Đặt vấn đề?

Sau khi đã train cả 3 model CNN trên bộ dataset Vietnam Traditional Music (5 genres) và thu được file pre-trained của cả ba mô hình, thì bây giờ chúng tôi muốn xây 1 web-app demo để người dùng tiếp cận dễ dàng hơn khi muốn xem thử thể loại của bài hát truyền thống đó thuộc vào thể loại nào
Khi đã có 1 file âm thanh cần dùng để phân loại bài hát, thì người dùng chỉ cần tương tác trực tiếp với web app demo để nhận được kết quả mong muốn, thay vì phải chạy những dòng code khô khan.

Demo Ứng Dụng

Tên đề tài: VIETNAMESE TRADITIONAL MUSIC CLASSIFICATION

Streamlit workflow

Flask workflow

Có rất nhiều framework có thể được sử dụng để deloy model lên web như: Streamlit, Flask, Django, ... Tuy nhiên, ta có thể nhìn sơ qua workflows của Flask và Streamlit:

Demo Ứng Dụng

Streamlit là một open-source Python lib, nó giúp ta dễ dàng tạo một web app cho Machine Learning. Ưu điểm của Streamlit là Build & Deploy nhanh.

Vì vậy, với phạm vi nghiên cứu và quy mô dự án không quá lớn. Chúng tôi quyết định sử dụng framework Streamlit để code demo web app cho tác vụ: Phân loại âm nhạc truyền thống Việt Nam.

Demo Ứng Dụng

https://jramcast.github.io/mgr-app/?v=4Eo84jDIMKI - Phân loại âm nhạc với link Youtube

Demo Ứng Dụng - Phân tích khảo sát

https://classify.k8s.pouretadev.com/ - Phân loại thể loại âm nhạc bằng upload file

Demo Ứng Dụng - Phân tích khảo sát

UseCase

Demo Ứng Dụng - Rút ra yêu cầu người dùng

Pipeline

Demo Ứng Dụng - Pipeline

Ưu điểm của kiến workflow như hình bên:

Dễ dàng tiếp cận
Trình tự xử lý rõ ràng
Không phụ thuộc môi trường, nền tảng xây dựng
Chức năng riêng biệt, dễ dàng quản lý, cải tiến

Workflow các bước xử của Web app demo có thể được thể hiện rõ qua Activity Diagrame như hình bên

Demo Ứng Dụng

Demo Ứng Dụng - Thiết kế giao diện

Demo Ứng Dụng

Tóm tắt kết quả đạt được

Trong quá trình tiến hành thực nghiệm, mô hình 3 tốt hơn mô hình 2 và mô hình 1 ở hầu hết các số liệu đánh giá. Accuracy, precison, recall đạt được trên tập test là 0.91, 0.91, 0.91.

Ở bài báo cáo này, chúng tôi đã tìm hiểu và trình bày một quy trình cụ thể cho bài toán Phân loại âm thanh và kết quả của nhiều mô hình CNN dựa trên bài toán này. Chúng tôi đã trình bày phương pháp cho Vietnamese Traditional Classification (5 thể loại) và đạt được thành tích tốt về độ chính xác (đặc biệt là với kiến trúc PROD - combined model).

02. Kết quả đạt được

Để kiểm chứng kết qua dự đoán của Combined Model, tụi em tiến hành xây dựng 1 bô dữ liệu nhỏ gồm 50 samples (10 samples mỗi thể loại) và sau đó tiến hành kiểm tra trực tiếp bằng việc tương tác với web demo.

02. Kết quả đạt được

Theo như quan sát kết quả dự đoán: 44/50

Cải lương: 10/10
Ca trù: 10/10
Châu văn: 7/10

2 bài bị dự đoán thành: Ca trù
1 bài bị dự đoán thành: Chèo

Hát xẩm: 7/10

Có 3 bài bị dự đoán thành: Ca trù

Chèo: 10/10

Kết quả thu được sau khi thực nghiệm trên 50 audio tự thu thập như sau:

02. Kết quả đạt được

Về bản thân chúng tôi, chúng tôi đã được tìm hiểu và học được những điều như sau:

Pipeline cho nhiệm vụ Audio Classification
Dự đoán dựa trên kết hợp nhiều vector xác suất đầu ra của cả 3 mô hình CNN để gia tăng độ chính xác của kết quả dựa đoán
Kinh nghiệm thiết kế 1 Web Demo đơn giản để demo model và tiến gần hơn với các ứng dụng ML thực tế.

Từ kết quả 44/50 từ dữ liệu chúng tôi tự thu thâp: Chúng tôi nhận thấy model của chúng tôi dự đoán với tỷ lệ chính xác khá cao đối với bất kỳ bài hát nào thuộc 5 thể loại mà model đã được học

Demo Web của chúng tôi được thiết kế với giao diện khá dễ nhìn, dễ thao tác và sử dụng. Tốc độ dự đoán cũng khá nhanh và có thể dự đoán một lúc không giới hạn về số lượng bài hát. Đồng thời Web demo cũng cho người dùng nghe thử bài nhạc mà họ upload lên.

02. Kết quả đạt được

Hạn chế và các điểm cần cải tiến

1. Mô hình chưa hoàn thiện do chưa thể phân biệt được các đặc điểm phức tạp để phân biệt các thể loại nhạc (chầu văn và hát xẩm bị nhầm lẫn với ca trù) 2. Dữ liệu dùng để huấn luyện bị hạn chế do tính chất của các loại hình âm nhạc cổ truyền không thông dụng. Do đó, việc phát triển mô hình sẽ gặp khó khăn (nếu áp dụng các mạng neuron sâu hơn sẽ yêu cầu lượng dữ liệu lớn hơn để huấn luyện) 3. Các thể loại nhạc có sự tương đồng một phần trong việc sử dụng nhạc cụ, giai điệu (phần lớn với các thể loại có xuất xứ từ miền bắc).4. Ngoài các yếu tố về thanh nhạc, các loại hình nghệ thuật còn có sự khác biệt về văn hoá (nội dung bài hát) và cách thức biểu diễn (ví dụ: hát xẩm thường được biểu diễn ngoài trời như các sự kiện cộng đồng, ca trù là thể loại nhạc truyền thống của đô thị thường được biểu diễn ở những khán phòng, hội quán).

3.1 Hạn chế và các điểm cần cải thiện

1. Mở rộng dataset .2. Có thể sử dụng CNN pretrained deep learning model để fine-tune cho dataset của đồ án .3. Áp dụng speech-to-text model để phân tích nội dung bài hát, từ đó có thể cho ra hiệu suất tốt hơn.4. Mở rộng thêm về số lượng thể loại.

3.2 Phương hướng cải tiến

Thanks for listening!

cOde

Sound and speech_Application

More creations to inspire you

EXPLLORING SPACE

FOOD 1

COUNTRIES LESSON 5 GROUP 7/8

BLENDED PEDAGOGUE

WORLD WILDLIFE DAY

FOOD AND NUTRITION

2021 TRENDING COLORS

Transcript