ANALIZA PARAMETRÓW SYGNAŁU MOWY W KONTEKŚCIE ICH PRZYDATNOŚCI W AUTOMATYCZNEJ OCENIE JAKOŚCI EKSPRESJI ŚPIEWU
Abstrakt
Praca dotyczy podejścia do parametryzacji w przypadku klasyfikacji emocji w śpiewie oraz porównania z klasyfikacją emocji w mowie. Do tego celu wykorzystano bazę mowy i śpiewu nacechowanego emocjonalnie RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song), zawierającą nagrania profesjonalnych aktorów prezentujących sześć różnych emocji. Następnie obliczono współczynniki mel-cepstralne (MFCC) oraz wybrane deskryptory niskopoziomowe MPEG 7. W celu selekcji cech, posiadających najlepsze wyniki rankingowe, wykorzystano las drzew. Następnie dokonano klasyfikacji emocji z za pomocą maszyny wektorów nośnych (SVM, Support Vector Machine). Stwierdzono, że parametryzacja skuteczna dla mowy nie jest skuteczna dla śpiewu. Wyznaczono podstawowe parametry, które zgodnie z otrzymanymi wynikami pozwalają na znaczną redukcję wymiarowości wektorów cech, jednocześnie podnosząc skuteczność klasyfikacji.
Cytowania
-
0
CrossRef
-
0
Web of Science
-
0
Scopus
Autorzy (2)
Cytuj jako
Pełna treść
- Wersja publikacji
- Accepted albo Published Version
- Licencja
- otwiera się w nowej karcie
Słowa kluczowe
Informacje szczegółowe
- Kategoria:
- Publikacja w czasopiśmie
- Typ:
- artykuły w czasopismach
- Opublikowano w:
-
Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej
strony 61 - 64,
ISSN: 1425-5766 - Język:
- polski
- Rok wydania:
- 2019
- Opis bibliograficzny:
- Zaporowski S., Kostek B.: ANALIZA PARAMETRÓW SYGNAŁU MOWY W KONTEKŚCIE ICH PRZYDATNOŚCI W AUTOMATYCZNEJ OCENIE JAKOŚCI EKSPRESJI ŚPIEWU// Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej -,iss. 68 (2019), s.61-64
- DOI:
- Cyfrowy identyfikator dokumentu elektronicznego (otwiera się w nowej karcie) 10.32016/1.68.13
- Bibliografia: test
-
- D. Bertero and P. Fung: A first look into a Convolutional Neural Network for speech emotion detection, in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017, 5115-5119. otwiera się w nowej karcie
- L. Kerkeni, Y. Serrestou, K. Raoof, C. Cléder, M. Mahjoub, and M. Mbarki: Automatic Speech Emotion Recognition Using Machine Learning, 2019, p. https://www.intechopen.com/online-first/automatic. otwiera się w nowej karcie
- K. R. Scherer, J. Sundberg, L. Tamarit, and G. L. Salomão: Comparing the acoustic expression of emotion in the speaking and the singing voice, Comput. Speech Lang., vol. 29, no. 1, 218-235, 2015. otwiera się w nowej karcie
- N. Cibau, E. Albornoz, and H. Rufiner, Speech emotion recognition using a deep autoencoder. 2013.
- M. C. Sezgin, B. Gunsel, and G. K. Kurt: Perceptual audio features for emotion detection, EURASIP J. Audio, Speech, Music Process., vol. 2012, no. 1, p. 16, 2012. otwiera się w nowej karcie
- S. S. Poorna, C. Y. Jeevitha, S. J. Nair, S. Santhosh, and G. J. Nair: Emotion recognition using multi- parameter speech feature classification, in 2015 International Conference on Computers, Communications, and Systems (ICCCS), 2015, 217- 222. otwiera się w nowej karcie
- P. Zwan: Expert system for automatic classification and quality assessment of singing voices, Audio Eng. Soc. - 121st Conv. Pap. 2006, vol. 1, 446-454, Jan. 2006.
- N. Amir, O. Michaeli, and O. Amir: Acoustic and perceptual assessment of vibrato quality of singing students, BIOMED SIGNAL Process Control, vol. 1, 144-150, Apr. 2006. otwiera się w nowej karcie
- E. Półrolniczak and M. Łazoryszczak: Quality assessment of intonation of choir singers using F0 and trend lines for singing sequence, Metod. Inform. Stosow., vol. no. 4, 259-268, 2011. otwiera się w nowej karcie
- S. R. Livingstone and F. A. Russo, The ryerson audio- visual database of emotional speech and song (ravdess): A dynamic, multimodal set of facial and vocal expressions in north American english, vol. 13, no. 5. 2018. otwiera się w nowej karcie
- B. McFee et al.: librosa/librosa: 2019. otwiera się w nowej karcie
- S. Zaporowski and A. Czyżewski: Selection of Features for Multimodal Vocalic Segments Classification BT - Multimedia and Network Information Systems, 2019, 490-500. otwiera się w nowej karcie
- P. Geurts, D. Ernst, and L. Wehenkel: Extremely randomized trees, Mach. Learn., vol. 63, no. 1, 3-42, 2006. otwiera się w nowej karcie
- G. Louppe, L. Wehenkel, A. Sutera, and P. Geurts: Understanding variable importances in forests of randomized trees, Advances in Neural Information Processing Systems 26 (C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani, and K. Q. Weinberger, Eds.) Curran Associates, Inc., 2013, 431-439.
- V. Svetnik, A. Liaw, C. Tong, J. C. Culberson, R. P. Sheridan, and B. P. Feuston: Random Forest: A Classification and Regression Tool for Compound Classification and QSAR Modeling, J. Chem. Inf. Comput. Sci., vol. 43, no. 6, 1947-1958, Nov. 2003. otwiera się w nowej karcie
- F. Pedregosa et al.: Scikit-learn: Machine Learning in {P}ython, J. Mach. Learn. Res., vol. 12, 2825-2830, 2011. otwiera się w nowej karcie
- Weryfikacja:
- Politechnika Gdańska
wyświetlono 161 razy