ANALIZA PARAMETRÓW SYGNAŁU MOWY W KONTEKŚCIE ICH PRZYDATNOŚCI W AUTOMATYCZNEJ OCENIE JAKOŚCI EKSPRESJI ŚPIEWU
Abstract
Praca dotyczy podejścia do parametryzacji w przypadku klasyfikacji emocji w śpiewie oraz porównania z klasyfikacją emocji w mowie. Do tego celu wykorzystano bazę mowy i śpiewu nacechowanego emocjonalnie RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song), zawierającą nagrania profesjonalnych aktorów prezentujących sześć różnych emocji. Następnie obliczono współczynniki mel-cepstralne (MFCC) oraz wybrane deskryptory niskopoziomowe MPEG 7. W celu selekcji cech, posiadających najlepsze wyniki rankingowe, wykorzystano las drzew. Następnie dokonano klasyfikacji emocji z za pomocą maszyny wektorów nośnych (SVM, Support Vector Machine). Stwierdzono, że parametryzacja skuteczna dla mowy nie jest skuteczna dla śpiewu. Wyznaczono podstawowe parametry, które zgodnie z otrzymanymi wynikami pozwalają na znaczną redukcję wymiarowości wektorów cech, jednocześnie podnosząc skuteczność klasyfikacji.
Citations
-
0
CrossRef
-
0
Web of Science
-
0
Scopus
Authors (2)
Cite as
Full text
- Publication version
- Accepted or Published Version
- License
- open in new tab
Keywords
Details
- Category:
- Articles
- Type:
- artykuły w czasopismach
- Published in:
-
Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej
pages 61 - 64,
ISSN: 1425-5766 - Language:
- Polish
- Publication year:
- 2019
- Bibliographic description:
- Zaporowski S., Kostek B.: ANALIZA PARAMETRÓW SYGNAŁU MOWY W KONTEKŚCIE ICH PRZYDATNOŚCI W AUTOMATYCZNEJ OCENIE JAKOŚCI EKSPRESJI ŚPIEWU// Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej -,iss. 68 (2019), s.61-64
- DOI:
- Digital Object Identifier (open in new tab) 10.32016/1.68.13
- Bibliography: test
-
- D. Bertero and P. Fung: A first look into a Convolutional Neural Network for speech emotion detection, in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017, 5115-5119. open in new tab
- L. Kerkeni, Y. Serrestou, K. Raoof, C. Cléder, M. Mahjoub, and M. Mbarki: Automatic Speech Emotion Recognition Using Machine Learning, 2019, p. https://www.intechopen.com/online-first/automatic. open in new tab
- K. R. Scherer, J. Sundberg, L. Tamarit, and G. L. Salomão: Comparing the acoustic expression of emotion in the speaking and the singing voice, Comput. Speech Lang., vol. 29, no. 1, 218-235, 2015. open in new tab
- N. Cibau, E. Albornoz, and H. Rufiner, Speech emotion recognition using a deep autoencoder. 2013.
- M. C. Sezgin, B. Gunsel, and G. K. Kurt: Perceptual audio features for emotion detection, EURASIP J. Audio, Speech, Music Process., vol. 2012, no. 1, p. 16, 2012. open in new tab
- S. S. Poorna, C. Y. Jeevitha, S. J. Nair, S. Santhosh, and G. J. Nair: Emotion recognition using multi- parameter speech feature classification, in 2015 International Conference on Computers, Communications, and Systems (ICCCS), 2015, 217- 222. open in new tab
- P. Zwan: Expert system for automatic classification and quality assessment of singing voices, Audio Eng. Soc. - 121st Conv. Pap. 2006, vol. 1, 446-454, Jan. 2006.
- N. Amir, O. Michaeli, and O. Amir: Acoustic and perceptual assessment of vibrato quality of singing students, BIOMED SIGNAL Process Control, vol. 1, 144-150, Apr. 2006. open in new tab
- E. Półrolniczak and M. Łazoryszczak: Quality assessment of intonation of choir singers using F0 and trend lines for singing sequence, Metod. Inform. Stosow., vol. no. 4, 259-268, 2011. open in new tab
- S. R. Livingstone and F. A. Russo, The ryerson audio- visual database of emotional speech and song (ravdess): A dynamic, multimodal set of facial and vocal expressions in north American english, vol. 13, no. 5. 2018. open in new tab
- B. McFee et al.: librosa/librosa: 2019. open in new tab
- S. Zaporowski and A. Czyżewski: Selection of Features for Multimodal Vocalic Segments Classification BT - Multimedia and Network Information Systems, 2019, 490-500. open in new tab
- P. Geurts, D. Ernst, and L. Wehenkel: Extremely randomized trees, Mach. Learn., vol. 63, no. 1, 3-42, 2006. open in new tab
- G. Louppe, L. Wehenkel, A. Sutera, and P. Geurts: Understanding variable importances in forests of randomized trees, Advances in Neural Information Processing Systems 26 (C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani, and K. Q. Weinberger, Eds.) Curran Associates, Inc., 2013, 431-439.
- V. Svetnik, A. Liaw, C. Tong, J. C. Culberson, R. P. Sheridan, and B. P. Feuston: Random Forest: A Classification and Regression Tool for Compound Classification and QSAR Modeling, J. Chem. Inf. Comput. Sci., vol. 43, no. 6, 1947-1958, Nov. 2003. open in new tab
- F. Pedregosa et al.: Scikit-learn: Machine Learning in {P}ython, J. Mach. Learn. Res., vol. 12, 2825-2830, 2011. open in new tab
- Verified by:
- Gdańsk University of Technology
seen 161 times