ANALIZA PARAMETRÓW SYGNAŁU MOWY W KONTEKŚCIE ICH PRZYDATNOŚCI W AUTOMATYCZNEJ OCENIE JAKOŚCI EKSPRESJI ŚPIEWU - Publication - Bridge of Knowledge

Search

ANALIZA PARAMETRÓW SYGNAŁU MOWY W KONTEKŚCIE ICH PRZYDATNOŚCI W AUTOMATYCZNEJ OCENIE JAKOŚCI EKSPRESJI ŚPIEWU

Abstract

Praca dotyczy podejścia do parametryzacji w przypadku klasyfikacji emocji w śpiewie oraz porównania z klasyfikacją emocji w mowie. Do tego celu wykorzystano bazę mowy i śpiewu nacechowanego emocjonalnie RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song), zawierającą nagrania profesjonalnych aktorów prezentujących sześć różnych emocji. Następnie obliczono współczynniki mel-cepstralne (MFCC) oraz wybrane deskryptory niskopoziomowe MPEG 7. W celu selekcji cech, posiadających najlepsze wyniki rankingowe, wykorzystano las drzew. Następnie dokonano klasyfikacji emocji z za pomocą maszyny wektorów nośnych (SVM, Support Vector Machine). Stwierdzono, że parametryzacja skuteczna dla mowy nie jest skuteczna dla śpiewu. Wyznaczono podstawowe parametry, które zgodnie z otrzymanymi wynikami pozwalają na znaczną redukcję wymiarowości wektorów cech, jednocześnie podnosząc skuteczność klasyfikacji.

Citations

  • 0

    CrossRef

  • 0

    Web of Science

  • 0

    Scopus

Cite as

Full text

download paper
downloaded 183 times
Publication version
Accepted or Published Version
License
Creative Commons: CC-BY-NC-ND open in new tab

Keywords

Details

Category:
Articles
Type:
artykuły w czasopismach
Published in:
Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej pages 61 - 64,
ISSN: 1425-5766
Language:
Polish
Publication year:
2019
Bibliographic description:
Zaporowski S., Kostek B.: ANALIZA PARAMETRÓW SYGNAŁU MOWY W KONTEKŚCIE ICH PRZYDATNOŚCI W AUTOMATYCZNEJ OCENIE JAKOŚCI EKSPRESJI ŚPIEWU// Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej -,iss. 68 (2019), s.61-64
DOI:
Digital Object Identifier (open in new tab) 10.32016/1.68.13
Bibliography: test
  1. D. Bertero and P. Fung: A first look into a Convolutional Neural Network for speech emotion detection, in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017, 5115-5119. open in new tab
  2. L. Kerkeni, Y. Serrestou, K. Raoof, C. Cléder, M. Mahjoub, and M. Mbarki: Automatic Speech Emotion Recognition Using Machine Learning, 2019, p. https://www.intechopen.com/online-first/automatic. open in new tab
  3. K. R. Scherer, J. Sundberg, L. Tamarit, and G. L. Salomão: Comparing the acoustic expression of emotion in the speaking and the singing voice, Comput. Speech Lang., vol. 29, no. 1, 218-235, 2015. open in new tab
  4. N. Cibau, E. Albornoz, and H. Rufiner, Speech emotion recognition using a deep autoencoder. 2013.
  5. M. C. Sezgin, B. Gunsel, and G. K. Kurt: Perceptual audio features for emotion detection, EURASIP J. Audio, Speech, Music Process., vol. 2012, no. 1, p. 16, 2012. open in new tab
  6. S. S. Poorna, C. Y. Jeevitha, S. J. Nair, S. Santhosh, and G. J. Nair: Emotion recognition using multi- parameter speech feature classification, in 2015 International Conference on Computers, Communications, and Systems (ICCCS), 2015, 217- 222. open in new tab
  7. P. Zwan: Expert system for automatic classification and quality assessment of singing voices, Audio Eng. Soc. - 121st Conv. Pap. 2006, vol. 1, 446-454, Jan. 2006.
  8. N. Amir, O. Michaeli, and O. Amir: Acoustic and perceptual assessment of vibrato quality of singing students, BIOMED SIGNAL Process Control, vol. 1, 144-150, Apr. 2006. open in new tab
  9. E. Półrolniczak and M. Łazoryszczak: Quality assessment of intonation of choir singers using F0 and trend lines for singing sequence, Metod. Inform. Stosow., vol. no. 4, 259-268, 2011. open in new tab
  10. S. R. Livingstone and F. A. Russo, The ryerson audio- visual database of emotional speech and song (ravdess): A dynamic, multimodal set of facial and vocal expressions in north American english, vol. 13, no. 5. 2018. open in new tab
  11. B. McFee et al.: librosa/librosa: 2019. open in new tab
  12. S. Zaporowski and A. Czyżewski: Selection of Features for Multimodal Vocalic Segments Classification BT - Multimedia and Network Information Systems, 2019, 490-500. open in new tab
  13. P. Geurts, D. Ernst, and L. Wehenkel: Extremely randomized trees, Mach. Learn., vol. 63, no. 1, 3-42, 2006. open in new tab
  14. G. Louppe, L. Wehenkel, A. Sutera, and P. Geurts: Understanding variable importances in forests of randomized trees, Advances in Neural Information Processing Systems 26 (C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani, and K. Q. Weinberger, Eds.) Curran Associates, Inc., 2013, 431-439.
  15. V. Svetnik, A. Liaw, C. Tong, J. C. Culberson, R. P. Sheridan, and B. P. Feuston: Random Forest: A Classification and Regression Tool for Compound Classification and QSAR Modeling, J. Chem. Inf. Comput. Sci., vol. 43, no. 6, 1947-1958, Nov. 2003. open in new tab
  16. F. Pedregosa et al.: Scikit-learn: Machine Learning in {P}ython, J. Mach. Learn. Res., vol. 12, 2825-2830, 2011. open in new tab
Verified by:
Gdańsk University of Technology

seen 161 times

Recommended for you

Meta Tags