ANALIZA PARAMETRÓW SYGNAŁU MOWY W KONTEKŚCIE ICH PRZYDATNOŚCI W AUTOMATYCZNEJ OCENIE JAKOŚCI EKSPRESJI ŚPIEWU - Publikacja - MOST Wiedzy

Wyszukiwarka

ANALIZA PARAMETRÓW SYGNAŁU MOWY W KONTEKŚCIE ICH PRZYDATNOŚCI W AUTOMATYCZNEJ OCENIE JAKOŚCI EKSPRESJI ŚPIEWU

Abstrakt

Praca dotyczy podejścia do parametryzacji w przypadku klasyfikacji emocji w śpiewie oraz porównania z klasyfikacją emocji w mowie. Do tego celu wykorzystano bazę mowy i śpiewu nacechowanego emocjonalnie RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song), zawierającą nagrania profesjonalnych aktorów prezentujących sześć różnych emocji. Następnie obliczono współczynniki mel-cepstralne (MFCC) oraz wybrane deskryptory niskopoziomowe MPEG 7. W celu selekcji cech, posiadających najlepsze wyniki rankingowe, wykorzystano las drzew. Następnie dokonano klasyfikacji emocji z za pomocą maszyny wektorów nośnych (SVM, Support Vector Machine). Stwierdzono, że parametryzacja skuteczna dla mowy nie jest skuteczna dla śpiewu. Wyznaczono podstawowe parametry, które zgodnie z otrzymanymi wynikami pozwalają na znaczną redukcję wymiarowości wektorów cech, jednocześnie podnosząc skuteczność klasyfikacji.

Cytowania

  • 0

    CrossRef

  • 0

    Web of Science

  • 0

    Scopus

Cytuj jako

Pełna treść

pobierz publikację
pobrano 145 razy
Wersja publikacji
Accepted albo Published Version
Licencja
Creative Commons: CC-BY-NC-ND otwiera się w nowej karcie

Słowa kluczowe

Informacje szczegółowe

Kategoria:
Publikacja w czasopiśmie
Typ:
artykuły w czasopismach
Opublikowano w:
Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej strony 61 - 64,
ISSN: 1425-5766
Język:
polski
Rok wydania:
2019
Opis bibliograficzny:
Zaporowski S., Kostek B.: ANALIZA PARAMETRÓW SYGNAŁU MOWY W KONTEKŚCIE ICH PRZYDATNOŚCI W AUTOMATYCZNEJ OCENIE JAKOŚCI EKSPRESJI ŚPIEWU// Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej -,iss. 68 (2019), s.61-64
DOI:
Cyfrowy identyfikator dokumentu elektronicznego (otwiera się w nowej karcie) 10.32016/1.68.13
Bibliografia: test
  1. D. Bertero and P. Fung: A first look into a Convolutional Neural Network for speech emotion detection, in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017, 5115-5119. otwiera się w nowej karcie
  2. L. Kerkeni, Y. Serrestou, K. Raoof, C. Cléder, M. Mahjoub, and M. Mbarki: Automatic Speech Emotion Recognition Using Machine Learning, 2019, p. https://www.intechopen.com/online-first/automatic. otwiera się w nowej karcie
  3. K. R. Scherer, J. Sundberg, L. Tamarit, and G. L. Salomão: Comparing the acoustic expression of emotion in the speaking and the singing voice, Comput. Speech Lang., vol. 29, no. 1, 218-235, 2015. otwiera się w nowej karcie
  4. N. Cibau, E. Albornoz, and H. Rufiner, Speech emotion recognition using a deep autoencoder. 2013.
  5. M. C. Sezgin, B. Gunsel, and G. K. Kurt: Perceptual audio features for emotion detection, EURASIP J. Audio, Speech, Music Process., vol. 2012, no. 1, p. 16, 2012. otwiera się w nowej karcie
  6. S. S. Poorna, C. Y. Jeevitha, S. J. Nair, S. Santhosh, and G. J. Nair: Emotion recognition using multi- parameter speech feature classification, in 2015 International Conference on Computers, Communications, and Systems (ICCCS), 2015, 217- 222. otwiera się w nowej karcie
  7. P. Zwan: Expert system for automatic classification and quality assessment of singing voices, Audio Eng. Soc. - 121st Conv. Pap. 2006, vol. 1, 446-454, Jan. 2006.
  8. N. Amir, O. Michaeli, and O. Amir: Acoustic and perceptual assessment of vibrato quality of singing students, BIOMED SIGNAL Process Control, vol. 1, 144-150, Apr. 2006. otwiera się w nowej karcie
  9. E. Półrolniczak and M. Łazoryszczak: Quality assessment of intonation of choir singers using F0 and trend lines for singing sequence, Metod. Inform. Stosow., vol. no. 4, 259-268, 2011. otwiera się w nowej karcie
  10. S. R. Livingstone and F. A. Russo, The ryerson audio- visual database of emotional speech and song (ravdess): A dynamic, multimodal set of facial and vocal expressions in north American english, vol. 13, no. 5. 2018. otwiera się w nowej karcie
  11. B. McFee et al.: librosa/librosa: 2019. otwiera się w nowej karcie
  12. S. Zaporowski and A. Czyżewski: Selection of Features for Multimodal Vocalic Segments Classification BT - Multimedia and Network Information Systems, 2019, 490-500. otwiera się w nowej karcie
  13. P. Geurts, D. Ernst, and L. Wehenkel: Extremely randomized trees, Mach. Learn., vol. 63, no. 1, 3-42, 2006. otwiera się w nowej karcie
  14. G. Louppe, L. Wehenkel, A. Sutera, and P. Geurts: Understanding variable importances in forests of randomized trees, Advances in Neural Information Processing Systems 26 (C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani, and K. Q. Weinberger, Eds.) Curran Associates, Inc., 2013, 431-439.
  15. V. Svetnik, A. Liaw, C. Tong, J. C. Culberson, R. P. Sheridan, and B. P. Feuston: Random Forest: A Classification and Regression Tool for Compound Classification and QSAR Modeling, J. Chem. Inf. Comput. Sci., vol. 43, no. 6, 1947-1958, Nov. 2003. otwiera się w nowej karcie
  16. F. Pedregosa et al.: Scikit-learn: Machine Learning in {P}ython, J. Mach. Learn. Res., vol. 12, 2825-2830, 2011. otwiera się w nowej karcie
Weryfikacja:
Politechnika Gdańska

wyświetlono 106 razy

Publikacje, które mogą cię zainteresować

Meta Tagi