Abstrakt
In this chapter, the process of speech data preparation for machine learning is discussed in detail. Examples of speech analytics methods applied to phonemes and allophones are shown. Further, an approach to automatic phoneme recognition involving optimized parametrization and a classifier belonging to machine learning algorithms is discussed. Feature vectors are built on the basis of descriptors coming from the music information retrieval (MIR) domain. Then, phoneme classification beyond the typically used techniques is extended towards exploring Deep Neural Networks (DNNs). This is done by combining Convolutional Neural Networks (CNNs) with audio data converted to the time-frequency space domain (i.e. spectrograms) and then exported as images. In this way a two-dimensional representation of speech feature space is employed. When preparing the phoneme dataset for CNNs, zero padding and interpolation techniques are used. The obtained results show an improvement in classification accuracy in the case of allophones of the phoneme /l/, when CNNs coupled with spectrogram representation are employed. Contrarily, in the case of vowel classification, the results are better for the approach based on pre-selected features and a conventional machine learning algorithm.
Cytowania
-
5
CrossRef
-
0
Web of Science
-
1 3
Scopus
Autorzy (4)
Cytuj jako
Pełna treść
pełna treść publikacji nie jest dostępna w portalu
Słowa kluczowe
Informacje szczegółowe
- Kategoria:
- Publikacja monograficzna
- Typ:
- rozdział, artykuł w książce - dziele zbiorowym /podręczniku w języku o zasięgu międzynarodowym
- Tytuł wydania:
- Machine Learning Paradigms :Advances in Data Analytics strony 129 - 157
- Język:
- angielski
- Rok wydania:
- 2019
- Opis bibliograficzny:
- Korvel G., Kurowski A., Kostek B., Czyżewski A.: Speech Analytics Based on Machine Learning// Machine Learning Paradigms/ ed. George A. Tsihrintzis, Dionisios N. Sotiropoulos, Lakhmi C. Jain Cham: Springer, 2019, s.129-157
- DOI:
- Cyfrowy identyfikator dokumentu elektronicznego (otwiera się w nowej karcie) 10.1007/978-3-319-94030-4_6
- Źródła finansowania:
- Weryfikacja:
- Politechnika Gdańska
wyświetlono 263 razy
Publikacje, które mogą cię zainteresować
Investigating Feature Spaces for Isolated Word Recognition
- P. Treigys,
- G. Korvel,
- G. Tamulevicius
- + 2 autorów
Investigating Feature Spaces for Isolated Word Recognition
- G. Korvel,
- G. Tamulevicus,
- P. Treigys
- + 2 autorów
Detecting Lombard Speech Using Deep Learning Approach
- K. Kąkol,
- G. Korvel,
- G. Tamulevicius
- + 1 autorów