Abstrakt
We propose a weakly-supervised model for word-level mispronunciation detection in non-native (L2) English speech. To train this model, phonetically transcribed L2 speech is not required and we only need to mark mispronounced words. The lack of phonetic transcriptions for L2 speech means that the model has to learn only from a weak signal of word-level mispronunciations. Because of that and due to the limited amount of mispronounced L2 speech, the model is more likely to overfit. To limit this risk, we train it in a multi-task setup. In the first task, we estimate the probabilities of word-level mispronunciation. For the second task, we use a phoneme recognizer trained on phonetically transcribed L1 speech that is easily accessible and can be automatically annotated. Compared to state-of-the-art approaches, we improve the accuracy of detecting word-level pronunciation errors in AUC metric by 30% on the GUT Isle Corpus of L2 Polish speakers, and by 21.5% on the Isle Corpus of L2 German and Italian speakers
Cytowania
-
1 1
CrossRef
-
0
Web of Science
-
8
Scopus
Autorzy (5)
Cytuj jako
Pełna treść
- Wersja publikacji
- Accepted albo Published Version
- DOI:
- Cyfrowy identyfikator dokumentu elektronicznego (otwiera się w nowej karcie) 10.21437/Interspeech.2021-38
- Licencja
- Copyright (2021 ISCA)
Słowa kluczowe
Informacje szczegółowe
- Kategoria:
- Aktywność konferencyjna
- Typ:
- publikacja w wydawnictwie zbiorowym recenzowanym (także w materiałach konferencyjnych)
- Język:
- angielski
- Rok wydania:
- 2021
- Opis bibliograficzny:
- Korzekwa D., Lorenzo-Trueba J., Drugman T., Calamaro S., Kostek B.: Weakly-Supervised Word-Level Pronunciation Error Detection in Non-Native English Speech// / : , 2021,
- DOI:
- Cyfrowy identyfikator dokumentu elektronicznego (otwiera się w nowej karcie) 10.21437/interspeech.2021-38
- Źródła finansowania:
-
- Działalność statutowa/subwencja
- Weryfikacja:
- Politechnika Gdańska
wyświetlono 88 razy
Publikacje, które mogą cię zainteresować
Computer-assisted pronunciation training—Speech synthesis is almost all you need
- D. Korzekwa,
- J. Lorenzo-trueba,
- T. Drugman
- + 1 autorów
Investigating Feature Spaces for Isolated Word Recognition
- G. Korvel,
- G. Tamulevicus,
- P. Treigys
- + 2 autorów
Interpretable Deep Learning Model for the Detection and Reconstruction of Dysarthric Speech
- D. Korzekwa,
- R. Barra-Chicote,
- B. Kostek
- + 2 autorów