Methodology and technology for the polymodal allophonic speech transcription - Project - Bridge of Knowledge

Search

Methodology and technology for the polymodal allophonic speech transcription

Celem projektu jest przeprowadzenie badań mających na celu opracowanie metodyki automatycznej transkrypcji fonetycznej mowy (w języku angielskim), opartej na wykorzystaniu połączenia informacji pochodzącej z analizy sygnałów fonicznych i wizyjnych. W szczególności, przeprowadzone zostaną badania podstawowe nad związkiem pomiędzy zróżnicowaniem alofonicznym w mowie, tj. różnicami w charakterze tych samych głosek wynikających z różnego ułożenia artykulatorów w zależności od środowiska fonetycznego (tj. głosek sąsiadujących lub cech prozodycznych) a obiektywnymi parametrami sygnału. Zostaną również wnikliwie zbadane parametry sygnału mowy (akustyczne i wizyjne) charakterystyczne dla Polaków uczących się języka angielskiego, w tym przy wykorzystaniu artykulografu elektromagnetycznego, pozwalającego uzyskać dodatkowe dane odnoszące się do ruchów artykulatorów mowy, umożliwiające pogłębienie analiz odnoszących się do sposobu wymawiania głosek. Założeniem jest opracowanie na tyle dokładnej metody, żeby pozwalała różnicować drobne zróżnicowania alofoniczne i akcentowe. Wnioskodawcy w wyniku przeprowadzonych badań pilotażowych są przekonani, że dzięki łącznej analizie sygnałów wizyjnych i fonicznych transkrypcja fonetyczna mowy może zostać przeprowadzona z większą dokładnością, niż przy wykorzystaniu jedynie modalności akustycznej, tak jak opisano to we wcześniejszych pracach innych autorów. Zakłada się ponadto, że pogłębione badania nad zróżnicowaniem głosek w kontekście parametrów sygnałów akustycznych i wizyjnych przyczynią się do zaawansowania stanu wiedzy w dziedzinie audiowizualnego rozpoznawania mowy, a co za tym idzie w dziedzinie interakcji człowieka z komputerem. W toku badań planowana jest weryfikacja następujących hipotez: 1. Łączna analiza danych fonicznych i wizyjnych poprawia skuteczność transkrypcji fonetycznej mowy na poziomie alofonicznym. 2. Przewidziana do opracowania metoda analizy sygnału mowy pozwoli na pogłębioną w stosunku do obecnego stanu wiedzy analizę zaawansowanych aspektów fonetycznych mowy. 3. Aspekty alofoniczne takie jak m.in. nazalizacja, zaokrąglanie samogłosek, aspiracja mogą być skutecznie wykryte poprzez analizę sygnałów wizyjnych. 4. Różnice w sygnale mowy wynikające ze zróżnicowań alofonicznych i akcentowych mogą być zamodelowane z użyciem odpowiednich narzędzi matematycznych.

Details

Project's acronym:
ALOFON
Financial Program Name:
OPUS
Organization:
Narodowe Centrum Nauki (NCN) (National Science Centre)
Agreement:
UMO-2015/17/B/ST6/01874 z dnia 2016-02-19
Realisation period:
2016-02-19 - 2019-02-18
Project manager:
prof. dr hab. inż. Andrzej Czyżewski
Realised in:
Department of Multimedia Systems
Project's value:
990 318.00 PLN
Request type:
National Research Programmes
Domestic:
Domestic project
Verified by:
Gdańsk University of Technology

Filters

total: 13

  • Category

  • Year

  • Options

clear Chosen catalog filters disabled

Catalog Projects

Year 2021

Year 2020

  • Audio Feature Analysis for Precise Vocalic Segments Classification in English
    Publication

    An approach to identifying the most meaningful Mel-Frequency Cepstral Coefficients representing selected allophones and vocalic segments for their classification is presented in the paper. For this purpose, experiments were carried out using algorithms such as Principal Component Analysis, Feature Importance, and Recursive Parameter Elimination. The data used were recordings made within the ALOFON corpus containing audio signal...

    Full text to download in external service

  • Automatic Marking of Allophone Boundaries in Isolated English spoken Words
    Publication

    The work presents a method that allows delimiting the borders of allophones in isolated English words. The described method is based on the DTW algorithm combining two signals, a reference signal and an analyzed one. As the reference signal, recordings from the MODALITY database were used, from which the words were extracted. This database was also used for tests, which were described. Test results show that the automatic determination...

    Full text available to download

Year 2019

  • MACHINE LEARNING–BASED ANALYSIS OF ENGLISH LATERAL ALLOPHONES

    Automatic classification methods, such as artificial neural networks (ANNs), the k-nearest neighbor (kNN) and selforganizing maps (SOMs), are applied to allophone analysis based on recorded speech. A list of 650 words was created for that purpose, containing positionally and/or contextually conditioned allophones. For each word, a group of 16 native and non-native speakers were audio-video recorded, from which seven native speakers’...

    Full text available to download

  • Speech Analytics Based on Machine Learning
    Publication

    In this chapter, the process of speech data preparation for machine learning is discussed in detail. Examples of speech analytics methods applied to phonemes and allophones are shown. Further, an approach to automatic phoneme recognition involving optimized parametrization and a classifier belonging to machine learning algorithms is discussed. Feature vectors are built on the basis of descriptors coming from the music information...

    Full text to download in external service

Year 2018

seen 845 times