Metodyka i technologia polimodalnej alofonicznej transkrypcji mowy - Projekt - MOST Wiedzy

Wyszukiwarka

Metodyka i technologia polimodalnej alofonicznej transkrypcji mowy

Celem projektu jest przeprowadzenie badań mających na celu opracowanie metodyki automatycznej transkrypcji fonetycznej mowy (w języku angielskim), opartej na wykorzystaniu połączenia informacji pochodzącej z analizy sygnałów fonicznych i wizyjnych. W szczególności, przeprowadzone zostaną badania podstawowe nad związkiem pomiędzy zróżnicowaniem alofonicznym w mowie, tj. różnicami w charakterze tych samych głosek wynikających z różnego ułożenia artykulatorów w zależności od środowiska fonetycznego (tj. głosek sąsiadujących lub cech prozodycznych) a obiektywnymi parametrami sygnału. Zostaną również wnikliwie zbadane parametry sygnału mowy (akustyczne i wizyjne) charakterystyczne dla Polaków uczących się języka angielskiego, w tym przy wykorzystaniu artykulografu elektromagnetycznego, pozwalającego uzyskać dodatkowe dane odnoszące się do ruchów artykulatorów mowy, umożliwiające pogłębienie analiz odnoszących się do sposobu wymawiania głosek. Założeniem jest opracowanie na tyle dokładnej metody, żeby pozwalała różnicować drobne zróżnicowania alofoniczne i akcentowe. Wnioskodawcy w wyniku przeprowadzonych badań pilotażowych są przekonani, że dzięki łącznej analizie sygnałów wizyjnych i fonicznych transkrypcja fonetyczna mowy może zostać przeprowadzona z większą dokładnością, niż przy wykorzystaniu jedynie modalności akustycznej, tak jak opisano to we wcześniejszych pracach innych autorów. Zakłada się ponadto, że pogłębione badania nad zróżnicowaniem głosek w kontekście parametrów sygnałów akustycznych i wizyjnych przyczynią się do zaawansowania stanu wiedzy w dziedzinie audiowizualnego rozpoznawania mowy, a co za tym idzie w dziedzinie interakcji człowieka z komputerem. W toku badań planowana jest weryfikacja następujących hipotez: 1. Łączna analiza danych fonicznych i wizyjnych poprawia skuteczność transkrypcji fonetycznej mowy na poziomie alofonicznym. 2. Przewidziana do opracowania metoda analizy sygnału mowy pozwoli na pogłębioną w stosunku do obecnego stanu wiedzy analizę zaawansowanych aspektów fonetycznych mowy. 3. Aspekty alofoniczne takie jak m.in. nazalizacja, zaokrąglanie samogłosek, aspiracja mogą być skutecznie wykryte poprzez analizę sygnałów wizyjnych. 4. Różnice w sygnale mowy wynikające ze zróżnicowań alofonicznych i akcentowych mogą być zamodelowane z użyciem odpowiednich narzędzi matematycznych.

Informacje szczegółowe

Akronim projektu:
ALOFON
Program finansujący:
OPUS
Instytucja:
Narodowe Centrum Nauki (NCN) (National Science Centre)
Porozumienie:
UMO-2015/17/B/ST6/01874 z dnia 2016-02-19
Okres realizacji:
2016-02-19 - 2019-02-18
Kierownik projektu:
prof. dr hab. inż. Andrzej Czyżewski
Realizowany w:
Katedra Systemów Multimedialnych
Wartość projektu:
990 318.00 PLN
Typ zgłoszenia:
Krajowy Program Badawczy
Pochodzenie:
Projekt krajowy
Weryfikacja:
Politechnika Gdańska

Filtry

wszystkich: 13

  • Kategoria

  • Rok

  • Opcje

wyczyść Filtry wybranego katalogu niedostępne

Katalog Projektów

Rok 2021

Rok 2020

  • Audio Feature Analysis for Precise Vocalic Segments Classification in English
    Publikacja

    An approach to identifying the most meaningful Mel-Frequency Cepstral Coefficients representing selected allophones and vocalic segments for their classification is presented in the paper. For this purpose, experiments were carried out using algorithms such as Principal Component Analysis, Feature Importance, and Recursive Parameter Elimination. The data used were recordings made within the ALOFON corpus containing audio signal...

    Pełny tekst do pobrania w serwisie zewnętrznym

  • Automatic Marking of Allophone Boundaries in Isolated English spoken Words
    Publikacja

    The work presents a method that allows delimiting the borders of allophones in isolated English words. The described method is based on the DTW algorithm combining two signals, a reference signal and an analyzed one. As the reference signal, recordings from the MODALITY database were used, from which the words were extracted. This database was also used for tests, which were described. Test results show that the automatic determination...

    Pełny tekst do pobrania w portalu

Rok 2019

  • MACHINE LEARNING–BASED ANALYSIS OF ENGLISH LATERAL ALLOPHONES

    Automatic classification methods, such as artificial neural networks (ANNs), the k-nearest neighbor (kNN) and selforganizing maps (SOMs), are applied to allophone analysis based on recorded speech. A list of 650 words was created for that purpose, containing positionally and/or contextually conditioned allophones. For each word, a group of 16 native and non-native speakers were audio-video recorded, from which seven native speakers’...

    Pełny tekst do pobrania w portalu

  • Speech Analytics Based on Machine Learning

    In this chapter, the process of speech data preparation for machine learning is discussed in detail. Examples of speech analytics methods applied to phonemes and allophones are shown. Further, an approach to automatic phoneme recognition involving optimized parametrization and a classifier belonging to machine learning algorithms is discussed. Feature vectors are built on the basis of descriptors coming from the music information...

    Pełny tekst do pobrania w serwisie zewnętrznym

Rok 2018

wyświetlono 847 razy