Metodyka i technologia polimodalnej alofonicznej transkrypcji mowy

Celem projektu jest przeprowadzenie badań mających na celu opracowanie metodyki automatycznej transkrypcji fonetycznej mowy (w języku angielskim), opartej na wykorzystaniu połączenia informacji pochodzącej z analizy sygnałów fonicznych i wizyjnych. W szczególności, przeprowadzone zostaną badania podstawowe nad związkiem pomiędzy zróżnicowaniem alofonicznym w mowie, tj. różnicami w charakterze tych samych głosek wynikających z różnego ułożenia artykulatorów w zależności od środowiska fonetycznego (tj. głosek sąsiadujących lub cech prozodycznych) a obiektywnymi parametrami sygnału. Zostaną również wnikliwie zbadane parametry sygnału mowy (akustyczne i wizyjne) charakterystyczne dla Polaków uczących się języka angielskiego, w tym przy wykorzystaniu artykulografu elektromagnetycznego, pozwalającego uzyskać dodatkowe dane odnoszące się do ruchów artykulatorów mowy, umożliwiające pogłębienie analiz odnoszących się do sposobu wymawiania głosek. Założeniem jest opracowanie na tyle dokładnej metody, żeby pozwalała różnicować drobne zróżnicowania alofoniczne i akcentowe. Wnioskodawcy w wyniku przeprowadzonych badań pilotażowych są przekonani, że dzięki łącznej analizie sygnałów wizyjnych i fonicznych transkrypcja fonetyczna mowy może zostać przeprowadzona z większą dokładnością, niż przy wykorzystaniu jedynie modalności akustycznej, tak jak opisano to we wcześniejszych pracach innych autorów. Zakłada się ponadto, że pogłębione badania nad zróżnicowaniem głosek w kontekście parametrów sygnałów akustycznych i wizyjnych przyczynią się do zaawansowania stanu wiedzy w dziedzinie audiowizualnego rozpoznawania mowy, a co za tym idzie w dziedzinie interakcji człowieka z komputerem. W toku badań planowana jest weryfikacja następujących hipotez: 1. Łączna analiza danych fonicznych i wizyjnych poprawia skuteczność transkrypcji fonetycznej mowy na poziomie alofonicznym. 2. Przewidziana do opracowania metoda analizy sygnału mowy pozwoli na pogłębioną w stosunku do obecnego stanu wiedzy analizę zaawansowanych aspektów fonetycznych mowy. 3. Aspekty alofoniczne takie jak m.in. nazalizacja, zaokrąglanie samogłosek, aspiracja mogą być skutecznie wykryte poprzez analizę sygnałów wizyjnych. 4. Różnice w sygnale mowy wynikające ze zróżnicowań alofonicznych i akcentowych mogą być zamodelowane z użyciem odpowiednich narzędzi matematycznych.

Informacje szczegółowe

Akronim projektu:: ALOFON
Program finansujący:: OPUS
Instytucja:: Narodowe Centrum Nauki (NCN) (National Science Centre)
Porozumienie:: UMO-2015/17/B/ST6/01874 z dnia 2016-02-19
Okres realizacji:: 2016-02-19 - 2019-02-18
Kierownik projektu:: prof. dr hab. inż. Andrzej Czyżewski
Realizowany w:: Katedra Systemów Multimedialnych
Wartość projektu:: 990 318.00 PLN
Typ zgłoszenia:: Krajowy Program Badawczy
Pochodzenie:: Projekt krajowy
Weryfikacja:: Politechnika Gdańska

Publikacje powiązane z tym projektem

wyników na stronę:
rok:
- Sortuj po rok od najnowszych
- Sortuj po rok od najstarszych
tytuł:
- Sortuj po tytuł A-Z
- Sortuj po tytuł Z-A
cytowania:
- zaznaczony Sortuj po cytowania malejąco
- Sortuj po cytowania rosnąco

Filtry

wszystkich: 13

Analysis of 2D Feature Spaces for Deep Learning-based Speech Recognition
Publikacja
- G. Korvel
- P. Treigys
- G. Tamulevicus
- J. Bernataviciene
- B. Kostek
- JOURNAL OF THE AUDIO ENGINEERING SOCIETY - Rok 2018
convolutional neural network (CNN) which is a class of deep, feed-forward artificial neural network. We decided to analyze audio signal feature maps, namely spectrograms, linear and Mel-scale cepstrograms, and chromagrams. The choice was made upon the fact that CNN performs well in 2D data-oriented processing contexts. Feature maps were employed in the Lithuanian word recognition task. The spectral analysis led to the highest word...
MACHINE LEARNING–BASED ANALYSIS OF ENGLISH LATERAL ALLOPHONES
Publikacja
- M. Piotrowska
- G. Korvel
- B. Kostek
- T. Ciszewski
- A. Czyżewski
- International Journal of Applied Mathematics and Computer Science - Rok 2019
Automatic classification methods, such as artificial neural networks (ANNs), the k-nearest neighbor (kNN) and selforganizing maps (SOMs), are applied to allophone analysis based on recorded speech. A list of 650 words was created for that purpose, containing positionally and/or contextually conditioned allophones. For each word, a group of 16 native and non-native speakers were audio-video recorded, from which seven native speakers’...

Pełny tekst do pobrania w portalu
A comparative study of English viseme recognition methods and algorithm
Publikacja
- D. Jachimski
- A. Czyżewski
- MULTIMEDIA TOOLS AND APPLICATIONS - Rok 2018
An elementary visual unit – the viseme is concerned in the paper in the context of preparing the feature vector as a main visual input component of Audio-Visual Speech Recognition systems. The aim of the presented research is a review of various approaches to the problem, the implementation of algorithms proposed in the literature and a comparative research on their effectiveness. In the course of the study an optimal feature vector...

Pełny tekst do pobrania w portalu
Evaluation of aspiration problems in L2 English pronunciation employing machine learning
Publikacja
- M. Piotrowska
- A. Czyżewski
- T. Ciszewski
- G. Korvel
- A. Kurowski
- B. Kostek
- Journal of the Acoustical Society of America - Rok 2021
The approach proposed in this study includes methods specifically dedicated to the detection of allophonic variation in English. This study aims to find an efficient method for automatic evaluation of aspiration in the case of Polish second-language (L2) English speakers’ pronunciation when whole words are analyzed instead of particular allophones extracted from words. Sample words including aspirated and unaspirated allophones...

Pełny tekst do pobrania w portalu
Examining Feature Vector for Phoneme Recognition
Publikacja
- G. Korvel
- B. Kostek
- Rok 2018
The aim of this paper is to analyze usability of descriptors coming from music information retrieval to the phoneme analysis. The case study presented consists in several steps. First, a short overview of parameters utilized in speech analysis is given. Then, a set of time and frequency domain-based parameters is selected and discussed in the context of stop consonant acoustical characteristics. A toolbox created for this purpose...
Speech Analytics Based on Machine Learning
Publikacja
- Rok 2019
In this chapter, the process of speech data preparation for machine learning is discussed in detail. Examples of speech analytics methods applied to phonemes and allophones are shown. Further, an approach to automatic phoneme recognition involving optimized parametrization and a classifier belonging to machine learning algorithms is discussed. Feature vectors are built on the basis of descriptors coming from the music information...

Pełny tekst do pobrania w serwisie zewnętrznym
Objectivization of phonological evaluation of speech elements by means of audio parametrization
Publikacja
- Rok 2018
This study addresses two issues related to both machine- and subjective-based speech evaluation by investigating five phonological phenomena related to allophone production. Its aim is to use objective parametrization and phonological classification of the recorded allophones. These allophones were selected as specifically difficult for Polish speakers of English: aspiration, final obstruent devoicing, dark lateral /l/, velar nasal...
Audio Feature Analysis for Precise Vocalic Segments Classification in English
Publikacja
- S. Zaporowski
- A. Czyżewski
- Rok 2020
An approach to identifying the most meaningful Mel-Frequency Cepstral Coefficients representing selected allophones and vocalic segments for their classification is presented in the paper. For this purpose, experiments were carried out using algorithms such as Principal Component Analysis, Feature Importance, and Recursive Parameter Elimination. The data used were recordings made within the ALOFON corpus containing audio signal...

Pełny tekst do pobrania w serwisie zewnętrznym
Marking the Allophones Boundaries Based on the DTW Algorithm
Publikacja
- J. Rafałko
- Rok 2018
The paper presents an approach to marking the boundaries of allophones in the speech signal based on the Dynamic Time Warping (DTW) algorithm. Setting and marking of allophones boundaries in continuous speech is a difficult issue due to the mutual influence of adjacent phonemes on each other. It is this neighborhood on the one hand that creates variants of phonemes that is allophones, and on the other hand it affects that the border...
Automatic Marking of Allophone Boundaries in Isolated English spoken Words
Publikacja
- J. Rafałko
- A. Czyżewski
- Rok 2020
The work presents a method that allows delimiting the borders of allophones in isolated English words. The described method is based on the DTW algorithm combining two signals, a reference signal and an analyzed one. As the reference signal, recordings from the MODALITY database were used, from which the words were extracted. This database was also used for tests, which were described. Test results show that the automatic determination...

Pełny tekst do pobrania w portalu
REJESTRACJA, PARAMETRYZACJA I KLASYFIKACJA ALOFONÓW Z WYKORZYSTANIEM BIMODALNOŚCI
Publikacja
- Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej - Rok 2018
Praca dotyczy rejestracji i parametryzacji alofonów w języku angielskim z wykorzystaniem dwóch modalności. W badaniach dokonano rejestracji wypowiedzi w języku angielskim mówców, których znajomość tego języka odpowiada poziomowi rodowitego mówcy. W kolejnym etapie wyodrębnione zostały alofony z nagrań fonicznych i odpowiadające im sygnały wizyjne. W procesie tworzenia wektorów cech wykorzystano odrębne systemy parametryzacji,...

Pełny tekst do pobrania w portalu
Zastosowanie sieci neuronowych w cyfrowej syntezie dźwięku
Publikacja
- Rok 2018
Rozwój technik związanych z uczeniem maszynowym umożliwia nowe podejście i nowe definiowanie wielu dotychczasowych problemów. Heurystyczne algorytmy stosowane do problemów takich jak klasyfikacja danych w postaci wektorów cech, czy wyróżnianie grup obiektów o podobnych własnościach mogą znaleźć także zastosowanie w takich dziedzinach jak analiza i synteza dźwięków muzycznych. W referacie przybliżone zostały podstawowe zasady projektowania...
Visual perception of vowels from static and dynamic cues
Publikacja
- Journal of the Acoustical Society of America - Rok 2018
The purpose of the study was to analyse human identification of Polish vowels from static and dynamic durationally slowed visual cues. A total of 152 participants identified 6 Polish vowels produced by 4 speakers from static (still images) and dynamic (videos) cues. The results show that 59% of static vowels and 63% of dynamic vowels were successfully identified. There was a strong confusion between vowels within front, central,...

Pełny tekst do pobrania w serwisie zewnętrznym

wyświetlono 429 razy