Abstrakt
Przedstawiona rozprawa doktorska dotyczy badania głosu z wykorzystaniem reprezentacji sygnału mowy za pomocą zespolonej pulsacji chwilowej (ICF od ang. Instantaneous Complex Frequency). Zespolona pulsacja chwilowa opiera się na koncepcji rzeczywistej częstotliwości chwilowej (IF od ang. Instantaneous Frequency), która estymuje częstotliwość sygnału w każdej chwili czasu jako pochodną jego fazy chwilowej. Główną zaletą takiego podejścia w stosunku do metod klasycznych, bazujących na modelu mowy ''źródło-filtr'', jest możliwość lepszego odzwierciedlenia szybkich zmian fazy i częstotliwości sygnału. Przy tym IF równie dobrze nadaje się do opisu sygnałów stacjonarnych i okresowych, jak i niestacjonarnych i aperiodycznych. ICF, oprócz informacji o częstotliwości chwilowej, niesie również informację o chwilowej szerokości pasma sygnału (IB od ang. Instantaneous Bandwidth), która do tej pory nie była wykorzystywana do opisu głosu. Co więcej, ICF stanowi pełną reprezentację analizowanego sygnału, tzn. dysponując jej przebiegiem można odtworzyć reprezentowany przez nią sygnał. Zaproponowane w rozprawie podejście wykorzystuje ponadto faktoryzację sygnału na obwiednię minimalnofazową (MPE od ang. Minimum-Phase Envelope) i fazor dodatnio skrętny (PIFP od ang. Positive Instantaneous Frequency Phasor), nazywaną dalej bifaktoryzacją Voelckera-Kumaresana (V-KB). Jest to reprezentacja sygnału analitycznego alternatywna dla szeroko stosowanej reprezentacji AM-FM, która faktoryzuje sygnał na obwiednię rzeczywistą AM i fazor FM. Wymienione narzędzia pozwalają na potokowe przetwarzanie głosu i opracowanie algorytmów działających on-line.Zasadniczym celem rozprawy była analiza głosu w kategoriach sygnałowych, widziana przez pryzmat ogólnej teorii Voelckera-Kumaresana zespolonej modulacji sygnałów analitycznych, a co więcej znalezienie związków pomiędzy tym nowym opisem, a parametrami klasycznego modelu ''źródło-filtr'' i widmem fourierowskim. Praca ma charakter poznawczy, pogłębiający wiedzę na temat jednego z multiplikatywnych modeli sygnałów, nie stosowanego dotąd w analizie głosu i mowy. Jest ukierunkowana na rozpoznanie właściwości i potencjalnej przydatności reprezentacji sygnałów poprzez ICF oraz czynniki V-KB. W ramach rozprawy opracowano nowe algorytmy analizy sygnału mowy: oceny stopnia minimalofazowości głosek, estymacji częstotliwości podstawowej wraz z klasyfikacją na głoski dźwięczne i bezdźwięczne, dekompozycji sygnału mowy jako sygnału wielokomponentowego oraz estymacji częstotliwości środkowych i szerokości pasm formantów. Wyniki tej analizy były podstawą dla osiągnięcia drugiego celu, jakim jest konwersja (zmiana cech) głosu za pomocą łatwo interpretowalnych modyfikacji ICF czynników V-KB. Założeniem dla opracowanej metody konwersji było uzyskanie jak najbardziej naturalnego głosu i satysfakcjonującej jakości dźwięku, przy zachowaniu treści i struktury czasowej mowy, jak również prozodii i zabarwienia emocjonalnego wypowiedzi.
Autor (1)
Cytuj jako
Pełna treść
pełna treść publikacji nie jest dostępna w portalu
Słowa kluczowe
Informacje szczegółowe
- Kategoria:
- Doktoraty, rozprawy habilitacyjne, nostryfikacje
- Typ:
- praca doktorska pracowników zatrudnionych w PG oraz studentów studium doktoranckiego
- Język:
- polski
- Rok wydania:
- 2012
- Weryfikacja:
- Politechnika Gdańska
wyświetlono 316 razy
Publikacje, które mogą cię zainteresować
Estymacja tonu krtaniowego w oparciu o zespoloną pulsację chwilową
- T. Bandurski,
- Ł. Hamerski,
- A. Paruzel
- + 2 autorów