Metoda i algorytmy sterowania procesami miksowania dźwięku za pomocą gestów w oparciu o analizę obrazu wizyjnego
Abstrakt
Głównym celem rozprawy było opracowanie systemu miksowania dźwięku za pomocą gestów rąk wykonywanych w powietrzu oraz zbadanie możliwości oferowanych przez takie rozwiązanie w porównaniu ze współczesną metodą miksowania sygnałów fonicznych, wykorzystującą środowisko komputera. Opracowany system rozpoznaje zarówno dynamiczne jak i statyczne gesty rąk. Rozpoznawanie gestów dynamicznych zrealizowano w oparciu o metody logiki rozmytej wykorzystując model Takagi-Sugeno zerowego rzędu. Gesty zamodelowano za pomocą wektorów ruchu wyszczególniając prędkość i kierunek jako parametry przedstawiane za pomocą zmiennych lingwistycznych. Do rozpoznawania gestów statycznych wykorzystano maszynę wektorów nośnych (SVM) typu C-SVC z liniowym jądrem. Klasyfikator ten został określony jako optymalny dla systemu w oparciu o przeprowadzone przez autora badania skuteczności wybranych klasyfikatorów. Zaimplementowano dwa tryby graficzne interfejsu: pełny i ograniczony. W trybie pełnym źródła foniczne reprezentowane są w postaci kół rozmieszczonych na ekranie a edycja parametrów wsparta jest kontrolerem suwakowym z wartościami. W trybie ograniczonym procesy miksowania dźwięku przeprowadzane są jedynie w oparciu o ocenę słuchową. W ramach badań opracowanego systemu sprawdzono wpływ wizualizacji parametrów i ergonomii na wyniki procesu miksowania. W badaniach wzięło udział 10 realizatorów, którzy miksowali ścieżki zgodnie z pięcioma sposobami, za każdym razem dążąc do uzyskania identycznych wyników. Otrzymany rozkład ocen walorów estetycznych przydzielonych przez realizatorów zgraniom uzyskanym z poszczególnych sposobów został poddany analizie statystycznej. Otrzymane wyniki świadczyły o braku istotnych statystycznie różnic. Oznacza to w szczególności, że przeprowadzenie procesów miksowania dźwięku całkowicie za pomocą gestów rąk nie wpłynęło na pogorszenie ich wyników w stosunku do wyników miksowania z wykorzystaniem środowiska DAW obsługiwanego za pomocą myszy komputerowej, klawiatury i kontrolera MIDI. Uzyskano satysfakcjonujące wyniki oceny intuicyjności słownika gestów, dokładności edycji parametrów i wygody obsługi. Wydajność systemu oceniona w badaniach jako 22 klatki/s zapewniała efektywną pracę z materiałem fonicznym. W ramach badań skuteczności rozpoznawania gestów dynamicznych sprawdzono, że zastosowanie logiki rozmytej w procesie rozpoznawania gestów dynamicznych, dla których trajektorią ruchu jest okrąg, pozwala na ich interpretację z wysoką skutecznością.
Autor (1)
Cytuj jako
Pełna treść
pełna treść publikacji nie jest dostępna w portalu
Słowa kluczowe
Informacje szczegółowe
- Kategoria:
- Doktoraty, rozprawy habilitacyjne, nostryfikacje
- Typ:
- praca doktorska pracowników zatrudnionych w PG oraz studentów studium doktoranckiego
- Język:
- polski
- Rok wydania:
- 2013
- Weryfikacja:
- Politechnika Gdańska
wyświetlono 124 razy