mgr inż. Kuba Łopatka
Publications
Filters
total: 38
Catalog Publications
-
EXAMINING INFLUENCE OF VIDEO FRAMERATE AND AUDIO/VIDEO SYNCHRONIZATION ON AUDIO-VISUAL SPEECH RECOGNITION ACCURACY
PublicationThe problem of video framerate and audio/video synchronization in audio-visual speech recognition is considered. The visual features are added to the acoustic parameters in order to improve the accuracy of speech recognition in noisy conditions. The Mel-Frequency Cepstral Coefficients are used on the acoustic side whereas Active Appearance Model features are extracted from the image. The feature fusion approach is employed. The...
-
Personal adaptive tuning of mobile computer audio
PublicationAn integrated methodology for enhancing audio quality in mobile computers is presented. The key features are adaptation of the characteristics of the acoustic track to the changing conditions and to the user's individual preferences. Original signal processing algorithms are introduced, which concern: linearization of frequency response, dialogue intelligibility enhancement and dynamics processing tuned up to the user's preferences....
-
Automatic prosodic modification in a Text-To-Speech synthesizer of Polish language
PublicationPrzedstawiono system syntezy mowy polskiej z funkcją automatycznej modyfikacji prozodii wypowiedzi. Opisane zostały metody automatycznego wyznaczania akcentu i intonacji wypowiedzi. Przedstawiono zastosowanie algorytmów przetwarzania sygnału mowy w procesie kształtowania prozodii. Omówiono wpływ zastosowanych modyfikacji na naturalność brzmienia syntezowanego sygnału. Zastosowana metoda oparta jest na algorytmie TD-PSOLA. Opracowany...
-
Multi-Stage Video Analysis Framework
PublicationThe chapter is organized as follows. Section 2 presents the general structure of the proposed framework and a method of data exchange between system elements. Section 3 is describing the low-level analysis modules for detection and tracking of moving objects. In Section 4 we present the object classification module. Sections 5 and 6 describe specialized modules for detection and recognition of faces and license plates, respectively....
-
Virtual Keyboard controlled by eye gaze employing speech synthesis
PublicationThe article presents the speech synthesis integrated into the eye gaze tracking system. This approach can significantly improve the quality of life of physically disabled people who are unable to communicate. The virtual keyboard (QWERTY) is an interface which allows for entering the text for the speech synthesizer. First, this article describes a methodology of determining the fixation point on a computer screen. Then it presents...
-
Multimedialny system wspomagania wykładowcy i prelegenta
PublicationW referacie przedstawiono multimedialny system wspomagania wykładowcy i prelegenta, zainstalowany w wybranych salach audytoryjnych w nowym gmachu Wydziału Elektroniki Telekomunikacji i Informatyki Politechniki Gdańskiej. System ten tworzą: wektorowe czujniki akustyczne, kamery stacjonarne oraz kamery obrotowe z możliwością regulacji ogniskowej. Opracowywany system akustyczno wizyjny stanowi część infrastruktury technicznej budowanej...
-
Improving automatic surveillance by sound analysis
PublicationAn automatic surveillance system, based on event detection in the video image can be improved by implementing algorithms for audio analysis. Dangerous or illegal actions are often connected with distinctive sound events like screams or sudden bursts of energy. A method for detection and classification of alarming sound events is presented. Detection is based on the observation of sudden changes in sound level in distinctive sub-bands...
-
Paremetrization of sounds for recognizing hazarodus events
PublicationNowoczesne systemy monitoringu działają na zasadzie automatycznego wykrywania niebezpiecznych zdarzeń na podstawie analizy obrazu z kamer i dźwięku z mikrofonów. W niniejszej publikacji skupiono się na pierwszym etapie rozpoznawania zdarzeń dźwiękowych, jakim jest parametryzacja dźwięku. Podstawą do skutecznego działania systemu jest znalezienie parametrów, których zmienność najlepiej odzwierciedla cechy charakterystyczne dźwięku...
-
Virtual keyboard controlled by eye gaze employing speech synthesis
PublicationThe article presents the speech synthesis integrated into the eye gaze tracking system. This approach can significantly improve the quality of life of physically disabled people who are unable to communicate. The virtual keyboard (QWERTY) is an interface which allows for entering the text for the speech synthesizer. First, this article describes a methodology of determining the fixation point on a computer screen. Then it presents...
-
Speech synthesis controlled by eye gazing
PublicationA method of communication based on eye gaze controlling is presented. Investigations of using gaze tracking have been carried out in various context applications. The solution proposed in the paper could be referred to as ''talking by eyes'' providing an innovative approach in the domain of speech synthesis. The application proposed is dedicated to disabled people, especially to persons in a so-called locked-in syndrome who cannot...
-
Recognition of hazardous acoustic events employing parallel processing on a supercomputing cluster . Rozpoznawanie niebezpiecznych zdarzeń dźwiękowych z wykorzystaniem równoległego przetwarzania na klastrze superkomputerowym
PublicationA method for automatic recognition of hazardous acoustic events operating on a super computing cluster is introduced. The methods employed for detecting and classifying the acoustic events are outlined. The evaluation of the recognition engine is provided: both on the training set and using real-life signals. The algorithms yield sufficient performance in practical conditions to be employed in security surveillance systems. The...
-
Adaptive system for recognition of sounds indicating threats to security of people and property employing parallel processing of audio data streams
PublicationA system for recognition of threatening acoustic events employing parallel processing on a supercomputing cluster is featured. The methods for detection, parameterization and classication of acoustic events are introduced. The recognition engine is based onthreshold-based detection with adaptive threshold and Support Vector Machine classifcation. Spectral, temporal and mel-frequency descriptors are used as signal features. The...
-
Novel 5.1 Downmix Algorithm with Improved Dialogue Intelligibility
PublicationA new algorithm for 5.1 to stereo downmix is introduced, which addresses the problem of dialogue intelligibility. The algorithm utilizes proposed signal processing algorithms to enhance the intelligibility of movie dialogues, especially in difficult listening conditions or in compromised speaker setup. To account for the latter, a playback configuration utilizing a portable device, i.e. an ultrabook, is examined. The experiments...
-
Specyfikacja niebezpiecznych i podejrzanych zdarzeń w strumieniach wizyjnych, fonicznych i multimodalnych
PublicationWspółczesne systemy monitoringu wizyjnego są złożone z wielu kamer pokrywających rozległe obszary i liczne pomieszczenia. Zakres zdarzeń zachodzących w tych kamerach, mogących stanowić poważne zagrożenia bezpieczeństwa, jest bardzo szeroki \cite{rau}. Operatorowi złożonego systemu monitoringu trudno jest zaobserwować na ekranach monitorów każde zachodzące zdarzenie, wiele praktycznie działających systemów monitoringu wizyjnego...
-
Rozpoznawanie osób i zdarzeń: Zakres badań
PublicationRozpoznawanie osób i zdarzeń, analiza strumieni wielomadalnych, cyfrowe przetwarzanie sygnałów.
-
Measurements of acoustic crosstalk cancellation efficiency in mobile listening conditions
PublicationThe cancellation of acoustic crosstalk is employed to enhance the stereo image in mobile listening conditions. The implementation of the crosstalk cancellation algorithm in Matlab is introduced. The measurement signals and equipment are described. A practical setup employing a mobile computer and a head and torso simulator is employed. The results of the measurements provided conclusions regarding the employment of acoustic crosstalk...
-
Evaluation of Sound Enhancement in Mobile Device Using Virtual Bass Synthesiss Algorithm
PublicationAn experiment conducted to validate possibility of use virtual bass synthesis (VBS) algorithm in a portable computer is presented. The subjective listening tests based on the procedure of pairwise comparison between VBS, based on the so-called missing fundamental phenomenon, and standard bass boost technique are employed. The evaluation was carried out in two types of conditions: in a professional listening room and employing an...
-
Rozpoznawanie osób i zdarzeń: Ocena jakościowa aplikacji
PublicationRozpoznawanie osób i zdarzeń, analiza strumieni wielomadalnych, cyfrowe przetwarzanie sygnałów.
-
Rozpoznawanie osób i zdarzeń: Opis aplikacji rozpoznawania obiektów i zdarzeń
PublicationRozpoznawanie osób i zdarzeń, analiza strumieni wielomadalnych, cyfrowe przetwarzanie sygnałów.
-
Rozpoznawanie osób i zdarzeń: Charakterystyka algorytmów
PublicationRozpoznawanie osób i zdarzeń, analiza strumieni wielomadalnych, cyfrowe przetwarzanie sygnałów.
seen 689 times