Filtry
wszystkich: 576
-
Katalog
Wyniki wyszukiwania dla: audio parametrization
-
MODALITY corpus - SPEAKER 35 - COMMANDS C6
Dane BadawczeThe MODALITY corpus is one of the multimodal database of word recordings in English. It consists of over 30 hours of multimodal recordings. The database contains high-resolution, high-framerate stereoscopic video streams and audio signals obtained from a microphone array and a laptop microphone. The corpus can be employed to develop an AVSR system,...
-
MODALITY corpus - SPEAKER 32 - COMMANDS C5
Dane BadawczeThe MODALITY corpus is one of the multimodal database of word recordings in English. It consists of over 30 hours of multimodal recordings. The database contains high-resolution, high-framerate stereoscopic video streams and audio signals obtained from a microphone array and a laptop microphone. The corpus can be employed to develop an AVSR system,...
-
MODALITY corpus - SPEAKER 35 - COMMANDS C5
Dane BadawczeThe MODALITY corpus is one of the multimodal database of word recordings in English. It consists of over 30 hours of multimodal recordings. The database contains high-resolution, high-framerate stereoscopic video streams and audio signals obtained from a microphone array and a laptop microphone. The corpus can be employed to develop an AVSR system,...
-
MODALITY corpus - SPEAKER 33 - COMMANDS C4
Dane BadawczeThe MODALITY corpus is one of the multimodal database of word recordings in English. It consists of over 30 hours of multimodal recordings. The database contains high-resolution, high-framerate stereoscopic video streams and audio signals obtained from a microphone array and a laptop microphone. The corpus can be employed to develop an AVSR system,...
-
MODALITY corpus - SPEAKER 27 - SEQUENCE S3
Dane BadawczeThe MODALITY corpus is one of the multimodal database of word recordings in English. It consists of over 30 hours of multimodal recordings. The database contains high-resolution, high-framerate stereoscopic video streams and audio signals obtained from a microphone array and a laptop microphone. The corpus can be employed to develop an AVSR system,...
-
MODALITY corpus - SPEAKER 27 - COMMANDS C3
Dane BadawczeThe MODALITY corpus is one of the multimodal database of word recordings in English. It consists of over 30 hours of multimodal recordings. The database contains high-resolution, high-framerate stereoscopic video streams and audio signals obtained from a microphone array and a laptop microphone. The corpus can be employed to develop an AVSR system,...
-
MODALITY corpus - SPEAKER 33 - SEQUENCE S5
Dane BadawczeThe MODALITY corpus is one of the multimodal database of word recordings in English. It consists of over 30 hours of multimodal recordings. The database contains high-resolution, high-framerate stereoscopic video streams and audio signals obtained from a microphone array and a laptop microphone. The corpus can be employed to develop an AVSR system,...
-
MODALITY corpus - SPEAKER 27 - SEQUENCE S2
Dane BadawczeThe MODALITY corpus is one of the multimodal database of word recordings in English. It consists of over 30 hours of multimodal recordings. The database contains high-resolution, high-framerate stereoscopic video streams and audio signals obtained from a microphone array and a laptop microphone. The corpus can be employed to develop an AVSR system,...
-
On the Consumption of Multimedia Content Using Mobile Devices: a Year to Year User Case Study
PublikacjaIn the early days, consumption of multimedia content related with audio signals was only possible in a stationary manner. The music player was located at home, with a necessary physical drive. An alternative way for an individual was to attend a live performance at a concert hall or host a private concert at home. To sum up, audio-visual effects were only reserved for a narrow group of recipients. Today, thanks to portable players,...
-
Subiektywny pomiar jakości sygnałów mowy i muzyki w lokalnych multipleksach radiofonii DAB+ w Gdańsku i Wrocławiu
PublikacjaRadiofonia cyfrowa DAB+ (Digital Audio Broadcasting plus) dostępna jest dla słuchaczy w Polsce od 2013 r. Standard ten oferuje szerokie możliwości konfiguracji multipleksów lokalnych nie tylko pod względem liczby, lecz także jakości nadawanych programów radiowych. Dzięki temu możliwe jest dostosowanie parametrów emitowanych sygnałów w celu sprostania oczekiwaniom odbiorców końcowych. W przeciwieństwie do radiofonii analogowej FM...
-
Developing a Low SNR Resistant, Text Independent Speaker Recognition System for Intercom Solutions - A Case Study
PublikacjaThis article presents a case study on the development of a biometric voice verification system for an intercom solution, utilizing the DeepSpeaker neural network architecture. Despite the variety of solutions available in the literature, there is a noted lack of evaluations for "text-independent" systems under real conditions and with varying distances between the speaker and the microphone. This article aims to bridge this gap....
-
Vocalic Segments Classification Assisted by Mouth Motion Capture
PublikacjaVisual features convey important information for automatic speech recognition (ASR), especially in noisy environment. The purpose of this study is to evaluate to what extent visual data (i.e. lip reading) can enhance recognition accuracy in the multi-modal approach. For that purpose motion capture markers were placed on speakers' faces to obtain lips tracking data during speaking. Different parameterizations strategies were tested...
-
Sample Rate Conversion with Fluctuating Resampling Ratio
PublikacjaIn this paper a sample rate conversion with continuouslychanging resampling ratio has been presented. The proposed implementation is based on variable fractional delay filter implemented using a Farrow structure. It have been demonstrated that using the proposed approach instantaneous resampling ratio can be freely changed. This allows for simulation of audio recored on magnetic tape with nonuniform velocity as well as removal...
-
Online Sound Restoration for Digital Library Applications
PublikacjaA system for sound restoration was conceived and engineered having the following features: no special sound restoration software is needed to perform audio restoration by the user, the process of restoration employs automatic reduction of noise, wow and impulse distortions performed in the online mode, no skills in digital signal processing from the user are needed. The principles of the created system and its features as well...
-
Sample Rate Conversion with Fluctuating Resampling Ratio
PublikacjaIn this paper a sample rate conversion with continuously changing resampling ratio has been presented. The proposed implementation is based on variable fractional delay filter implemented using a Farrow structure. It have been demonstrated that using the proposed approach instantaneous resampling ratio can be freely changed. This allows for simulation of audio recored on magnetic tape with nonuniform velocity as well as removal...
-
Visualization of events using various kinds of synchronized data for the Border Guard
PublikacjaSTRADAR project is dedicated to streaming real-time data in a distributed dispatcher and teleinfor-mation system of the Border Guard. The Events Visualization Post is a software designed for simultaneous visualization of data of different types in BG headquarters. The software allows the operator to visualize files, images, SMS, SDS, video, audio, and current or archival data on naval situation on digital maps. All the visualized...
-
Resistant to correlated noise and outliers discrete identification of continuous non-linear non-stationary dynamic objects
PublikacjaIn this article, specific methods of parameter estimation were used to identify the coefficients of continuous models represented by linear and nonlinear differential equations. The necessary discrete-time approximation of the base model is achieved by appropriately tuned FIR linear integral filters. The resulting discrete descriptions, which retain the original continuous parameterization, can then be identified using the classical...
-
Resistant to correlated noise and outliers discrete identification of continuous non-linear non-stationary dynamic objects
PublikacjaIn this study, dedicated methods of parameter estimation were used to identify the coefficients of continuous models represented by linear and nonlinear differential equations. The necessary discrete-time approximation of the base model is achieved by appropriately tuned FIR linear integral filters. The resulting discrete descriptions, which retain the original continuous parameterization, can then be identified using the classical...
-
Towards Cancer Patients Classification Using Liquid Biopsy
PublikacjaLiquid biopsy is a useful, minimally invasive diagnostic and monitoring tool for cancer disease. Yet, developing accurate methods, given the potentially large number of input features, and usually small datasets size remains very challenging. Recently, a novel feature parameterization based on the RNA-sequenced platelet data which uses the biological knowledge from the Kyoto Encyclopedia of Genes and Genomes, combined with a classifier...
-
Scenariusze przepływu pracy sprzężone z automatyczną akwizycją danych
PublikacjaPrzedstawiono tematykę inteligentnych przepływów pracy (smart workflow). Przedstawiono aplikacje oparte o inteligentne scenariusz przepływu pracy: sterowanie systemem audio, monitorowanie warunków środowiskowych pomieszczenia i dynamiczną kontekstową listę zadań. Opisano komponentową architekturę systemu. Opisano etapy poszerzające proces projektowania i implementacji. Wskazano na problemy występujące podczas wykonywania tych aplikacji...
-
Rozproszone przechowywanie zapasowych kopii danych
PublikacjaPokazano metodę wykorzystania systemu przetwarzania rozproszonego do zabezpieczenia instytucji przed skutkami ataku hakerskiego połączonego ze zniszczeniem bazy danych tej instytucji. Metoda ta polega na wplataniu pakietów danych do materiałów audio-video ściąganych przez internautów korzystających z serwisów filmowych Video-on-Demand i przechowywaniu danych w rozproszeniu na setki lub nawet tysiące komputerów.
-
SYNAT_MUSIC_GENRE_FV_173
Dane BadawczeThis is the original dataset containing 51582 music tracks (22 music genres) and 173 element-feature vector [1-6,9]. A collection of more than 50000 music excerpts described with a set of descriptors obtained through the analysis of 30-second mp3 recordings was gathered in a database called SYNAT. The SYNAT database was realized by the Gdansk University...
-
Discovering Rule-Based Learning Systems for the Purpose of Music Analysis
PublikacjaMusic analysis and processing aims at understanding information retrieved from music (Music Information Retrieval). For the purpose of music data mining, machine learning (ML) methods or statistical approach are employed. Their primary task is recognition of musical instrument sounds, music genre or emotion contained in music, identification of audio, assessment of audio content, etc. In terms of computational approach, music databases...
-
Gesture-controlled Sound Mixing System With a Sonified Interface
PublikacjaIn this paper the Authors present a novel approach to sound mixing. It is materialized in a system that enables to mix sound with hand gestures recognized in a video stream. The system has been developed in such a way that mixing operations can be performed both with or without visual support. To check the hypothesis that the mixing process needs only an auditory display, the influence of audio information visualization on sound...
-
Implementation Of The Innovative Radiolocalization System VCS-MLAT (Voice Communication System Multilateration)
PublikacjaIn the article the concept of the radiolocalization subsystem of the VHF communication for aviation VCS-MLAT (Voice Communication System – Multilateration) is presented. The distributed localization system can estimate the position of the aircraft using the audio signals from aircraft transmitters in the VHF band (118-136 MHz). This paper shows initial verification of the possibility to use voice airband communication to estimate...
-
KORPUS MOWY ANGIELSKIEJ DO CELÓW MULTIMODALNEGO AUTOMATYCZNEGO ROZPOZNAWANIA MOWY
PublikacjaW referacie zaprezentowano audiowizualny korpus mowy zawierający 31 godzin nagrań mowy w języku angielskim. Korpus dedykowany jest do celów automatycznego audiowizualnego rozpoznawania mowy. Korpus zawiera nagrania wideo pochodzące z szybkoklatkowej kamery stereowizyjnej oraz dźwięk zarejestrowany przez matrycę mikrofonową i mikrofon komputera przenośnego. Dzięki uwzględnieniu nagrań zarejestrowanych w warunkach szumowych korpus...
-
Acceleration of decision making in sound event recognition employing supercomputing cluster
PublikacjaParallel processing of audio data streams is introduced to shorten the decision making time in hazardous sound event recognition. A supercomputing cluster environment with a framework dedicated to processing multimedia data streams in real time is used. The sound event recognition algorithms employed are based on detecting foreground events, calculating their features in short time frames, and classifying the events with Support...
-
Nauka w świecie cyfrowym okiem młodego inżyniera - strumieniowanie muzyki w sieci
PublikacjaNa początku konsumpcja treści multimedialnych, związanych początkowo z sygnałami audio, była możliwa tylko w sposób stacjonarny. Odtwarzacz muzyczny znajdował się w domu, wraz z niezbędnym nośnikiem fizycznym. Alternatywnym sposobem dla jednostki był udział w występie na żywo w sali koncertowej lub zorganizowanie prywatnego koncertu w domu. Podsumowując, efekty audiowizualne były zarezerwowane tylko dla wąskiego grona odbiorców.
-
BADANIE JAKOŚCI TRANSMISJI W SYSTEMACH RADIOFONII CYFROWEJ DAB I DAB+
PublikacjaW dobie mediów cyfrowych kluczowym elementem jest dostarczanie treści wysokiej jakości. Wśród systemów radiofonii cyfrowej do najpopularniejszych należą standardy DAB i DAB+ (Digital Audio Broadcasting). Przy konfiguracji multipleksu ważne jest właściwe zarządzanie zasobami w ramach pojedynczego kanału radiowego. W artykule przedstawiono wyniki badań subiektywnych, dotyczących jakości transmisji w systemach DAB i DAB+, przeprowadzonych...
-
Selection of Features for Multimodal Vocalic Segments Classification
PublikacjaEnglish speech recognition experiments are presented employing both: audio signal and Facial Motion Capture (FMC) recordings. The principal aim of the study was to evaluate the influence of feature vector dimension reduction for the accuracy of vocalic segments classification employing neural networks. Several parameter reduction strategies were adopted, namely: Extremely Randomized Trees, Principal Component Analysis and Recursive...
-
Reception of Terrestrial DAB+ and FM Radio with a Mobile Device: A Subjective Quality Evaluation
PublikacjaNowadays, terrestrial broadcasting enables to receive content anytime and everywhere. People can obtain information both with a portable or desktop receiver, which include pocket-sized devices as well as high-end Hi-Fi equipment, not to mention car audio systems. Numerous manufacturers include FM-compatible chipsets in a variety of user equipment (UE), including mobile phones. However, digital radio signal processing modules, such...
-
Digital Transformation of Terrestrial Radio: An Analysis of Simulcasted Broadcasts in FM and DAB+ for a Smart and Successful Switchover
PublikacjaThe process of digitizing radio is far from over. It is an important interdisciplinary aspect, involving Big Data and AI (Artificial Intelligence) when it comes to classifying and handling content, and an organizational challenge in the Industry 4.0 concept. There exist several methods for delivering audio signals, including terrestrial broadcasting and internet streaming. Among them, the DAB+ (Digital Audio Broadcasting plus)...
-
Moving object detection and tracking for the purpose of multimodal surveillance system in urban areas
PublikacjaBackground subtraction method based on mixture of Gaussians was employed to detect all regions in a video frame denoting moving objects. Kalman filters were used for establishing relations between the regions and real moving objects in a scene and for tracking them continuously. The objects were represented by rectangles. The objects coupling with adequate regions including the relation of many-to-many was studied experimentally...
-
Metody udostępniania materiałów multimedialnych w sieciach LAN i WAN.
PublikacjaW referacie przedstawiono możliwości wzbogacania treści edukacyjnych dzięki wykorzystaniu technik multimedialnych. Uzupełnienie materiału edukacyjnego w postaci plików audio oraz wideo daje zupełnie nową jakość . Opisano jak stworzyć taki materiał, jaki jest potrzebny do realizacji oraz jak bardzo czasochłonny jest ten proces. Wnioski i spostrzeżenia zostały przedstawione na podstawie praktycznej realizacji wykładu dot. Systemu...
-
Using Physiological Signals for Emotion Recognition
PublikacjaRecognizing user’s emotions is the promising area of research in a field of human-computer interaction. It is possible to recognize emotions using facial expression, audio signals, body poses, gestures etc. but physiological signals are very useful in this field because they are spontaneous and not controllable. In this paper a problem of using physiological signals for emotion recognition is presented. The kinds of physiological...
-
Koncepcja oraz budowa modułu lokalizacyjnego w projekcie „Innowacyjna metoda lokalizowania statków powietrznych w rozproszonym systemie VCS (VCS-MLAT)”
PublikacjaArtykuł zawiera koncepcję, schemat oraz opis modułu lokalizacyjnego demonstratora technologicznego systemu lokalizacyjnego statków powietrznych w rozproszonym systemie VCS (VCS-MLAT). Urządzenie ma za zadanie odebrać sygnał audio nadawany w paśmie lotniczym 118 MHz – 136 MHz i wraz ze znacznikami czasu oraz dodatkowymi parametrami przesyłane są do serwera systemu VCS. Dane odebrane z wielu modułów lokalizacyjnych pozwolą estymować...
-
Reprezentacja danych dźwiękowych w kontekście metod uczenia maszynowego
PublikacjaDźwięk odgrywa kluczową rolę w przekazywaniu informacji lub ostrzeganiu o niebezpieczeństwie. Do opracowania wydajnego cyfrowego asystenta głosowego zdolnego do efektywnej współpracy z człowiekiem niezbędne jest użycie algorytmów opisujących sygnał dźwiękowy w formie cyfrowej. W poniższej pracy skategoryzowano i opisano najpowszechniejsze metody opisu sygnałów audio używanych jako wejścia dla algorytmów uczenia maszynowego. Wskazano...
-
Lighting education for architects, the barriers and challenges: a survey of architecture students
PublikacjaCreating a well-lit environment requires the understanding of daylight and electric lighting design principles within the built environment. Recent years have brought a large number of new lighting assessment and design methods. The discovery of new photoreceptor cells in the eye - photosensitive retinal ganglion cells - forced lighting researchers to focus on parametrisation for the image forming (IF) and non-image forming (NIF)...
-
Robustness analysis of watermarking-based dtd algorithm under time-variable echo conditions
PublikacjaA novel double-talk detection (DTD) algorithm based on techniques similar to those used for audio signal watermarking was introduced by the authors. The application of the described DTD algorithm within acoustic echo cancellation system is presented. The problem of DTD robustness to time-varying conditions of acoustic echo path is discussed and explanation as to why such conditions occur in practical situations is provided. The...
-
Performance of Watermarking-based DTD Algorithm Under Time-varying Echo Path Conditions
PublikacjaA novel double-talk detection (DTD) algorithm based on techniques similar to those used for audio signal watermarking was introduced by the authors. The application of the described DTD algorithm within acoustic echo cancellation system is presented. The problem of DTD robustness to time-varying conditions of acoustic echo path is discussed and explanation as to why such conditions occur in practical situations is provided. The...
-
Evaluation of Sound Enhancement in Mobile Device Using Virtual Bass Synthesiss Algorithm
PublikacjaAn experiment conducted to validate possibility of use virtual bass synthesis (VBS) algorithm in a portable computer is presented. The subjective listening tests based on the procedure of pairwise comparison between VBS, based on the so-called missing fundamental phenomenon, and standard bass boost technique are employed. The evaluation was carried out in two types of conditions: in a professional listening room and employing an...
-
Badanie efektywności kodeków źródłowych w radiofonii cyfrowej DAB+
PublikacjaW Polsce radiofonia cyfrowa jest dostępna dla słuchaczy już od 2013 roku. Jednakże brakuje ogólnodostępnych publikacji naukowych lub też raportów badawczych uzasadniających przyjęte przepływności dla strumieni audio. W artykule przedstawiono badania sprawności kodowania oraz subiektywnej oceny jakości kodeka MPEG-4 HE-AAC v2, wykorzystywanego w standardzie DAB+. Testy prze-prowadzono wg. techniki porównawczej MUSHRA na dwóch grupach,...
-
Influence of the Delay in Monitor System on the Motor Coordination of Musicians while Performing
PublikacjaThis paper provides a description and results of measurements of the maximum acceptable value of delay tolerated by a musician, while playing an instrument, that does not cause de-synchronization and discomfort. First, methodology of measurements comprising audio recording and a fast camera is described. Then, themeasurement procedure for acquiring the maximum value of delay conditioning...
-
TRANSMISJA GŁOSOWYCH KOMUNIKATÓW DROGOWYCH W RADIOFONII CYFROWEJ DAB+
PublikacjaProces cyfryzacji radia jest nowym rozdziałem w historii radiofonii. Wiele rekomendacji i badań naukowych wskazuje na standard DAB+ (Digital Audio Broadcasting plus), który w niedalekiej przyszłości ma zastąpić analogową radiofonię FM. Ten system cyfrowy wprowadza wiele zmian, oferując przy tym lepszą jakość dźwięku oraz szereg usług dodatkowych. W pracy postanowiono zbadać minimalną wymaganą przepływność bitową potrzebną do transmisji...
-
Intelligent equalizer solution employing music genre and the room characteristics analysis
PublikacjaThe paper presents an intelligent equalizer solution based on room acoustic conditions and music genre analysis. A series of acoustic characteristic measurements are performed for checking the concept proposed. White noise (reference signal) and audio excerpts belonging to six music genres are utilized as excitation signals in measurements. This results in registration of frequency responses of rooms and reverberation times. Signals...
-
SUBIEKTYWNA OCENA MULTIPLEKSU RADIOFONII LOKALNEJ DAB+ DZIAŁAJĄCEJ W GDAŃSKU I WROCŁAWIU
PublikacjaStandard DAB+ (Digital Audio Broadcasting plus) jest wiodącym systemem naziemnej radiofonii cyfrowej. W porównaniu do analogowej radiofonii FM wszystkie usługi, obejmujące tradycyjne programy radiowe oraz usługi transmisji danych, grupowane są w zbiór (ensemble). Praca ta przedstawia proces rekonfiguracji polskiego multipleksu na przykładzie lokalnej radiofonii DAB+ w Gdańsku i Wrocławiu. Opisuje wyniki badań subiektywnych dotyczących...
-
Porównanie detekcji obwiedni i detekcji synchronicznej w radioodbiornikach lotniczych VHF
PublikacjaArtykuł przedstawia porównanie detekcji obwiedniowej oraz detekcji koherentnej dla sygnałów audio zmodulowa-nych amplitudowo (A3E) w paśmie lotniczym VHF [118 MHz - 136 MHz]. Wykonane badania miały na celu porównanie metod detekcji oraz wskazanie, która z nich charakteryzuje się wyższą jakością estymacji czasów nadejścia sygnałów. Dokonano pomiarów opóźnień sygnałów wyjściowych dla dwóch radiostacji lotniczych stosując korelację...
-
Subiektywny pomiar jakości programów radiowych strumieniowanych w sieci metodą crowdsourcingu
PublikacjaObecnie słuchacze mają dostęp do swoich ulubionych programów i audycji radiowych za pośrednictwem naziemnego standardu analogowego FM (Frequency Modulation) oraz cyfrowego DAB+ (Digital Audio Broadcasting plus). Należy podkreślić, że ten sam materiał nadawany jest jednocześnie w kilku technikach (tzw. simulcast), a znaczna większość rozgłośni udostępnia swoje programy także online. Niniejsza praca przedstawia wyniki badań dotyczących...
-
Introduction of SAF-T in selected European countries together with applicable national names
Dane BadawczeAmong the methods used by individual countries in norder to seal the tax collection the introduction of the Standard Audit File for Tax is one of the most important ones.
-
SYNAT Music Genre Parameters PCA 19
Dane BadawczeThe dataset contains feature vector after Principal Component Analysis (PCA) performing, so there are 11 music genres and 19-element vector derived from music excerpts. Originally, a feature vector containing 173 elements was conceived in earlier research studies carried out by the team of authors [1-6]. A collection of 52532 music excerpts described...