Filters
total: 209
filtered: 207
Chosen catalog filters
Search results for: audio quality
-
Methodology and technology for the polymodal allophonic speech transcription
PublicationA method for automatic audiovisual transcription of speech employing: acoustic and visual speech representations is developed. It adopts a combining of audio and visual modalities, which provide a synergy effect in terms of speech recognition accuracy. To establish a robust solution, basic research concerning the relation between the allophonic variation of speech, i.e. the changes in the articulatory setting of speech organs for...
-
Methodology and technology for the polymodal allophonic speech transcription
PublicationA method for automatic audiovisual transcription of speech employing: acoustic, electromagnetical articulography and visual speech representations is developed. It adopts a combining of audio and visual modalities, which provide a synergy effect in terms of speech recognition accuracy. To establish a robust solution, basic research concerning the relation between the allophonic variation of speech, i.e., the changes in the articulatory...
-
EVENTS VISUALIZATION POST IN A DISTRIBUTED TELEINFORMATION SYSTEM FOR THE BORDER GUARD
PublicationEvents Visualization Post is a part of the STRADAR project, which is dedicated to streaming real-time data in distributed dispatcher and teleinformation systems of the Border Guard. Events Visualization Post is a software designed for simultaneous visualization of data of different types. In the paper, the structure of the software is presented, the process of generation of tasks is described, and the visualization of audio, files,...
-
Data Analysis in Bridge of Data
PublicationThe chapter presents the data analysis aspects of the Bridge of Data project. The software framework used, Jupyter, and its configuration are presented. The solution’s architecture, including the TRYTON supercomputer as the underlying infrastructure, is described. The use case templates provided by the Stat-reducer application are presented, including data analysis related to spatial points’ cloud-, audio- and wind-related research.
-
Subiektywny pomiar jakości sygnałów mowy i muzyki w lokalnych multipleksach radiofonii DAB+ w Gdańsku i Wrocławiu
PublicationRadiofonia cyfrowa DAB+ (Digital Audio Broadcasting plus) dostępna jest dla słuchaczy w Polsce od 2013 r. Standard ten oferuje szerokie możliwości konfiguracji multipleksów lokalnych nie tylko pod względem liczby, lecz także jakości nadawanych programów radiowych. Dzięki temu możliwe jest dostosowanie parametrów emitowanych sygnałów w celu sprostania oczekiwaniom odbiorców końcowych. W przeciwieństwie do radiofonii analogowej FM...
-
On the Consumption of Multimedia Content Using Mobile Devices: a Year to Year User Case Study
PublicationIn the early days, consumption of multimedia content related with audio signals was only possible in a stationary manner. The music player was located at home, with a necessary physical drive. An alternative way for an individual was to attend a live performance at a concert hall or host a private concert at home. To sum up, audio-visual effects were only reserved for a narrow group of recipients. Today, thanks to portable players,...
-
Sample Rate Conversion with Fluctuating Resampling Ratio
PublicationIn this paper a sample rate conversion with continuouslychanging resampling ratio has been presented. The proposed implementation is based on variable fractional delay filter implemented using a Farrow structure. It have been demonstrated that using the proposed approach instantaneous resampling ratio can be freely changed. This allows for simulation of audio recored on magnetic tape with nonuniform velocity as well as removal...
-
Online Sound Restoration for Digital Library Applications
PublicationA system for sound restoration was conceived and engineered having the following features: no special sound restoration software is needed to perform audio restoration by the user, the process of restoration employs automatic reduction of noise, wow and impulse distortions performed in the online mode, no skills in digital signal processing from the user are needed. The principles of the created system and its features as well...
-
Visualization of events using various kinds of synchronized data for the Border Guard
PublicationSTRADAR project is dedicated to streaming real-time data in a distributed dispatcher and teleinfor-mation system of the Border Guard. The Events Visualization Post is a software designed for simultaneous visualization of data of different types in BG headquarters. The software allows the operator to visualize files, images, SMS, SDS, video, audio, and current or archival data on naval situation on digital maps. All the visualized...
-
Sample Rate Conversion with Fluctuating Resampling Ratio
PublicationIn this paper a sample rate conversion with continuously changing resampling ratio has been presented. The proposed implementation is based on variable fractional delay filter implemented using a Farrow structure. It have been demonstrated that using the proposed approach instantaneous resampling ratio can be freely changed. This allows for simulation of audio recored on magnetic tape with nonuniform velocity as well as removal...
-
System for automatic singing voice recognition
PublicationW artykule przedstawiono system automatycznego rozpoznawania jakości i typu głosu śpiewaczego. Przedstawiono bazę danych oraz zaimplementowane parametry. Algorytmem decyzyjnym jest algorytm sztucznych sieci neuronowych. Wytrenowany system decyzyjny osiąga skuteczność ok. 90% w obydwu kategoriach rozpoznawania. Dodatkowo wykazano przy pomocy metod statystycznych, że wyniki działania systemu automatycznej oceny jakości technicznej...
-
Scenariusze przepływu pracy sprzężone z automatyczną akwizycją danych
PublicationPrzedstawiono tematykę inteligentnych przepływów pracy (smart workflow). Przedstawiono aplikacje oparte o inteligentne scenariusz przepływu pracy: sterowanie systemem audio, monitorowanie warunków środowiskowych pomieszczenia i dynamiczną kontekstową listę zadań. Opisano komponentową architekturę systemu. Opisano etapy poszerzające proces projektowania i implementacji. Wskazano na problemy występujące podczas wykonywania tych aplikacji...
-
Rozproszone przechowywanie zapasowych kopii danych
PublicationPokazano metodę wykorzystania systemu przetwarzania rozproszonego do zabezpieczenia instytucji przed skutkami ataku hakerskiego połączonego ze zniszczeniem bazy danych tej instytucji. Metoda ta polega na wplataniu pakietów danych do materiałów audio-video ściąganych przez internautów korzystających z serwisów filmowych Video-on-Demand i przechowywaniu danych w rozproszeniu na setki lub nawet tysiące komputerów.
-
Verification of the Parameterization Methods in the Context of Automatic Recognition of Sounds Related to Danger
PublicationW artykule opisano aplikację, która automatycznie wykrywa zdarzenia dźwiękowe takie jak: rozbita szyba, wystrzał, wybuch i krzyk. Opisany system składa się z bloku parametryzacji i klasyfikatora. W artykule dokonano porównania parametrów dedykowanych dla tego zastosowania oraz standardowych deskryptorów MPEG-7. Porównano też dwa klasyfikatory: Jeden oparty o Percetron (sieci neuronowe) i drugi oparty o Maszynę wektorów wspierających....
-
Discovering Rule-Based Learning Systems for the Purpose of Music Analysis
PublicationMusic analysis and processing aims at understanding information retrieved from music (Music Information Retrieval). For the purpose of music data mining, machine learning (ML) methods or statistical approach are employed. Their primary task is recognition of musical instrument sounds, music genre or emotion contained in music, identification of audio, assessment of audio content, etc. In terms of computational approach, music databases...
-
Objectivization of phonological evaluation of speech elements by means of audio parametrization
PublicationThis study addresses two issues related to both machine- and subjective-based speech evaluation by investigating five phonological phenomena related to allophone production. Its aim is to use objective parametrization and phonological classification of the recorded allophones. These allophones were selected as specifically difficult for Polish speakers of English: aspiration, final obstruent devoicing, dark lateral /l/, velar nasal...
-
Gesture-controlled Sound Mixing System With a Sonified Interface
PublicationIn this paper the Authors present a novel approach to sound mixing. It is materialized in a system that enables to mix sound with hand gestures recognized in a video stream. The system has been developed in such a way that mixing operations can be performed both with or without visual support. To check the hypothesis that the mixing process needs only an auditory display, the influence of audio information visualization on sound...
-
Implementation Of The Innovative Radiolocalization System VCS-MLAT (Voice Communication System Multilateration)
PublicationIn the article the concept of the radiolocalization subsystem of the VHF communication for aviation VCS-MLAT (Voice Communication System – Multilateration) is presented. The distributed localization system can estimate the position of the aircraft using the audio signals from aircraft transmitters in the VHF band (118-136 MHz). This paper shows initial verification of the possibility to use voice airband communication to estimate...
-
BADANIE JAKOŚCI TRANSMISJI W SYSTEMACH RADIOFONII CYFROWEJ DAB I DAB+
PublicationW dobie mediów cyfrowych kluczowym elementem jest dostarczanie treści wysokiej jakości. Wśród systemów radiofonii cyfrowej do najpopularniejszych należą standardy DAB i DAB+ (Digital Audio Broadcasting). Przy konfiguracji multipleksu ważne jest właściwe zarządzanie zasobami w ramach pojedynczego kanału radiowego. W artykule przedstawiono wyniki badań subiektywnych, dotyczących jakości transmisji w systemach DAB i DAB+, przeprowadzonych...
-
Selection of Features for Multimodal Vocalic Segments Classification
PublicationEnglish speech recognition experiments are presented employing both: audio signal and Facial Motion Capture (FMC) recordings. The principal aim of the study was to evaluate the influence of feature vector dimension reduction for the accuracy of vocalic segments classification employing neural networks. Several parameter reduction strategies were adopted, namely: Extremely Randomized Trees, Principal Component Analysis and Recursive...
-
Acceleration of decision making in sound event recognition employing supercomputing cluster
PublicationParallel processing of audio data streams is introduced to shorten the decision making time in hazardous sound event recognition. A supercomputing cluster environment with a framework dedicated to processing multimedia data streams in real time is used. The sound event recognition algorithms employed are based on detecting foreground events, calculating their features in short time frames, and classifying the events with Support...
-
Nauka w świecie cyfrowym okiem młodego inżyniera - strumieniowanie muzyki w sieci
PublicationNa początku konsumpcja treści multimedialnych, związanych początkowo z sygnałami audio, była możliwa tylko w sposób stacjonarny. Odtwarzacz muzyczny znajdował się w domu, wraz z niezbędnym nośnikiem fizycznym. Alternatywnym sposobem dla jednostki był udział w występie na żywo w sali koncertowej lub zorganizowanie prywatnego koncertu w domu. Podsumowując, efekty audiowizualne były zarezerwowane tylko dla wąskiego grona odbiorców.
-
Music Information Retrieval – Soft Computing versus Statistics . Wyszukiwanie informacji muzycznej - algorytmy uczące versus metody statystyczne
PublicationMusic Information Retrieval (MIR) is an interdisciplinary research area that covers automated extraction of information from audio signals, music databases and services enabling the indexed information searching. In the early stages the primary focus of MIR was on music information through Query-by-Humming (QBH) applications, i.e. on identifying a piece of music by singing (singing/whistling), while more advanced implementations...
-
Metody udostępniania materiałów multimedialnych w sieciach LAN i WAN.
PublicationW referacie przedstawiono możliwości wzbogacania treści edukacyjnych dzięki wykorzystaniu technik multimedialnych. Uzupełnienie materiału edukacyjnego w postaci plików audio oraz wideo daje zupełnie nową jakość . Opisano jak stworzyć taki materiał, jaki jest potrzebny do realizacji oraz jak bardzo czasochłonny jest ten proces. Wnioski i spostrzeżenia zostały przedstawione na podstawie praktycznej realizacji wykładu dot. Systemu...
-
Moving object detection and tracking for the purpose of multimodal surveillance system in urban areas
PublicationBackground subtraction method based on mixture of Gaussians was employed to detect all regions in a video frame denoting moving objects. Kalman filters were used for establishing relations between the regions and real moving objects in a scene and for tracking them continuously. The objects were represented by rectangles. The objects coupling with adequate regions including the relation of many-to-many was studied experimentally...
-
Koncepcja oraz budowa modułu lokalizacyjnego w projekcie „Innowacyjna metoda lokalizowania statków powietrznych w rozproszonym systemie VCS (VCS-MLAT)”
PublicationArtykuł zawiera koncepcję, schemat oraz opis modułu lokalizacyjnego demonstratora technologicznego systemu lokalizacyjnego statków powietrznych w rozproszonym systemie VCS (VCS-MLAT). Urządzenie ma za zadanie odebrać sygnał audio nadawany w paśmie lotniczym 118 MHz – 136 MHz i wraz ze znacznikami czasu oraz dodatkowymi parametrami przesyłane są do serwera systemu VCS. Dane odebrane z wielu modułów lokalizacyjnych pozwolą estymować...
-
Using Physiological Signals for Emotion Recognition
PublicationRecognizing user’s emotions is the promising area of research in a field of human-computer interaction. It is possible to recognize emotions using facial expression, audio signals, body poses, gestures etc. but physiological signals are very useful in this field because they are spontaneous and not controllable. In this paper a problem of using physiological signals for emotion recognition is presented. The kinds of physiological...
-
Reprezentacja danych dźwiękowych w kontekście metod uczenia maszynowego
PublicationDźwięk odgrywa kluczową rolę w przekazywaniu informacji lub ostrzeganiu o niebezpieczeństwie. Do opracowania wydajnego cyfrowego asystenta głosowego zdolnego do efektywnej współpracy z człowiekiem niezbędne jest użycie algorytmów opisujących sygnał dźwiękowy w formie cyfrowej. W poniższej pracy skategoryzowano i opisano najpowszechniejsze metody opisu sygnałów audio używanych jako wejścia dla algorytmów uczenia maszynowego. Wskazano...
-
Badanie efektywności kodeków źródłowych w radiofonii cyfrowej DAB+
PublicationW Polsce radiofonia cyfrowa jest dostępna dla słuchaczy już od 2013 roku. Jednakże brakuje ogólnodostępnych publikacji naukowych lub też raportów badawczych uzasadniających przyjęte przepływności dla strumieni audio. W artykule przedstawiono badania sprawności kodowania oraz subiektywnej oceny jakości kodeka MPEG-4 HE-AAC v2, wykorzystywanego w standardzie DAB+. Testy prze-prowadzono wg. techniki porównawczej MUSHRA na dwóch grupach,...
-
TRANSMISJA GŁOSOWYCH KOMUNIKATÓW DROGOWYCH W RADIOFONII CYFROWEJ DAB+
PublicationProces cyfryzacji radia jest nowym rozdziałem w historii radiofonii. Wiele rekomendacji i badań naukowych wskazuje na standard DAB+ (Digital Audio Broadcasting plus), który w niedalekiej przyszłości ma zastąpić analogową radiofonię FM. Ten system cyfrowy wprowadza wiele zmian, oferując przy tym lepszą jakość dźwięku oraz szereg usług dodatkowych. W pracy postanowiono zbadać minimalną wymaganą przepływność bitową potrzebną do transmisji...
-
Influence of the Delay in Monitor System on the Motor Coordination of Musicians while Performing
PublicationThis paper provides a description and results of measurements of the maximum acceptable value of delay tolerated by a musician, while playing an instrument, that does not cause de-synchronization and discomfort. First, methodology of measurements comprising audio recording and a fast camera is described. Then, themeasurement procedure for acquiring the maximum value of delay conditioning...
-
Performance of Watermarking-based DTD Algorithm Under Time-varying Echo Path Conditions
PublicationA novel double-talk detection (DTD) algorithm based on techniques similar to those used for audio signal watermarking was introduced by the authors. The application of the described DTD algorithm within acoustic echo cancellation system is presented. The problem of DTD robustness to time-varying conditions of acoustic echo path is discussed and explanation as to why such conditions occur in practical situations is provided. The...
-
Robustness analysis of watermarking-based dtd algorithm under time-variable echo conditions
PublicationA novel double-talk detection (DTD) algorithm based on techniques similar to those used for audio signal watermarking was introduced by the authors. The application of the described DTD algorithm within acoustic echo cancellation system is presented. The problem of DTD robustness to time-varying conditions of acoustic echo path is discussed and explanation as to why such conditions occur in practical situations is provided. The...
-
Elimination of impulsive disturbances from archive audio files – comparison of three noise pulse detection schemes
PublicationThe problem of elimination of impulsive disturbances (such as clicks, pops, ticks, crackles, and record scratches) from archive audio recordings is considered and solved using autoregressive modeling. Three classical noise pulse detection schemes are examined and compared: the approach based on open-loop multi-step-ahead signal prediction, the approach based on decision-feedback signal prediction, and the double threshold approach,...
-
Evaluation of Sound Enhancement in Mobile Device Using Virtual Bass Synthesiss Algorithm
PublicationAn experiment conducted to validate possibility of use virtual bass synthesis (VBS) algorithm in a portable computer is presented. The subjective listening tests based on the procedure of pairwise comparison between VBS, based on the so-called missing fundamental phenomenon, and standard bass boost technique are employed. The evaluation was carried out in two types of conditions: in a professional listening room and employing an...
-
SUBIEKTYWNA OCENA MULTIPLEKSU RADIOFONII LOKALNEJ DAB+ DZIAŁAJĄCEJ W GDAŃSKU I WROCŁAWIU
PublicationStandard DAB+ (Digital Audio Broadcasting plus) jest wiodącym systemem naziemnej radiofonii cyfrowej. W porównaniu do analogowej radiofonii FM wszystkie usługi, obejmujące tradycyjne programy radiowe oraz usługi transmisji danych, grupowane są w zbiór (ensemble). Praca ta przedstawia proces rekonfiguracji polskiego multipleksu na przykładzie lokalnej radiofonii DAB+ w Gdańsku i Wrocławiu. Opisuje wyniki badań subiektywnych dotyczących...
-
Intelligent equalizer solution employing music genre and the room characteristics analysis
PublicationThe paper presents an intelligent equalizer solution based on room acoustic conditions and music genre analysis. A series of acoustic characteristic measurements are performed for checking the concept proposed. White noise (reference signal) and audio excerpts belonging to six music genres are utilized as excitation signals in measurements. This results in registration of frequency responses of rooms and reverberation times. Signals...
-
Porównanie detekcji obwiedni i detekcji synchronicznej w radioodbiornikach lotniczych VHF
PublicationArtykuł przedstawia porównanie detekcji obwiedniowej oraz detekcji koherentnej dla sygnałów audio zmodulowa-nych amplitudowo (A3E) w paśmie lotniczym VHF [118 MHz - 136 MHz]. Wykonane badania miały na celu porównanie metod detekcji oraz wskazanie, która z nich charakteryzuje się wyższą jakością estymacji czasów nadejścia sygnałów. Dokonano pomiarów opóźnień sygnałów wyjściowych dla dwóch radiostacji lotniczych stosując korelację...
-
Towards Audio Signal Equalization Based on Spectral Characteristics of a Listening Room and Music Content Reproduced
PublicationThis study presents investigations of the influence of the room acoustics on the frequency characteristic of the audio signal playback. First, the concept of a novel spectral equalization method of the room acoustic conditions is introduced. On the basis of the room spectral response, a system for room acoustics compensation based on an equalizer designed is proposed. The system settings depend on music genre recognized automatically....
-
Multimodal English corpus for automatic speech recognition
PublicationA multimodal corpus developed for research of speech recognition based on audio-visual data is presented. Besides usual video and sound excerpts, the prepared database contains also thermovision images and depth maps. All streams were recorded simultaneously, therefore the corpus enables to examine the importance of the information provided by different modalities. Based on the recordings, it is also possible to develop a speech...
-
Subiektywny pomiar jakości programów radiowych strumieniowanych w sieci metodą crowdsourcingu
PublicationObecnie słuchacze mają dostęp do swoich ulubionych programów i audycji radiowych za pośrednictwem naziemnego standardu analogowego FM (Frequency Modulation) oraz cyfrowego DAB+ (Digital Audio Broadcasting plus). Należy podkreślić, że ten sam materiał nadawany jest jednocześnie w kilku technikach (tzw. simulcast), a znaczna większość rozgłośni udostępnia swoje programy także online. Niniejsza praca przedstawia wyniki badań dotyczących...
-
New approach for determining the QoS of MP3-coded voice signals in IP networks
PublicationPresent-day IP transport platforms being what they are, it will never be possible to rule out conflicts between the available services. The logical consequence of this assertion is the inevitable conclusion that the quality of service (QoS) must always be quantifiable no matter what. This paper focuses on one method to determine QoS. It defines an innovative, simple model that can evaluate the QoS of MP3-coded voice data transported...
-
Auto adaptation of mobile device characteristics to various acoustic conditions
PublicationThe proposed methodology of auto adaptation of the mobile device characteristics to various acoustic conditions is presented in the paper. The first goal of this study was to determine the parameters of the acoustic path of the mobile device, for both transmitting (speaker) and receiver (microphone). Results of the measurement of characteristics of mobile devices were presented. Information about characteristics of individual parts...
-
Automatic music genre classification based on musical instrument track separation / Automatyczna klasyfikacja gatunku muzycznego wykorzystująca algorytm separacji dźwięku instrumentó muzycznych
PublicationThe aim of this article is to investigate whether separating music tracks at the pre-processing phase and extending feature vector by parameters related to the specific musical instruments that are characteristic for the given musical genre allow for efficient automatic musical genre classification in case of database containing thousands of music excerpts and a dozen of genres. Results of extensive experiments show that the approach...
-
The central server of the Border Guard's distributed multimedia system for monitoring and visualisation of ongoing and archival events
PublicationThe paper presents the architecture and functionalities of the central server (CENTER) of the distributed system for the Polish Border Guard (BG) for monitoring maritime areas. The overall system has been extended to incorporate, apart from map data, also different multimedia elements such as video from cameras or audio from telephone connections operated by BG units. This requires new system elements: Archive Servers for storing...
-
Recognition of hazardous acoustic events employing parallel processing on a supercomputing cluster . Rozpoznawanie niebezpiecznych zdarzeń dźwiękowych z wykorzystaniem równoległego przetwarzania na klastrze superkomputerowym
PublicationA method for automatic recognition of hazardous acoustic events operating on a super computing cluster is introduced. The methods employed for detecting and classifying the acoustic events are outlined. The evaluation of the recognition engine is provided: both on the training set and using real-life signals. The algorithms yield sufficient performance in practical conditions to be employed in security surveillance systems. The...
-
A commonly-accessible toolchain for live streaming music events with higher-order ambisonic audio and 4k 360 vision
PublicationAn immersive live stream is especially interesting in the ongoing development of telepresence tools, especially in the virtual reality (VR) or mixed reality (MR) domain. This paper explores the remote and immersive way of enabling telepresence for the audience to high-fidelity music performance using freely-available and easily-accessible tools. A functional VR live-streaming toolchain, comprising 360 vision and higher-order ambisonic...
-
Comparison of sound of organ pipes in contemporary and historical instruments
PublicationThe aim of this research is to examine the differences in the timbre of organ pipes’ sound between a historical and a contemporary organ instrument. The historical instrument is the Oliwa organ from Gdansk, Poland, and the contemporary one is from Kartuzy, Poland. Recordings are made of single notes played by an open labial pipe that belongs to the Principal rank. The analyses and comparison of several sound features compatible...
-
New semi-causal and noncausal techniques for detection of impulsive disturbances in multivariate signals with audio applications
PublicationThis paper deals with the problem of localization of impulsive disturbances in nonstationary multivariate signals. Both unidirectional and bidirectional (noncausal) detection schemes are proposed. It is shown that the strengthened pulse detection rule, which combines analysis of one-step-ahead signal prediction errors with critical evaluation of leave-one-out signal interpolation errors, allows one to noticeably improve detection results...
-
Processing of musical data employing rough sets and artificial neural networks
PublicationArtykuł opisuje założenia systemu automatycznej identyfikacji muzyki i dźwięków muzycznych. Dokonano przeglądu standardu MPEG-7, ze szczególnym naciskiem na parametry opisowe dźwięku. Przedyskutowano problemy analizy danych audio, związane z zastosowaniami wykorzystującymi MPEG-7. W oparciu o eksperymenty przedstawiono efektywność deskryptorów niskiego poziomu w automatycznym rozpoznawaniu dźwięków instrumentów muzycznych. Przedyskutowano...