Filters
total: 499
filtered: 289
-
Catalog
Chosen catalog filters
Search results for: ARCHIWIZACJA AUDIO-WIDEO
-
Automatic music signal mixing system based on one-dimensional Wave-U-Net autoencoders
PublicationThe purpose of this paper is to show a music mixing system that is capable of automatically mixing separate raw recordings with good quality regardless of the music genre. This work recalls selected methods for automatic audio mixing first. Then, a novel deep model based on one-dimensional Wave-U-Net autoencoders is proposed for automatic music mixing. The model is trained on a custom-prepared database. Mixes created using the...
-
Analysis of 2D Feature Spaces for Deep Learning-based Speech Recognition
Publicationconvolutional neural network (CNN) which is a class of deep, feed-forward artificial neural network. We decided to analyze audio signal feature maps, namely spectrograms, linear and Mel-scale cepstrograms, and chromagrams. The choice was made upon the fact that CNN performs well in 2D data-oriented processing contexts. Feature maps were employed in the Lithuanian word recognition task. The spectral analysis led to the highest word...
-
Bass Enhancement Settings in Portable Devices Based on Music Genre Recognition
PublicationThe paper presents a novel approach to the Virtual Bass Synthesis (VBS) applied to mobile devices, called Smart VBS (SVBS). The proposed algorithm uses an intelligent, rule-based setting of bass synthesis parameters adjusted to the particular music genre. Harmonic generation is based on a nonlinear device (NLD) method with the intelligent controlling system adapting to the recognized music genre. To automatically classify music...
-
Measuring and Analyzing Audio Levels in Film, Commercials, and Movie Trailers Using Leq(A) Values and the LUFS Loudness Model . Analiza pomiarów dźwięku w filmie oraz w reklamach filmowych z wykorzystaniem modelu głośności
PublicationThe purpose of this paper is to describe the measurement of loudness levels in movies, movie trailers, and commercials displayed before feature films at movie theaters. In the initial section, the paper discusses the issues related to measurement of loudness levels, provides recommendations regarding permissible loudness levels during movie screenings, and mentions the applied units of measurement. The following section of the...
-
SYSTEMY BEZDOTYKOWEJ OCENY PARAMETRÓW ŻYCIOWYCH
PublicationW rozdziale przedstawiono metody ekstrakcji sygnałów biomedycznych i parametrów medycznych z wideo twarzy. W szczególności omówiono metody pozyskiwania pulsu w wideo uzyskiwanego w zakresie widzialnym oraz parametrów oddychania z zapisów sekwencji obrazów termograficznych.
-
Dynamic Bayesian Networks for Symbolic Polyphonic Pitch Modeling
PublicationSymbolic pitch modeling is a way of incorporating knowledge about relations between pitches into the process of an- alyzing musical information or signals. In this paper, we propose a family of probabilistic symbolic polyphonic pitch models, which account for both the “horizontal” and the “vertical” pitch struc- ture. These models are formulated as linear or log-linear interpo- lations of up to fi ve sub-models, each of which is...
-
Instalacja artystyczna "W sztuce lubię: romantyzm, poezję i figle"
PublicationInstalacja artystyczna "W sztuce lubię: romantyzm, poezję i figle" instalacja z 70 koszul męskich różnego koloru, wraz z wideo wyświetlanym na suficie. Wystawa w Instytucie Cybernetyki Sztuki.
-
Automatic sound recognition for security purposes
PublicationIn the paper an automatic sound recognition system is presented. It forms a part of a bigger security system developed in order to monitor outdoor places for non-typical audio-visual events. The analyzed audio signal is being recorded from a microphone mounted in an outdoor place thus a non stationary noise of a significant energy is present in it. In the paper an especially designed algorithm for outdoor noise reduction is presented,...
-
Workflow application for detection of unwanted events
PublicationZaprezentowano rozproszoną aplikację do wykrywania potencjalnie niebezpiecznych zdarzeń z wejściowych strumieni wideo. Rozpoznanie niepożądanych zdarzeń wywołuje alarmy i wysyła powiadomienia do odpowiednich służb, jak również powoduje zarejestrowanie filmu. Model aplikacji składa się z węzłów z kamerami, pobierajacych strumienie danych, przetwarzajacych dane, wysyłajacych powiadomienia i zapisujacych dane. Zaimplementowana aplikacja...
-
QoS/QoE in the Heterogeneous Internet of Things (IoT)
PublicationApplications provided in the Internet of Things can generally be divided into three categories: audio, video and data. This has given rise to the popular term Triple Play Services. The most important audio applications are VoIP and audio streaming. The most notable video applications are VToIP, IPTV, and video streaming, and the service WWW is the most prominent example of data-type services. This chapter elaborates on the most...
-
Akcelerator transformacji DCT do kompresji obrazu w sensorach wizyjnych
PublicationW komunikacie przedstawiono konfigurowalny cyfrowyakcelerator transformacji DCT przeznaczony dla enkodera wideo standardu H.264. Akcelerator realizuje także odwrotnątransformacjęDCT oraz kwantyzację i dekwantyzację. Akcelerator początkowo zaimplementowano w układzie FPGA. Został on pomyślnie zweryfikowany, a następnie zaimplementowany w układzie ASIC w technologiiUMC 90 nm. Szczegółowe wyniki testów akceleratora ASIC zostały...
-
Akcelerator transformacji DCT do kompresji obrazu w sensorach wizyjnych
PublicationW komunikacie przedstawiono konfigurowalny cyfrowy akcelerator transformacji DCT przeznaczony dla enkodera wideo standardu H.264. Akcelerator realizuje także odwrotnątransformacjęDCT oraz kwantyzacjęi dekwantyzację. Akcelerator początkowo zaimplementowano w układzie FPGA. Zostałon pomyślnie zweryfikowany, a następnie zaimplementowany w układzie ASIC w technologii UMC 90 nm. Szczegółowe wyniki testów akceleratora ASIC zostały...
-
Material for Automatic Phonetic Transcription of Speech Recorded in Various Conditions
PublicationAutomatic speech recognition (ASR) is under constant development, especially in cases when speech is casually produced or it is acquired in various environment conditions, or in the presence of background noise. Phonetic transcription is an important step in the process of full speech recognition and is discussed in the presented work as the main focus in this process. ASR is widely implemented in mobile devices technology, but...
-
Analiza stanu nawierzchni i klas pojazdów na podstawie parametrów ekstrahowanych z sygnału fonicznego
PublicationCelem badań jest poszukiwanie parametrów wektora cech ekstrahowanego z sygnału fonicznego w kontekście automatycznego rozpoznawania stanu nawierzchni jezdni oraz typu pojazdów. W pierwszej kolejności przedstawiono wpływ warunków pogodowych na charakterystykę widmową sygnału fonicznego rejestrowanego przy przejeżdżających pojazdach. Następnie, dokonano parametryzacji sygnału fonicznego oraz przeprowadzano analizę korelacyjną w celu...
-
Intelligent multimedia asplications - scanning the issue
PublicationCelem specjalnego wydania tego tomu czasopisma JIIS, zatytułowanego ''Inteligentne przetwarzanie multimediów'', było przedstawienie badań w tej dziedzinie, prowadzonych w różnych ośrodkach na świecie. Zawarte w tym tomie artykuły dotyczyły inteligentnego przetwarzania sygnałów fonicznych i wideo, jak również muzyki.
-
Reliability of Pulse Measurements in Videoplethysmography
PublicationReliable, remote pulse rate measurement is potentially very important for medical diagnostics and screening. In this paper the Videoplethysmography was analyzed especially to verify the possible use of signals obtained for the YUV color model in order to estimate the pulse rate, to examine what is the best pulse estimation method for short video sequences and finally, to analyze how potential PPG-signals can be distinguished from...
-
Kaskada - scenariusze analizy strumieni multimedialnych
PublicationZaprezentowano podstawowe mechanizmy działania platformy KASKADA ze względu na wykonywanie usług prostych związanych z realizacją algorytmów analizy strumieni multimedialnych, jak również usług złożonych dotyczących wykonywania bardziej skomplikowanych scenariuszy. Rozpatrzono problemy implementacyjne na przykładzie scenariusza analizy strumieni z kamer wideo.
-
Examining Acoustic Emission of Engineered Ultrasound Loudspeakers
PublicationMeasurement results of the sound emitted from an ultrasound custom-made system with high spatial directivity are presented. The proposed system is using modulated ultrasound waves which demodulate in nonlinear medium resulting in audible sound. The system is aimed at enhancing the users’ personal audio space, therefore the measurements are performed using the Head and Torso Simulator which provides the realistic reproduction of...
-
Akcelerator predykcji wewnątrzramkowej H.264 do kompresji obrazu w sensorach wizyjnych
PublicationW artykule przedstawiono konfigurowalny cyfrowy akcelerator predykcji wewnątrzramkowej przeznaczony dla enkodera wideo standardu H.264. Akcelerator realizuje predykcję typu „intra” dla makrobloków luminancji o wymiarach 4x4 i 16x16. Akcelerator wstępnie zaimplementowano w układzie FPGA, gdzie został on pomyślnie zweryfikowany, a następnie zaimplementowano go w układzie ASIC w technologii UMC 90 nm. Szczegółowe wyniki testów akceleratora...
-
Akcelerator predykcji wewnątrzramkowej H.264 do kompresji obrazu w sensorach wizyjnych
PublicationW komunikacie przedstawiono konfigurowalny cyfrowy akcelerator predykcji wewnątrzramkowej przeznaczony dla enkodera wideo standardu H.264. Akcelerator realizuje predykcję typu „intra” dla makrobloków luminancji o wymiarach 4x4 i 16x16. Akcelerator wstępnie zaimplementowano w układzie FPGA, gdzie został on pomyślnie zweryfikowany, a następnie zaimplementowano go w układzie ASIC w technologii UMC 90 nm. Szczegółowe wyniki testów...
-
A concept of Signal Equalization Method Based on Music Genre and the Listener's Room Characteristics
PublicationA research study that investigates the influence of the room acoustics environment on the frequency characteristic of the audio signal playback is presented. First, a novel spectral equalization method of the room acoustic conditions is introduced. On the basis of the frequency response of the room, a system for room acoustics compensation based on eight-band equalizer is proposed. The system settings depend on music genre. In...
-
Przegląd metod szybkiego prototypowania algorytmów uczenia maszynowego w FPGA
PublicationW artykule opisano możliwe do wykorzystania otwarte narzędzia wspomagające szybkie prototypowanie algorytmów uczenia maszynowego (ML) i sztucznej inteligencji (AI) przy użyciu współczesnych platform FPGA. Przedstawiono przykład szybkiej ścieżki przy realizacji toru wideo wraz z implementacją przykładowego algorytmu prze-twarzania w trybie na żywo.
-
Measurements and Simulations of Engineered Ultrasound Loudspeakers
PublicationSimulation and measurement results of the sound emitted from an ultrasound custom-made system with high spatial directivity are presented. The proposed system is using modulated ultrasound waves which demodulate in nonlinear medium resulting in audible sound. The system is aimed at enhancing the users’ personal audio space, therefore the measurements are performed using the Head and Torso Simulator which provides realistic reproduction...
-
Intelligent multimedia solutions supporting special education needs.
PublicationThe role of computers in school education is briefly discussed. Multimodal interfaces development history is shortly reviewed. Examples of applications of multimodal interfaces for learners with special educational needs are presented, including interactive electronic whiteboard based on video image analysis, application for controlling computers with facial expression and speech stretching audio interface representing audio modality....
-
Quality Aspects in Digital Broadcasting and Webcasting Systems: Bitrate versus Loudness
PublicationIn this paper the quality aspects of bitrate and loudness in digital broadcasting and webcasting systems are examined. The authors discuss a survey concerning user preferences related with processing and managing audio content. The coding efficiency of a popular audio format is analyzed in the context of storing media. An objective study on a representative group of signal samples, as well as a subjective study of the perceived...
-
Online sound restoration system for digital library applications
PublicationAudio signal processing algorithms were introduced to the new online non-commercial service for audio restoration intended to enhance the content of digitized audio repositories. Missing or distorted audio samples are predicted using neural networks and a specific implementation of the Jannsen interpolation method based on the autoregressive model (AR) combined with the iterative restoring of missing signal samples. Since the distortion...
-
Bimodal deep learning model for subjectively enhanced emotion classification in films
PublicationThis research delves into the concept of color grading in film, focusing on how color influences the emotional response of the audience. The study commenced by recalling state-of-the-art works that process audio-video signals and associated emotions by machine learning. Then, assumptions of subjective tests for refining and validating an emotion model for assigning specific emotional labels to selected film excerpts were presented....
-
Wow defect reduction based on interpolation techniques
PublicationW referacie przedstawiono wyniki badania różnych technik interpolacji wykorzystanych w redukcji kołysania dźwięku. W badaniach użyto: interpolację liniową, dwie techniki interpolacji wielomianowej (Hermite i spline), i technikę sumowania okienkowanych funkcji sink. Jakość rekonstrukcji wykonano wykorzystując sztucznie spreparowany sygnał audio, rekonstruowany wymienionymi metodami interpolacji. Jakość rekonstrukcji oceniono wykorzystując...
-
Creating a Realible Music Discovery and Recomendation System
PublicationThe aim of this paper is to show problems related to creating a reliable music dis-covery system. The SYNAT database that contains audio files is used for the purpose of experiments. The files are divided into 22 classes corresponding to music genres with different cardinality. Of utmost importance for a reliable music recommendation system are the assignment of audio files to their appropriate gen-res and optimum parameterization...
-
Transmitting Alarm Information in DAB+ Broadcasting System
PublicationThe main goal of digital broadcasting is to deliver high-quality content with the lowest possible bitrate. This paper is focused on transmitting alarm information, such as emergency warning and alerting, in the DAB+ (Digital Audio Broadcasting plus) broadcasting system. These additional services should be available at the lowest possible bitrate, in order to provide a clear and understandable voice message to people. Furthermore, additional...
-
In uence of Low-Level Features Extracted from Rhythmic and Harmonic Sections on Music Genre Classi cation
PublicationWe present a comprehensive evaluation of the infuence of 'harmonic' and rhythmic sections contained in an audio file on automatic music genre classi cation. The study is performed using the ISMIS database composed of music files, which are represented by vectors of acoustic parameters describing low-level music features. Non-negative Matrix Factorization serves for blind separation of instrument components. Rhythmic components...
-
Online sound restoration system for digital library applications.
PublicationAudio signal processing algorithms were introduced to the new online non-commercial service for audio restoration intended to enhance the content of digitized audio repositories. Missing or distorted audio samples are predicted using neural networks and a specific implementation of the Jannsen interpolation method based on the autoregressive model (AR) combined with the iterative restoring of missing signal samples. Since the distortion...
-
Face recognition by humans with gaze-tracking system Cyber-Eye
PublicationW celu dokładniejszego zrozumienia sposobu rozpoznawania i zapamiętywania twarzy przez człowieka przeprowadzono doświadczenie na grupie 20 osób z wykorzystaniem wcześniej opracowanego systemu śledzenia fiksacji wzroku Cyber-Oko [3]. Wykorzystując diody i kamerę podczerwieni wraz z dedykowanym oprogramowaniem Cyber-Oko, które pozwala na śledzenie punktu skupienia wzroku na ekranie. Każdej osobie biorącej udział w doświadczeniu pokazano...
-
Badanie rozpoznawania twarzy przez człowieka z wykorzystaniem systemu śledzenia fiksacji wzroku Cyber-Oko
PublicationW celu dokładniejszego zrozumienia sposobu rozpoznawania i zapamiętywania twarzy przez człowieka przeprowadzono doświadczenie na grupie 20 osób z wykorzystaniem wcześniej opracowanego systemu śledzenia fiksacji wzroku Cyber-Oko. Wykorzystując diody i kamerę podczerwieni wraz z dedykowanym oprogramowaniem Cyber-Oko, które pozwala na śledzenie punktu skupienia wzroku na ekranie. Każdej osobie biorącej udział w doświadczeniu pokazano...
-
Superkomputerowy system identyfikacji pojazdów na podstawie numerów rejestracyjnych
PublicationOpisano sposób identyfikacji pojazdów na podstawie numerów rejestracyjnych. Scharakteryzowano etapy identyfikacji i wymieniono algorytmy stosowane w ramach implementacji rozwiązania ESIP (Elektroniczny System Identyfikacji Pojazdów). Skuteczność zastosowanych algorytmów porównano z innymi rozwiązaniami dostępnymi na rynku. Opisano wdrożenie rozwiązania na superkomputerze GALERA. System ESIP umożliwia skuteczną identyfikację pojazdów...
-
Reduction of parasitic pitch variations in archival musical recordings
PublicationA new method for reducing parasitic pitch variations in archival audio recordings is presented. The method is intended for analyzing movie soundtracks recorded in optical films. It utilizes image processing for calculating and reducing effects of tape shrinkage being one of the main reasons for parasitic pitch variations in audio accompanying moving images. As long as the film tape characteristics are known the new method can be...
-
Fitting the mobile device characteristics to the user's hearing preferences
PublicationA method for fitting the mobile computer audio characteristics to the user's hearing preferences is proposed. The process consists of two stages: calibration and dynamics processing. During the calibration phase the user performs a loudness scaling test giving their response regarding the perceived loudness. The dynamics processing made on above basis sets the loudness to the most comfortable level. The processing accounts both...
-
Building Knowledge for the Purpose of Lip Speech Identification
PublicationConsecutive stages of building knowledge for automatic lip speech identification are shown in this study. The main objective is to prepare audio-visual material for phonetic analysis and transcription. First, approximately 260 sentences of natural English were prepared taking into account the frequencies of occurrence of all English phonemes. Five native speakers from different countries read the selected sentences in front of...
-
Data, Information, Knowledge, Wisdom Pyramid Concept Revisited in the Context of Deep Learning
PublicationIn this paper, the data, information, knowledge, and wisdom (DIKW) pyramid is revisited in the context of deep learning applied to machine learningbased audio signal processing. A discussion on the DIKW schema is carried out, resulting in a proposal that may supplement the original concept. Parallels between DIWK pertaining to audio processing are presented based on examples of the case studies performed by the author and her collaborators....
-
1D convolutional context-aware architectures for acoustic sensing and recognition of passing vehicle type
PublicationA network architecture that may be employed to sensing and recognition of a type of vehicle on the basis of audio recordings made in the proximity of a road is proposed in the paper. The analyzed road traffic consists of both passenger cars and heavier vehicles. Excerpts from recordings that do not contain vehicles passing sounds are also taken into account and marked as ones containing silence....
-
Image Classification Based on Video Segments
PublicationIn the dissertation a new method for improving the quality of classifications of images in video streams has been proposed and analyzed. In multiple fields concerning such a classification, the proposed algorithms focus on the analysis of single frames. This class of algorithms has been named OFA (One Frame Analyzed).In the dissertation, small segments of the video are considered and each image is analyzed in the context of its...
-
Zapytania muzyczne do bibliotek cyfrowych
PublicationBiblioteki cyfrowe dokumentów muzycznych umożliwiają przechowywanie różnorodnej, multimedialnej informacji muzycznej. Oprócz opisu bibliograficznego obejmować ona może również dane w postaci nagrań dźwiękowych i wideo, obrazów partytur oraz partytur w postaci cyfrowej.W celu efektywnego wyszukiwania danych muzycznych należy stosować zapytania muzyczne. W rozdziale przedstawiono specyfikę cyfrowych bibliotek muzycznych oraz metody...
-
Architektura i mechanizmy Równoległego Internetu IPv6 QoS
PublicationReferat przedstawia propozycję architektury i mechanizmy Równoległego Internetu IPv6 QoS, który jest rozważany jako jeden z trzech Równoległych Internetów w Systemie IIP tworzonym w ramach projektu Inżynieria Internetu Przyszłości (IIP). Referat zawiera funkcje i mechanizmy, które umożliwią działanie sieci wirtualnych dla wybranych typów aplikacji, takich jak e-zdrowie, monitorowanie i bezpieczeństwo publiczne, zdalne nauczanie,...
-
Architektura i mechanizmy Równoległego Internetu Ipv6 QoS
PublicationArtykuł przedstawia propozycje architektury i mechanizmy Równoległego Internetu IPv6 QoS, który jest rozważany jako jeden z trzech równoległych Internatów w systemie IIp tworzonym w ramach projektu Inzynieria Internetu Przyszłości (IIP). Artykuł zawiera funkcje i mechanizmy, które umożliwiają działanie sieci wirtualnych dla wybranych typów aplikacji, takich jak e-zdrowie, monitorowanie, bezpieczeństwo publiczne, zdalne nauczanie,...
-
Evaluation of a Novel Approach to Virtual Bass Synthesis Strategy
PublicationThe aim of this paper is to present a novel approach to the Virtual Bass Synthesis (VBS) strategy applied to portable computers. The developed algorithms involve intelligent, rule-based settings of bass synthesis parameters with regard to music genre of an audio excerpt and the type of a portable device in use. The Smart VBS algorithm performs the synthesis based on a nonlinear device (NLD) with artificial controlling synthesis...
-
Classification of Music Genres by Means of Listening Tests and Decision Algorithms
PublicationThe paper compares the results of audio excerpt assignment to a music genre obtained in listening tests and classification by means of decision algorithms. A short review on music description employing music styles and genres is given. Then, assumptions of listening tests to be carried out along with an online survey for assigning audio samples to selected music genres are presented. A framework for music parametrization is created...
-
Audiovisual speech recognition for training hearing impaired patients
PublicationPraca przedstawia system rozpoznawania izolowanych głosek mowy wykorzystujący dane wizualne i akustyczne. Modele Active Shape Models zostały wykorzystane do wyznaczania parametrów wizualnych na podstawie analizy kształtu i ruchu ust w nagraniach wideo. Parametry akustyczne bazują na współczynnikach melcepstralnych. Sieć neuronowa została użyta do rozpoznawania wymawianych głosek na podstawie wektora cech zawierającego oba typy...
-
Music genre classification applied to bass enhancement for mobile technology
PublicationThe aim of this paper is to present a novel approach to the Virtual Bass Synthesis (VBS) algorithms applied to portable computers. The proposed algorithm is related to intelligent, rule-based setting of synthesis parameters according to music genre of an audio excerpt. The classification of music genres is automatically executed employing MPEG 7 parameters and the Principal Component Analysis method applied to reduce information...
-
Machine learning applied to acoustic-based road traffic monitoring
PublicationThe motivation behind this study lies in adapting acoustic noise monitoring systems for road traffic monitoring for driver’s safety. Such a system should recognize a vehicle type and weather-related pavement conditions based on the audio level measurement. The study presents the effectiveness of the selected machine learning algorithms in acoustic-based road traffic monitoring. Bases of the operation of the acoustic road traffic...
-
Machine learning applied to acoustic-based road traffic monitoring
PublicationThe motivation behind this study lies in adapting acoustic noise monitoring systems for road traffic monitoring for driver’s safety. Such a system should recognize a vehicle type and weather-related pavement conditions based on the audio level measurement. The study presents the effectiveness of the selected machine learning algorithms in acoustic-based road traffic monitoring. Bases of the operation of the acoustic road traffic...