Katedra Systemów Multimedialnych - Jednostki Administracyjne - MOST Wiedzy

Wyszukiwarka

Katedra Systemów Multimedialnych

Filtry

wszystkich: 892

  • Kategoria
  • Rok
  • Opcje

wyczyść Filtry wybranego katalogu niedostępne

Katalog Publikacji

  • Detection of Water on Road Surface with Acoustic Vector Sensor
    Publikacja

    - SENSORS - Rok 2023

    This paper presents a new approach to detecting the presence of water on a road surface, employing an acoustic vector sensor. The proposed method is based on sound intensity analysis in the frequency domain. Acoustic events, representing road vehicles, are detected in the sound intensity signals. The direction of the incoming sound is calculated for the individual spectral components of the intensity signal, and the components...

    Pełny tekst do pobrania w portalu

  • A commonly-accessible toolchain for live streaming music events with higher-order ambisonic audio and 4k 360 vision
    Publikacja

    - Rok 2023

    An immersive live stream is especially interesting in the ongoing development of telepresence tools, especially in the virtual reality (VR) or mixed reality (MR) domain. This paper explores the remote and immersive way of enabling telepresence for the audience to high-fidelity music performance using freely-available and easily-accessible tools. A functional VR live-streaming toolchain, comprising 360 vision and higher-order ambisonic...

    Pełny tekst do pobrania w portalu

  • Cross-Lingual Knowledge Distillation via Flow-Based Voice Conversion for Robust Polyglot Text-to-Speech
    Publikacja
    • D. Piotrowski
    • R. Korzeniowski
    • A. Falai
    • S. Cygert
    • K. Pokora
    • G. Tinchev
    • Z. Zhang
    • K. Yanagisawa

    - Rok 2023

    In this work, we introduce a framework for cross-lingual speech synthesis, which involves an upstream Voice Conversion (VC) model and a downstream Text-To-Speech (TTS) model. The proposed framework consists of 4 stages. In the first two stages, we use a VC model to convert utterances in the target locale to the voice of the target speaker. In the third stage, the converted data is combined with the linguistic features and durations...

    Pełny tekst do pobrania w serwisie zewnętrznym

  • Reverberation divergence in VR applications
    Publikacja

    The aim of this project was to investigate the correlation between virtual reality (VR) imagery and ambisonic sound. With the increasing popularity of VR applications, understanding how sound is perceived in virtual environments is crucial for enhancing the immersiveness of the experience. By examining the relationship between visual scenes and sound scenes, this research attempts to explore how the interaction between vision and...

    Pełny tekst do pobrania w serwisie zewnętrznym

  • Adapt Your Teacher: Improving Knowledge Distillation for Exemplar-free Continual Learning
    Publikacja
    • F. Szatkowski
    • M. Pyła
    • M. Przewięźlikowski
    • S. Cygert
    • B. Twardowski
    • T. Trzciński

    - Rok 2024

    In this work, we investigate exemplar-free class incremental learning (CIL) with knowledge distillation (KD) as a regularization strategy, aiming to prevent forgetting. KDbased methods are successfully used in CIL, but they often struggle to regularize the model without access to exemplars of the training data from previous tasks. Our analysis reveals that this issue originates from substantial representation shifts in the teacher...

    Pełny tekst do pobrania w serwisie zewnętrznym

  • An automated, low-latency environment for studying the neural basis of behavior in freely moving rats
    Publikacja
    • M. Jankowski
    • A. Polterovich
    • A. Kazakov
    • J. Niediek
    • I. Nelken

    - BMC BIOLOGY - Rok 2023

    Background Behavior consists of the interaction between an organism and its environment, and is controlled by the brain. Brain activity varies at sub-second time scales, but behavioral measures are usually coarse (often consisting of only binary trial outcomes). Results To overcome this mismatch, we developed the Rat Interactive Foraging Facility (RIFF): a programmable interactive arena for freely moving rats with multiple feeding...

    Pełny tekst do pobrania w portalu

  • Applying the Lombard Effect to Speech-in-Noise Communication
    Publikacja

    - Electronics - Rok 2023

    This study explored how the Lombard effect, a natural or artificial increase in speech loudness in noisy environments, can improve speech-in-noise communication. This study consisted of several experiments that measured the impact of different types of noise on synthesizing the Lombard effect. The main steps were as follows: first, a dataset of speech samples with and without the Lombard effect was collected in a controlled setting;...

    Pełny tekst do pobrania w portalu

  • Akustyka sali widowiskowej z zainstalowanym systemem elektroakustycznym
    Publikacja

    - Rok 2005

    W referacie przedstawiono i omówiono wyniki pomiarów podstawowych parametrów akustycznych sali widowiskowej w Domu Kultury. Sala, w obrysie prostokątna, posiada 250 miejsc. W szczególności skonfrontowano wyniki pomiarów uzyskane przy pobudzeniu poprzez zainstalowany w niej system system elektroakustyczny z wynikami uzyskanymi przy klasycznej metodzie z pobudzeniem pojedynczym źródłem impulsu - strzałami z pistoletu startowego....

  • Musical instrument sound separation methods supported by artificial nueural network decision system
    Publikacja

    - Rok 2006

    Rozprawa doktorska (27 czerwica 2006).Celem prowadzonych prac badawczych było opracowanie algorytmów separacji dźwięków instrumentów muzycznych. Dodatkowo dobrano zestaw parametrów tak aby możliwe było wytrenowanie sztucznej sieci neuronowej w celu automatycznego rozpoznawania odseparowanych sygnałów. Zaproponowano również aby algorytm decyzyjny odpowiedzialny za klasyfikacje dźwięków pełnił funkcję automatycznej metody oceny algorytmów...

  • Usuwanie niejednolitego tła z obrazów tekstu przy użyciu zmodyfikowanego algorytmu wyostrzania i filtracji nieliniowej

    Celem referatu jest przedstawienie algorytmu poprawy jakości obrazów zawierających tekst na niejednolitym tle. Pierwsza faza realizacji algorytmu obejmuje usunięcie tła poprzez wykorzystanie zmodyfikowanej operacji wyostrzania, w której od oryginalnego obrazu odejmowany jest wynik filtracji dolnoprzepustowej. W tym celu zaproponowano metodę wyznaczenia optymalnej wielkości maski filtru dolnoprzepustowego. W drugiej fazie działania...

  • Accidental wow evaluation based on sinusoidal modeling and neural nets prediction
    Publikacja

    Referat przedstawia opis algorytmu do określenia charakterystyki zniekształcenia kołysania dźwięku. Prezentowane podejście wykorzystuje sinusoidalną analizę dźwięku bazującą zarówno na amplitudowym jak i fazowym widmie sygnału fonicznego. Trajektorie poszczególnych składowych tonalnych, obrazujące zniekształcenie kołysania, określane są na podstawie analizy ich chwilowych amplitud, częstotliwości i faz. Dodatkowo referat przedstawia...

  • Ensembling noisy segmentation masks of blurred sperm images

    Background: Sperm tail morphology and motility have been demonstrated to be important factors in determining sperm quality for in vitro fertilization. However, many existing computer-aided sperm analysis systems leave the sperm tail out of the analysis, as detecting a few tail pixels is challenging. Moreover, some publicly available datasets for classifying morphological defects contain images limited only to the sperm head. This...

    Pełny tekst do pobrania w portalu