Szymon Zaporowski - Publikacje - MOST Wiedzy

Wyszukiwarka

Filtry

wszystkich: 27

  • Kategoria
  • Rok
  • Opcje

wyczyść Filtry wybranego katalogu niedostępne

Katalog Publikacji

Rok 2023
Rok 2022
Rok 2021
  • Mispronunciation Detection in Non-Native (L2) English with Uncertainty Modeling
    Publikacja

    - Rok 2021

    A common approach to the automatic detection of mispronunciation in language learning is to recognize the phonemes produced by a student and compare it to the expected pronunciation of a native speaker. This approach makes two simplifying assumptions: a) phonemes can be recognized from speech with high accuracy, b) there is a single correct way for a sentence to be pronounced. These assumptions do not always hold, which can result...

    Pełny tekst do pobrania w serwisie zewnętrznym

  • Detection of Lexical Stress Errors in Non-Native (L2) English with Data Augmentation and Attention
    Publikacja

    - Rok 2021

    This paper describes two novel complementary techniques that improve the detection of lexical stress errors in non-native (L2) English speech: attention-based feature extraction and data augmentation based on Neural Text-To-Speech (TTS). In a classical approach, audio features are usually extracted from fixed regions of speech such as the syllable nucleus. We propose an attention-based deep learning model that automatically de...

    Pełny tekst do pobrania w portalu

Rok 2020
  • Ranking Speech Features for Their Usage in Singing Emotion Classification
    Publikacja

    This paper aims to retrieve speech descriptors that may be useful for the classification of emotions in singing. For this purpose, Mel Frequency Cepstral Coefficients (MFCC) and selected Low-Level MPEG 7 descriptors were calculated based on the RAVDESS dataset. The database contains recordings of emotional speech and singing of professional actors presenting six different emotions. Employing the algorithm of Feature Selection based...

    Pełny tekst do pobrania w portalu

  • Constructing a Dataset of Speech Recordingswith Lombard Effect
    Publikacja

    - Rok 2020

    Thepurpose of therecordings was to create a speech corpus based on the ISLEdataset, extended with video and Lombard speech. Selected from a set of 165sentences, 10, evaluatedas having thehighest possibility to occur in the context ofthe Lombard effect,were repeated in the presence of the so-called babble speech to obtain Lombard speech features. Altogether,15speakers were recorded, and speech parameterswere...

  • Audio Feature Analysis for Precise Vocalic Segments Classification in English
    Publikacja

    An approach to identifying the most meaningful Mel-Frequency Cepstral Coefficients representing selected allophones and vocalic segments for their classification is presented in the paper. For this purpose, experiments were carried out using algorithms such as Principal Component Analysis, Feature Importance, and Recursive Parameter Elimination. The data used were recordings made within the ALOFON corpus containing audio signal...

    Pełny tekst do pobrania w serwisie zewnętrznym

  • 1D convolutional context-aware architectures for acoustic sensing and recognition of passing vehicle type
    Publikacja

    A network architecture that may be employed to sensing and recognition of a type of vehicle on the basis of audio recordings made in the proximity of a road is proposed in the paper. The analyzed road traffic consists of both passenger cars and heavier vehicles. Excerpts from recordings that do not contain vehicles passing sounds are also taken into account and marked as ones containing silence....

Rok 2019
Rok 2018
  • Zastosowanie sieci neuronowych w cyfrowej syntezie dźwięku
    Publikacja

    Rozwój technik związanych z uczeniem maszynowym umożliwia nowe podejście i nowe definiowanie wielu dotychczasowych problemów. Heurystyczne algorytmy stosowane do problemów takich jak klasyfikacja danych w postaci wektorów cech, czy wyróżnianie grup obiektów o podobnych własnościach mogą znaleźć także zastosowanie w takich dziedzinach jak analiza i synteza dźwięków muzycznych. W referacie przybliżone zostały podstawowe zasady projektowania...

  • WYKORZYSTANIE SIECI NEURONOWYCH DO SYNTEZY MOWY WYRAŻAJĄCEJ EMOCJE
    Publikacja

    W niniejszym artykule przedstawiono analizę rozwiązań do rozpoznawania emocji opartych na mowie i możliwości ich wykorzystania w syntezie mowy z emocjami, wykorzystując do tego celu sieci neuronowe. Przedstawiono aktualne rozwiązania dotyczące rozpoznawania emocji w mowie i metod syntezy mowy za pomocą sieci neuronowych. Obecnie obserwuje się znaczny wzrost zainteresowania i wykorzystania uczenia głębokiego w aplikacjach związanych...

  • Vocalic Segments Classification Assisted by Mouth Motion Capture

    Visual features convey important information for automatic speech recognition (ASR), especially in noisy environment. The purpose of this study is to evaluate to what extent visual data (i.e. lip reading) can enhance recognition accuracy in the multi-modal approach. For that purpose motion capture markers were placed on speakers' faces to obtain lips tracking data during speaking. Different parameterizations strategies were tested...

    Pełny tekst do pobrania w serwisie zewnętrznym

  • Selection of Features for Multimodal Vocalic Segments Classification
    Publikacja

    English speech recognition experiments are presented employing both: audio signal and Facial Motion Capture (FMC) recordings. The principal aim of the study was to evaluate the influence of feature vector dimension reduction for the accuracy of vocalic segments classification employing neural networks. Several parameter reduction strategies were adopted, namely: Extremely Randomized Trees, Principal Component Analysis and Recursive...

    Pełny tekst do pobrania w serwisie zewnętrznym

  • REJESTRACJA, PARAMETRYZACJA I KLASYFIKACJA ALOFONÓW Z WYKORZYSTANIEM BIMODALNOŚCI

    Praca dotyczy rejestracji i parametryzacji alofonów w języku angielskim z wykorzystaniem dwóch modalności. W badaniach dokonano rejestracji wypowiedzi w języku angielskim mówców, których znajomość tego języka odpowiada poziomowi rodowitego mówcy. W kolejnym etapie wyodrębnione zostały alofony z nagrań fonicznych i odpowiadające im sygnały wizyjne. W procesie tworzenia wektorów cech wykorzystano odrębne systemy parametryzacji,...

    Pełny tekst do pobrania w portalu

wyświetlono 1450 razy