Filtry
wszystkich: 18
Wyniki wyszukiwania dla: MFCC
-
Skuteczność klasyfikacji gatunków muzycznych za pomocą sieci neuronowej w zależności od typu danych wejściowych
PublikacjaRozpoznawanie gatunku muzycznego jest jednym z podstawowych elementów inteligentnych systemów tworzenia automatycznych list muzyki. Platformy strumieniowe oferujące taką usługę wymagają rozwiązań, które umożliwią jak najdokładniej określić przynależność utworu do gatunku muzycznego. Zgodnie z aktualnym stanem wiedzy – najskuteczniejszym klasyfikatorem są sztuczne sieci neuronowe (w tym w wersji uczenia głębokiego), dla których...
-
Bezprzewodowy moduł detekcji źródeł dźwięku – system klasyfikatorów
PublikacjaMonitoring bezpieczeństwa osób starszych i chorych przebywających samotnie w pomieszczeniach można realizowaćpoprzez detekcję dźwięków nietypowych. W tym celu zbudowano moduł nasłuchujący, który analizuje dźwięki z otoczenia. Oblicza on szereg parametrów dźwięku, także bazujących na STFT i MFCC. Umożliwiają one wychwycenie i sklasyfikowanie takich odgłosów jak jęki, krzyki, kaszel oraz huki. Przedstawiono...
-
Audio Feature Analysis for Precise Vocalic Segments Classification in English
PublikacjaAn approach to identifying the most meaningful Mel-Frequency Cepstral Coefficients representing selected allophones and vocalic segments for their classification is presented in the paper. For this purpose, experiments were carried out using algorithms such as Principal Component Analysis, Feature Importance, and Recursive Parameter Elimination. The data used were recordings made within the ALOFON corpus containing audio signal...
-
Examining Influence of Distance to Microphone on Accuracy of Speech Recognition
PublikacjaThe problem of controlling a machine by the distant-talking speaker without a necessity of handheld or body-worn equipment usage is considered. A laboratory setup is introduced for examination of performance of the developed automatic speech recognition system fed by direct and by distant speech acquired by microphones placed at three different distances from the speaker (0.5 m to 1.5 m). For feature extraction from the voice signal...
-
Investigations of speech signal parameters with regard to articulation influences
PublikacjaW pracy zostało podjęte zagadnienie parametryzacji sygnału mowy w kontekście ekstrakcji cech biometrycznych. Analizowane parametry to parametry cepstralne (cepstrum liniowe i mel-cepstrum, czyli MFCC), parametry liniowej predykcji (LPC) oraz momenty widmowe i parametr F0. Zastosowano analize w krótkich stałych segmentach sygnału z zastosowaniem dużego zakładkowania, tzw. ''implicite segmentation''. Umożliwiło to zaobserwowanie...
-
Ranking Speech Features for Their Usage in Singing Emotion Classification
PublikacjaThis paper aims to retrieve speech descriptors that may be useful for the classification of emotions in singing. For this purpose, Mel Frequency Cepstral Coefficients (MFCC) and selected Low-Level MPEG 7 descriptors were calculated based on the RAVDESS dataset. The database contains recordings of emotional speech and singing of professional actors presenting six different emotions. Employing the algorithm of Feature Selection based...
-
ANALIZA PARAMETRÓW SYGNAŁU MOWY W KONTEKŚCIE ICH PRZYDATNOŚCI W AUTOMATYCZNEJ OCENIE JAKOŚCI EKSPRESJI ŚPIEWU
PublikacjaPraca dotyczy podejścia do parametryzacji w przypadku klasyfikacji emocji w śpiewie oraz porównania z klasyfikacją emocji w mowie. Do tego celu wykorzystano bazę mowy i śpiewu nacechowanego emocjonalnie RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song), zawierającą nagrania profesjonalnych aktorów prezentujących sześć różnych emocji. Następnie obliczono współczynniki mel-cepstralne (MFCC) oraz wybrane deskryptory...
-
Automatic Breath Analysis System Using Convolutional Neural Networks
PublikacjaDiseases related to the human respiratory system have always been a burden for the entire society. The situation has become particularly difficult now after the outbreak of the COVID-19 pandemic. Even now, however, it is common for people to consult their doctor too late, after the disease has developed. To protect patients from severe disease, it is recommended that any symptoms disturbing the respiratory system be detected as...
-
Automatic Breath Analysis System Using Convolutional Neural Networks
PublikacjaDiseases related to the human respiratory system have always been a burden for the entire society. The situation has become particularly difficult now after the outbreak of the COVID-19 pandemic. Even now, however, it is not uncommon for people to consult their doctor too late, after the disease has developed. To protect patients from severe disease, it is recommended that any symptoms disturbing the respiratory system be detected...
-
Automatic labeling of traffic sound recordings using autoencoder-derived features
PublikacjaAn approach to detection of events occurring in road traffic using autoencoders is presented. Extensions of existing algorithms of acoustic road events detection employing Mel Frequency Cepstral Coefficients combined with classifiers based on k nearest neighbors, Support Vector Machines, and random forests are used. In our research, the acoustic signal gathered from the microphone placed near the road is split into frames and converted...
-
SYNAT_MUSIC_GENRE_FV_173
Dane BadawczeThis is the original dataset containing 51582 music tracks (22 music genres) and 173 element-feature vector [1-6,9]. A collection of more than 50000 music excerpts described with a set of descriptors obtained through the analysis of 30-second mp3 recordings was gathered in a database called SYNAT. The SYNAT database was realized by the Gdansk University...
-
System diagnostyki oddechowej oparty na konwolucyjnych sieciach neuronowych
PublikacjaChoroby układu oddechowego człowieka od zawsze były obciążeniem dla całego społeczeństwa. Sytuacja stała się szczególnie trudna po wybuchu pandemii COVID-19. Jednak nawet teraz nierzadko zdarza się, że ludzie konsultują się ze swoim lekarzem zbyt późno, już po niepożądanym rozwinięciu się choroby. W celu ochrony pacjentów przed ciężką chorobą płuc, zaleca się jak najwcześniejsze wykrycie wszelkich objawów zaburzających pracę układu...
-
Application of autoencoder to traffic noise analysis
PublikacjaThe aim of an autoencoder neural network is to transform the input data into a lower-dimensional code and then to reconstruct the output from this code representation. Applications of autoencoders to classifying sound events in the road traffic have not been found in the literature. The presented research aims to determine whether such an unsupervised learning method may be used for deploying classification algorithms applied to...
-
MACHINE LEARNING–BASED ANALYSIS OF ENGLISH LATERAL ALLOPHONES
PublikacjaAutomatic classification methods, such as artificial neural networks (ANNs), the k-nearest neighbor (kNN) and selforganizing maps (SOMs), are applied to allophone analysis based on recorded speech. A list of 650 words was created for that purpose, containing positionally and/or contextually conditioned allophones. For each word, a group of 16 native and non-native speakers were audio-video recorded, from which seven native speakers’...
-
SYNAT Music Genre Parameters PCA 19
Dane BadawczeThe dataset contains feature vector after Principal Component Analysis (PCA) performing, so there are 11 music genres and 19-element vector derived from music excerpts. Originally, a feature vector containing 173 elements was conceived in earlier research studies carried out by the team of authors [1-6]. A collection of 52532 music excerpts described...
-
SYNAT_PCA_48
Dane BadawczeThere is a series of datasets containing feature vectors derived from music tracks. The dataset contains 51582 music tracks (22 music genres) and feature vector after Principal Component Analysis (PCA) performing, so there are 48-element vectors derived from music excerpts. Originally, a feature vector containing 173 elements was conceived in earlier...
-
SYNAT_PCA_11
Dane BadawczeThe dataset contains 51582 music tracks (22 music genres) and feature vector after Principal Component Analysis (PCA) performing, so there are 11-element vectors derived from music excerpts. Originally, a feature vector containing 173 elements was conceived in earlier research studies carried out by the team of authors [1-6]. A collection of more than...
-
Hybrid of Neural Networks and Hidden Markov Models as a modern approach to speech recognition systems
PublikacjaThe aim of this paper is to present a hybrid algorithm that combines the advantages ofartificial neural networks and hidden Markov models in speech recognition for control purpos-es. The scope of the paper includes review of currently used solutions, description and analysis of implementation of selected artificial neural network (NN) structures and hidden Markov mod-els (HMM). The main part of the paper consists of a description...