dr hab. inż. Jan Daciuk
Zatrudnienie
- Kierownik katedry w Katedra Inteligentnych Systemów Interaktywnych
- Profesor uczelni w Katedra Inteligentnych Systemów Interaktywnych
Publikacje
Filtry
wszystkich: 29
Katalog Publikacji
Rok 2022
-
Language Models in Speech Recognition
PublikacjaThis chapter describes language models used in speech recognition, It starts by indicating the role and the place of language models in speech recognition. Mesures used to compare language models follow. An overview of n-gram, syntactic, semantic, and neural models is given. It is accompanied by a list of popular software.
Rok 2017
-
A new library for construction of automata
PublikacjaWe present a new library of functions that construct minimal, acyclic, deterministic, finite-state automata in the same format as the author's fsa package, and also accepted by the author's fadd library of functions that use finite-state automata as dictionaries in natural language processing.
Rok 2015
-
Preserving Trees in Automata
PublikacjaWe present a method to store additional information in a minimal automaton so that it is possible to compute a corresponding tree node number for a state. The number can then be used to retrieve additional information. The method works for minimal (and any other) deterministic acyclic finite state automata (DFAs). We also show how to compute the inverse mapping.
Rok 2014
-
Optimization of Automata
PublikacjaThis book is conceived as an effort to gather all algorithms and methods developed by the author of the book that concern three aspects of optimization of automata: incrementality, hashing and compression. Some related algorithms and methods are given as well when they are needed to complete the picture.
Rok 2013
-
Incremental construction of finite-state automata
PublikacjaRozdział przedstawia algorytmy przyrostowego i półprzyrostowego tworzenia minimalnych deterministycznych automatów skończonych.
Rok 2012
-
Smaller representation of finite state automata
PublikacjaThis paper is a follow-up to Jan Daciuk's experiments on space-efficient finite state automata representation that can be used directly for traversals in main memory (Daciuk, 2000)[4]. We investigate several techniques for reducing memory footprint of minimal automata, mainly exploiting the fact that transition labels and transition pointer offset values are not evenly distributed and so are suitable for compression. We achieve...
Rok 2011
-
Automaty jako narzędzia w przetwarzaniu języka
PublikacjaRozdział zawiera definicję, notację i chcarakterystykę automatów oraz algorytmy ich przekształcania, umożliwiające ich skuteczne wykorzystanie w przetwarzaniu języka.
-
Przetwarzanie języka naturalnego
PublikacjaRozdział opisuje przetwarzanie języka naturalnego z podziałem na warstwy przetwarzania. Omawia też zagadnienie jakości przetwarzania na przykładzie poprawiania błędów i optymalizacji reguł.
-
Smaller Representation of Finite State Automata
PublikacjaThis paper is a follow-up to Jan Daciuk's experiments on space-effcient finite state automata representation that can be used directly for traversals in main memory. We investigate several techniques of reducing memory footprint of minimal automata, mainly exploiting the fact that transition labels and transition pointer offset values are not evenly distributed and so are suitable for compression. We achieve a gain of around 20-30%...
Rok 2010
-
Natural language dictionaries implemented as finite automata
PublikacjaRozdział przedstawia wykorzystanie automatów skończonych jako słowników języka naturalnego. Podane są podstawy teoretyczne. Omówione są zastosowania: realizacja doskonałej funkcji mieszającej, analizy i syntezy morfologicznej, poprawiania pisowni i dopisywania znaków diakrytycznych, wydobywanie informacji. Podano algorytmy tworzenia automatów oraz omówiono sposoby reprezentacji automatów z uwzględnieniem kompresji.
Rok 2009
-
A perfect hashing incremental scheme for unranked trees using pseudo-minimal automata
PublikacjaWe describe a technique that maps unranked trees to arbitrary hash codes using a bottom-up deterministic tree automaton (DTA). In contrast to other hashing techniques based on automata, our procedure builds a pseudo-minimal DTA for this purpose. A pseudo-minimal automaton may be larger than the minimal one accepting the same language but, in turn, it contains proper elements (states or transitions that are unique) for every input...
-
Incremental construction of Minimal Tree Automata [online]
PublikacjaWe describe an algorithm that allows the incremental addition or removal of unranked ordered trees to minimal frontier-to-root deterministic tree automaton (DTA). The algorithm takes a tree t and a minimal DTA A as input; it outputs a minimal DTA A' which accepts the language L(A) accepted by A incremented (or decremented) with the tree t. The algorithm can be used to efficiently maintain dictionaries which store large collections...
Rok 2008
-
Perfect hashing tree automata
PublikacjaWe present an algorithm that computes a function that assigns consecutive integers to trees recognized by a deterministic, acyclic, finite-state, bottom-up tree automaton. Such function is called minimal perfect hashing. It can be used to identify trees recognized by the automaton. Its value may be seen as an index in some other data structures. We also present an algorithm for inverted hashing.Przedstawiamy algorytm, który oblicza...
-
Perfect hashing with pseudo-minimal bottom-up deterministic tree automata
PublikacjaWe describe a technique that maps unranked trees to their hash codes using a bottom-up deterministic tree automaton (DTA). In contrast to techniques implemented with minimal tree automata, our procedure builds a pseudo-minimal DTA. Pseudo-minimal automata are larger than the minimal ones but in turn the mapping can be arbitrary, so it can be determined prior to the automaton construction. We also provide procedures to build incrementally...
Rok 2007
-
An implementation of deterministic tree automata minimization
PublikacjaWstępujący, deterministyczny, skończony automat drzewiasty (DTA) może być używany jako struktura danych do przechowywania zbiorów nieuporządkowanych drzew bez narzuconej liczby poddrzew. Takie automaty są zwykle rzadsze niż automaty działające na napisach i dlatego należy zwrócić szczególną uwagę na ich wydajną minimalizację. W dostępnej literaturze jest jednak ciężko znaleźć proste i szczegółowe opisy procedury minimalizacji....
Rok 2006
-
Gazetteer compression technique based on substructure recognition
PublikacjaAutomaty skończone są najlepszą formą reprezentacji słowników do przetwarzania języka naturalnego. Przedstawiamy nową technikę kompresji, która jest szczególnie użyteczna w stosunku do pewnego rodzaju słowników. Zastępujemy wielokrotnie występujące podstruktury ich niepowtarzalnymi reprezentantami. Do ich znalezienia traktujemy wektor przejść jako tekst i stosujemy technikę kompresji tekstu w stylu Ziv-Lempel, która znajduje powtórzenia...
-
Incremental and pseudo-incremental construction of pseudo-minimal automata.
PublikacjaAutomaty pseudominimalne mają dla każdego słowa w języku automatu co najmniej jeden element własny (stan lub przejście), który nie jest współdzielony z żadnym innym słowem. Przedstawiamy przyrostowe i półprzyrostowe algorytmy tworzenia takich automatów.
-
Les transducteurs à sorties variables
PublikacjaW przetwarzaniu języka naturalnego słowniki elektroniczne wiążą ze słowami informacje. Najwydajniejsza reprezentacja takich słowników używa maszyn ze skończoną liczbą stanów (automatów prostych lub automatów Mealy'ego). W tym artykule wzorując się na algorytmach bezpośredniej budowy minimalnego automatu deterministycznego proponujemy nowy typ automatu Mealy'ego. Ta nowa forma pozwala na szybkie obliczanie informacji wyjściowej...
Rok 2005
-
Dynamic Perfect hashing with finite-state automata
PublikacjaMinimalna doskonała funkcja mieszająca dostarcza odwzorowania zbioru n niepowtarzalnych słów w zwarty zakres n liczb całkowitych. Gdy jest realizowane za pomocą automatów skończonych, odwzorowanie wynika z porządku słów (zwykle alfabetycznego) w zbiorze. Dodanie nowych słów zmieniłoby porządek słów rozpoznawanych przez automat, zmieniając całe odwzorowanie i czyniąc je bezużytecznym w wielu dziedzinach. Dlatego nazywamy je statycznym....
-
Incremental and Semi-Incremental Construction of Pseudo-Minimal Automata
PublikacjaPrzedstawione zostają modyfikacje trzech algorytmów przyrostowego i półprzyrostowego tworzenia automatów minimalnych w taki sposób, aby tworzyły automaty pseudominimalne. Istniejący od dawna algorytm Revuza tworzy takie automaty szybciej i zużywając mniej pamięci, ale wymaga kłopotliwego sortowania. Nie nadaje się też do dodawania nowych słów do automatu - ważnej czynności w realizacji dynamicznej doskonałej funkcji mieszającej....
Rok 2004
-
Comments on ''Incremental construction and maintenance of minimal finite-state automata'' by Rafael C. Carrasco and Mikel L. Forcada.
PublikacjaW opublikowanym niedawno artykule (czerwiec 2002) Rafael Carrasco i Mikel Forcada przedstawili dwa algorytmy: jeden dotyczący przyrostowego dodawania łańcuchów znaków do języka minimalnego, deterministycznego, cyklicznego automatu skończonego, drugi dotyczący przyrostowego usuwania łańcuchów znaków z automatu. Pierwszy algorytm jest uogólnieniem ,,algorytmu dla danych nieuporządkowanych'' - drugiego z dwóch przyrostowych algorytmów...
-
Extension of selected ADFA construction algorithms to the case of cyclic automata.
PublikacjaW niedawnym artykule Rafael Carrasco i Mikel Forcada przedstawiają przyrostowy algorytm dodawania słów do minimalnego, acyklicznego automatu skończonego. Ten algorytm jest uogólnieniem przyrostowego algorytmu tworzenia acyklicznych deterministycznych automatów skończonych (ADFAs). Przedstawiamy podobne uogólnienia dwóch innych algorytmów tworzenia ADFAs. Chociaż te ougólnienia zostały już opublikowane w maju i czerwcu 2004 r.,...
-
Finite automata for compact representation of tuple dictionaries.
PublikacjaOpisane zostaje uogólnienie struktury danych - słownika, zwane słownikiem n-tek. Słownik n-tek przedstawia odwzorowanie n-tek łańcuchów znaków na pewne wartości. Motywacją dla powstania tej struktury danych są praktyczne zastosowania w przetwarzaniu języka i mowy, w których obszerne słowniki n-tek używane są do przedstawiania modeli języka. Przedstawiona zostaje technika oszczędnej reprezentacji słowników n-tek. Ta technika...
-
Finite-state lexical tools
PublikacjaArtykuł przedstawia trzy pakiety oprogramowania zawierające narzędzia poziomu leksykalnego wykorzystujące automaty skończone: dwa zbiory samodzielnych programów i skryptów pomocniczych - jeden używający prostych automatów skończonych, drugi używający automatów Mealy`ego oraz bibliotekę funkcji. Wszystkie przedstawione pakiety posiadają podobne funkcje. Zamiast opisywać poszczególne pakiety, opis skupiony jest na dostarczanych przez...
-
Semi-incremental addition of strings to a cyclic finite automaton
PublikacjaMaszyny o skończonej liczbie stanów są szeroko stosowane jako słowniki w przetwarzaniu języka naturalnego. Odznaczają się szybkim czasem przetwarzania i małymi wymaganiami pamięciowymi. Przedstawiamy nowy algorytm dodawania nowych słów do języka cyklicznego automatu skończonego. Algorytm jest rozszerzeniem na automaty cykliczne półprzyrostowego algorytmu Watsona dla automatów acyklicznych. Przekształcenie jest dokonane w duchu...
Rok 2003
-
An efficient incremental DFA minimization algorithm
PublikacjaW tym artykule przedstawiamy nowy algorytm minimalizacji deterministycznego automatu skończonego. Algorytm jest przyrostowy - może być zatrzymany w dowolnym momencie, dając częściowo zminimalizowany automat. Wszystkie inne (znane) algorytmy minimalizacji dają wyniki pośrednie nieprzydatne dla częściowej minimalizacji. Ponieważ pierwszy algorytm jest łatwo zrozumiały ale mało wydajny, rozważamy trzy praktyczne, znaczące usprawnienia....
-
Comparison of construction algorithms for minimal, acyclic, deterministicfinite state automata from sets of strings.
PublikacjaArtykuł porównuje różne metody tworzenia minimalnych, acyklicznych, deterministycznych automatów skończonych ze zbiorów słów. Wdrożone i porównane zostały metody przyrostowe, prawie przyrostowe i nieprzyrostowe.
-
Semi- incremental construction of minimal cyclic finite state automata usingcontinuation classes.
PublikacjaMinimalne automaty skończone są często wybierane do przedstawiania słowników morfologicznych języka naturalnego. Wśród ich zalet znajdują się duża szybkość rozpoznawania i małe wymagania pamięciowe. Tłumaczenie opisów morfologicznych opartych o klasy kontynuacji na minimalne, cykliczne automaty skończone jest tradycyjnie dokonywane w kilku fazach, zawierających tworzenie automatu niedeterministycznego z przejściami etykietowanymi...
Rok 2002
-
Finite automata for compact representation of language models in NLP
PublikacjaPrzedstawiona zostaje technika reprezentacji modeli języka w przetwarzaniu języka naturalnego wymagająca mało pamięci. Po krótkim omówieniu przyczyn poszukiwania oszczędnej reprezentacji takich modeli języka, pokazane jest, jak automaty skończone mogą być użyte w tym celu. Technika może być postrzegana jako zastosowanie i rozszerzenie doskonałej funkcji mieszającej z wykorzystaniem automatów skończonych. Pierwsze doświadczenia...
wyświetlono 4100 razy