Abstrakt
Automaty skończone są najlepszą formą reprezentacji słowników do przetwarzania języka naturalnego. Przedstawiamy nową technikę kompresji, która jest szczególnie użyteczna w stosunku do pewnego rodzaju słowników. Zastępujemy wielokrotnie występujące podstruktury ich niepowtarzalnymi reprezentantami. Do ich znalezienia traktujemy wektor przejść jako tekst i stosujemy technikę kompresji tekstu w stylu Ziv-Lempel, która znajduje powtórzenia w czasie liniowym używając drzew przyrostków. Ocena doświadczalna na danych rzeczywistych pokazuje oszczędność miejsca do 18.6%, co czyni tę metodę szczególnie atrakcyjną.
Autorzy (2)
Cytuj jako
Pełna treść
pełna treść publikacji nie jest dostępna w portalu
Słowa kluczowe
Informacje szczegółowe
- Kategoria:
- Publikacja monograficzna
- Typ:
- rozdział, artykuł w książce - dziele zbiorowym /podręczniku w języku o zasięgu międzynarodowym
- Tytuł wydania:
- Intelligent Information Processing and Web Mining strony 87 - 95
- Język:
- angielski
- Rok wydania:
- 2006
- Opis bibliograficzny:
- Daciuk J., Piskorski J.: Gazetteer compression technique based on substructure recognition// Intelligent Information Processing and Web Mining/ ed. eds: M. Kłopotek, Sławomir T. Wierzchoń, K. Trojanowski. Berlin: Springer, 2006, s.87-95
- Weryfikacja:
- Politechnika Gdańska
wyświetlono 107 razy