Abstract
Automaty skończone są najlepszą formą reprezentacji słowników do przetwarzania języka naturalnego. Przedstawiamy nową technikę kompresji, która jest szczególnie użyteczna w stosunku do pewnego rodzaju słowników. Zastępujemy wielokrotnie występujące podstruktury ich niepowtarzalnymi reprezentantami. Do ich znalezienia traktujemy wektor przejść jako tekst i stosujemy technikę kompresji tekstu w stylu Ziv-Lempel, która znajduje powtórzenia w czasie liniowym używając drzew przyrostków. Ocena doświadczalna na danych rzeczywistych pokazuje oszczędność miejsca do 18.6%, co czyni tę metodę szczególnie atrakcyjną.
Authors (2)
Cite as
Full text
full text is not available in portal
Keywords
Details
- Category:
- Monographic publication
- Type:
- rozdział, artykuł w książce - dziele zbiorowym /podręczniku w języku o zasięgu międzynarodowym
- Title of issue:
- Intelligent Information Processing and Web Mining strony 87 - 95
- Language:
- English
- Publication year:
- 2006
- Bibliographic description:
- Daciuk J., Piskorski J.: Gazetteer compression technique based on substructure recognition// Intelligent Information Processing and Web Mining/ ed. eds: M. Kłopotek, Sławomir T. Wierzchoń, K. Trojanowski. Berlin: Springer, 2006, s.87-95
- Verified by:
- Gdańsk University of Technology
seen 105 times