Abstrakt
Machine learning algorithms applied to text categorization mostly employ the Bag of Words (BoW) representation to describe the content of the documents. This method has been successfully used in many applications, but it is known to have several limitations. One way of improving text representation is usage of Wikipedia as the lexical knowledge base – an approach that has already shown promising results in many research studies. In this paper we propose three path-based measures for computing document relatedness in the conceptual space formed by the hierarchical organization of a Wikipedia Category Graph (WCG). We compare the proposed approaches with the standard Path Length method to establish the best relatedness measure for the WCG representation. To test overall WCG efficiency, we compare the proposed representations with the BoW method. The evaluation was performed with two different types of clustering algorithms (OPTICS and K-Means), used for categorization of keyword-based search results. The experiments have shown that our approach outperforms the standard Path Length approach, and the WCG representation achieves better results than BoW.
Cytowania
-
1
CrossRef
-
0
Web of Science
-
1
Scopus
Autorzy (2)
Cytuj jako
Pełna treść
- Wersja publikacji
- Accepted albo Published Version
- DOI:
- Cyfrowy identyfikator dokumentu elektronicznego (otwiera się w nowej karcie) 10.1007/s10844-016-0416-5
- Licencja
- otwiera się w nowej karcie
Słowa kluczowe
Informacje szczegółowe
- Kategoria:
- Publikacja w czasopiśmie
- Typ:
- artykuł w czasopiśmie wyróżnionym w JCR
- Opublikowano w:
-
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS
nr 48,
wydanie 2,
strony 309 - 327,
ISSN: 0925-9902 - Język:
- angielski
- Rok wydania:
- 2017
- Opis bibliograficzny:
- Kucharczyk Ł., Szymański J.: Path-based methods on categorical structures for conceptual representation of wikipedia articles// JOURNAL OF INTELLIGENT INFORMATION SYSTEMS. -Vol. 48, iss. 2 (2017), s.309-327
- DOI:
- Cyfrowy identyfikator dokumentu elektronicznego (otwiera się w nowej karcie) 10.1007/s10844-016-0416-5
- Weryfikacja:
- Politechnika Gdańska
wyświetlono 169 razy
Publikacje, które mogą cię zainteresować
Text Categorization Improvement via User Interaction
- J. Atroszko,
- J. Szymański,
- D. Gil
- + 1 autorów