The Algorithm of Modelling and Analysis of Latent Semantic Relations: Linear Algebra vs. Probabilistic Topic Models - Publikacja - MOST Wiedzy

Wyszukiwarka

The Algorithm of Modelling and Analysis of Latent Semantic Relations: Linear Algebra vs. Probabilistic Topic Models

Abstrakt

This paper presents the algorithm of modelling and analysis of Latent Semantic Relations inside the argumentative type of documents collection. The novelty of the algorithm consists in using a systematic approach: in the combination of the probabilistic Latent Dirichlet Allocation (LDA) and Linear Algebra based Latent Semantic Analysis (LSA) methods; in considering each document as a complex of topics, defined on the basis of separate analysis of the particular paragraphs. The algorithm contains the following stages: modelling and analysis of Latent Semantic Relations consistently on LDA- and LSA-based levels; rules-based adjustment of the results of the two levels of analysis. The verification of the proposed algorithm for subjectively positive and negative Polish-language film reviews corpuses was conducted. The level of the recall rate and precision indicator, as a result of case study, allowed to draw the conclusions about the effectiveness of the proposed algorithm

Cytowania

  • 4

    CrossRef

  • 0

    Web of Science

  • 6

    Scopus

Pełna treść

pobierz publikację
pobrano 22 razy

Licencja

Copyright (Springer International Publishing AG 2017)

Informacje szczegółowe

Kategoria:
Aktywność konferencyjna
Typ:
publikacja w wydawnictwie zbiorowym recenzowanym (także w materiałach konferencyjnych)
Tytuł wydania:
Knowledge Engineering and Semantic Web strony 53 - 68
Język:
angielski
Rok wydania:
2017
Opis bibliograficzny:
Rizun N., Waloszek W., Yurii T.: The Algorithm of Modelling and Analysis of Latent Semantic Relations: Linear Algebra vs. Probabilistic Topic Models// Knowledge Engineering and Semantic Web/ ed. Różewski P., Lange C. : Springer, Cham, 2017, s.53-68
DOI:
Cyfrowy identyfikator dokumentu elektronicznego (otwiera się w nowej karcie) 10.1007/978-3-319-69548-8_5
Bibliografia: test
  1. Baeza-Yates R., Ribeiro-Neto B. (2011) Modern Information Retrieval. Addison-Wesley, Wokingham, UK, 1999. Second edition.
  2. Bahl L., Baker J., Jelinek E., & Mercer R. (1977) Perplexity -a measure of the difficulty of speech recognition tasks. In Program, 94th Meeting of the Acoustical Society of America, volume 62, page S63.
  3. Blei D., Ng A., Jordan M. (2003) Latent Dirichlet allocation. Journal of Machine Learning Research, 3: pp. 993-1022. otwiera się w nowej karcie
  4. Blei D. (2012) Introduction to Probabilistic Topic Models. Comm. ACM 55 (4), April, 2012: pp. 77-84 otwiera się w nowej karcie
  5. Ali D., Juanzi L., Lizhu Z., Faqir M. (2010) Knowledge discovery through directed probabilistic topic models: a survey. In Proceedings of Frontiers of Computer Science in China. pp. 280-301.
  6. Blei D. Topic modeling. http: //www.cs.princeton.edu/~blei/topicmodeling.html otwiera się w nowej karcie
  7. Dumais, S. T., Furnas, G. W., Landauer, T. K. and Deerwester, S. (1988) Using latent semantic analysis to improve information retrieval. In Proceedings of CHI'88: Conference on Human Factors in Computing, New York: ACM, 281-285 otwiera się w nowej karcie
  8. Deerwester S., Susan T. Dumais, Harshman R. (1990) Indexing by Latent Semantic Analysis. http://lsa.colorado.edu/papers/JASIS.lsi.90.pdf
  9. Eden L. (2007) Matrix Methods in Data Mining and Pattern Recognition, SIAM. otwiera się w nowej karcie
  10. Furnas G.W., Deerwester, S., Dumais S.T., Landauer T.K., Harshman R.A., Streeter L.A., Lochbaum K.E. (1998) Information retrieval using a singular value decomposition model of latent semantic structure. In Proc. ACM SIGIR Conf., s. 465-480, ACM, New York otwiera się w nowej karcie
  11. Salton G., Michael J. (1983) McGill Introduction to modern information retrieval. New York McGraw-Hill -McGraw-Hill computer science series, XV, 448 p
  12. Jain A.K., Murty M.N., Flynn P.J. (1999) Data Clustering: A Review; ACM Computing Surveys, Vol. 31, Nr. 3. otwiera się w nowej karcie
  13. Gramacki J., Gramacki A. (2010) Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego analizowania treści dokumentów. XVI Konferencja PLOUG, pp.227-249.
  14. Kapłanski P., Rizun N., Taranenko Y., Seganti A. (2016) Text-mining Similarity Approximation Operators for Opinion Mining in BI tools. Chapter: Proceeding of the 11th Scientific Conference "Internet in the Information Society-2016", Publisher: University of Dąbrowa Górnicza, pp.121-141.
  15. Canini KR., Shi L., Griffiths T. (2009) Online Inference of Topics with Latent Dirichlet Allocation. Journal of Machine Learning Research. Proceedings Track 5: 65-72.
  16. Tomanek K. (2014). Analiza sentymentu -metoda analizy danych jakościowych. Przykład zastosowania oraz ewaluacja słownika RID i metody klasyfikacji Bayesa w analizie danych jakościowych, Przegląd Socjologii Jakościowej, pp. 118-136, www.przegladsocjologiijakosciowej.org otwiera się w nowej karcie
  17. Aggarwal C., Zhai X, (2012) Mining Text Data (Springer). otwiera się w nowej karcie
  18. Leticia HA.(2011). Comparing Latent Dirichlet Allocation and Latent Semantic Analysis as Classifiers, Doctor of Philosophy (Management Science), 226 pp
  19. Papadimitrious, C.H., Raghavan, P., Tamaki, H., and Vempala, S. (2000). Latent semantic indexing: A probabilistic analysis. Journal of Computer and System Sciences, 61, 217-235. otwiera się w nowej karcie
  20. Rizun N., Kapłanski P., Taranenko Y. (2016) Development and Research of the Text Messages Semantic Clustering Methodology. 2016, Third European Network Intelligence Conference, Publisher: ENIC, # 33, pp.180-187 otwiera się w nowej karcie
  21. Rizun N., Kapłanski P., Taranenko Y. (2016) Method of a Two-Level Text-Meaning Similarity Approximation of the Customers' Opinions. Economic Studies -Scientific Papers. University of Economics in Katowice, Nr. 296/2016, pp.64-85. otwiera się w nowej karcie
  22. Rizun N., Taranenko Y. (2017) Development of the Algorithm of Polish Language Film Reviews Preprocessing. Proceeding of the 2nd International Conference on Information Technologies in Management, Publisher: Rocznik Naukowy Wydziału Zarządzania WSM (in print).
  23. Rui X., Donald C. Wunsch II. (2005) Survey of clustering algorithms. IEEE Transactions on Neural Networks 16(3): pp. 645-678.
  24. Salton G., Wong A., Yang C. S. (1975) A Vector Space Model for Automatic Indexing, Communications of the ACM, Vol. 18, Nr. 11, s. 613-620 otwiera się w nowej karcie
  25. Hofman T. (1999) Probabilistic Latent Semantic Analysis. UAI, 1999, 289-296; otwiera się w nowej karcie
  26. Thomas Hofmann. Probabilistic Latent Semantic Indexing. SIGIR, pp. 50-57. otwiera się w nowej karcie
  27. Mika T. (2013) Term Weighting in Short Documents for Document Categorization, Keyword Extraction and Query Expansion. PhD Thesis, Series of Publications A, Report A-2013-1.
Weryfikacja:
Politechnika Gdańska

wyświetlono 58 razy

Publikacje, które mogą cię zainteresować

Meta Tagi