Opis
The dataset contains raw texts scrapped from various internet sources which were used for creating the Elgold dataset.
The texts were collected from 7 main categories: "News", "Job offers", "Movie reviews", "Automotive blogs", "Amazon product reviews", "Scientific papers abstracts", and "Historic blogs". The Scientific Papers category was additionally divided into five subcategories: "Biomedicine", "Life Sciences", "Mathematics", "Medicine & Public Health", and "Science, Humanities and Social Sciences, multidisciplinary".
The raw texts were collected from publicly available Internet sources by the group of 14 participants. Every category has 2-3 participants assigned.
The dataset consists of approximately 100 texts for each category (and subcategory in the case of "Scientific papers abstracts").
Plik z danymi badawczymi
hexmd5(md5(part1)+md5(part2)+...)-{parts_count}
gdzie pojedyncza część pliku jest wielkości 512 MBPrzykładowy skrypt do wyliczenia:
https://github.com/antespi/s3md5
Informacje szczegółowe o pliku
- Licencja:
-
otwiera się w nowej karcieCC 0Przekazanie do Domeny Publicznej
Informacje szczegółowe
- Rok publikacji:
- 2024
- Data zatwierdzenia:
- 2024-06-28
- Data wytworzenia:
- 2024
- Język danych badawczych:
- angielski
- Dyscypliny:
-
- informatyka techniczna i telekomunikacja (Dziedzina nauk inżynieryjno-technicznych)
- DOI:
- Identyfikator DOI 10.34808/py0a-xj82 otwiera się w nowej karcie
- Seria:
- Weryfikacja:
- Politechnika Gdańska
Słowa kluczowe
Powiązane zasoby
- dane badawcze Elgold: gold standard, multi-genre dataset for named entity recognition and linking
- dane badawcze Elgold intermediate: annotated raw
Cytuj jako
Autorzy
wyświetlono 88 razy