Elgold intermediate: raw texts

Opis

The dataset contains raw texts scrapped from various internet sources which were used for creating the Elgold dataset.

The texts were collected from 7 main categories: "News", "Job offers", "Movie reviews", "Automotive blogs", "Amazon product reviews", "Scientific papers abstracts", and "Historic blogs". The Scientific Papers category was additionally divided into five subcategories: "Biomedicine", "Life Sciences", "Mathematics", "Medicine & Public Health", and "Science, Humanities and Social Sciences, multidisciplinary".

The raw texts were collected from publicly available Internet sources by the group of 14 participants. Every category has 2-3 participants assigned.

The dataset consists of approximately 100 texts for each category (and subcategory in the case of "Scientific papers abstracts").

Plik z danymi badawczymi

raw.zip

1.0 MB, S3 ETag 22f7c4a62f2f469187172d70e1df7b98-1, pobrań: 47

Hash pliku liczony jest ze wzoru
hexmd5(md5(part1)+md5(part2)+...)-{parts_count} gdzie pojedyncza część pliku jest wielkości 512 MB

Przykładowy skrypt do wyliczenia:
https://github.com/antespi/s3md5

pobierz

Informacje szczegółowe o pliku

Licencja:: otwiera się w nowej karcie

CC 0

Przekazanie do Domeny Publicznej

Informacje szczegółowe

Rok publikacji:

2024

Data zatwierdzenia:

2024-06-28

Data wytworzenia:

2024

Język danych badawczych:

angielski

Dyscypliny:

informatyka techniczna i telekomunikacja (Dziedzina nauk inżynieryjno-technicznych)

DOI:

10.34808/py0a-xj82

Seria:

Elgold intermediate

Weryfikacja:

Politechnika Gdańska

Słowa kluczowe

Powiązane zasoby

dane badawcze Elgold: gold standard, multi-genre dataset for named entity recognition and linking
dane badawcze Elgold intermediate: annotated raw

Cytuj jako

Autorzy

wyświetlono 107 razy

Wyszukiwarka