Elgold intermediate: raw texts - Open Research Data - MOST Wiedzy

Wyszukiwarka

Elgold intermediate: raw texts

Opis

The dataset contains raw texts scrapped from various internet sources which were used for creating the Elgold dataset.

The texts were collected from 7 main categories: "News", "Job offers", "Movie reviews", "Automotive blogs", "Amazon product reviews", "Scientific papers abstracts", and "Historic blogs". The Scientific Papers category was additionally divided into five subcategories: "Biomedicine", "Life Sciences", "Mathematics", "Medicine & Public Health", and "Science, Humanities and Social Sciences, multidisciplinary". 

The raw texts were collected from publicly available Internet sources by the group of 14 participants. Every category has 2-3 participants assigned.

The dataset consists of approximately 100 texts for each category (and subcategory in the case of "Scientific papers abstracts").

Plik z danymi badawczymi

raw.zip
1.0 MB, S3 ETag 22f7c4a62f2f469187172d70e1df7b98-1, pobrań: 43
Hash pliku liczony jest ze wzoru
hexmd5(md5(part1)+md5(part2)+...)-{parts_count} gdzie pojedyncza część pliku jest wielkości 512 MB

Przykładowy skrypt do wyliczenia:
https://github.com/antespi/s3md5
pobierz plik raw.zip

Informacje szczegółowe o pliku

Licencja:
Creative Commons: 0 1.0 otwiera się w nowej karcie
CC 0
Przekazanie do Domeny Publicznej

Informacje szczegółowe

Rok publikacji:
2024
Data zatwierdzenia:
2024-06-28
Data wytworzenia:
2024
Język danych badawczych:
angielski
Dyscypliny:
  • informatyka techniczna i telekomunikacja (Dziedzina nauk inżynieryjno-technicznych)
DOI:
Identyfikator DOI 10.34808/py0a-xj82 otwiera się w nowej karcie
Seria:
Weryfikacja:
Politechnika Gdańska

Słowa kluczowe

Powiązane zasoby

Cytuj jako

wyświetlono 85 razy