Opis
The dataset contains Polish words and sentences and their translations into Kashubian. The dataset consists of train and test subsets. The train subset contains about 100,000 parallel translations. It was created using two types of sources. The first one is the online dictionaries:
The second type of source was an existing dataset that was incorporated into this one:
The dataset was carefully cleaned and duplicates were removed.
The test dataset is distributed together with the training dataset. It contains 70 parallel Poish-Kashubian sentences. The sentences were obtained from sources other than the train data to make them reliable.
Plik z danymi badawczymi
Polish-Kashubian parallel translation corpus.zip
814.0 kB,
S3 ETag
44810ca14f445862b0bbd85c3fa03ec7-1,
pobrań: 10
Hash pliku liczony jest ze wzoru
Przykładowy skrypt do wyliczenia:
https://github.com/antespi/s3md5
hexmd5(md5(part1)+md5(part2)+...)-{parts_count}
gdzie pojedyncza część pliku jest wielkości 512 MBPrzykładowy skrypt do wyliczenia:
https://github.com/antespi/s3md5
Informacje szczegółowe o pliku
- Licencja:
-
otwiera się w nowej karcie
CC 0Przekazanie do Domeny Publicznej
Informacje szczegółowe
- Rok publikacji:
- 2024
- Data zatwierdzenia:
- 2025-02-01
- Język danych badawczych:
- polski
- Dyscypliny:
-
- informatyka techniczna i telekomunikacja (Dziedzina nauk inżynieryjno-technicznych)
- DOI:
- Identyfikator DOI 10.34808/5whb-dk74 otwiera się w nowej karcie
- Seria:
- Weryfikacja:
- Politechnika Gdańska
Słowa kluczowe
Powiązane zasoby
- dane badawcze Remus: Polish-Kashubian parallel translation corpus
Cytuj jako
Autorzy
Wersja ten dokument posiada różne wersje
-
Aktualna wersjawersja 2.0Data publikacji wersji 2025-02-01
-
wersja 1.0Data publikacji wersji 2024-09-30
DOI
10.34808/4sbd-2v21
reprezentuje ostatnią wersję danych.
wyświetlono 98 razy