Polish-Kashubian parallel translation corpus

wersja 2.0

Opis

The dataset contains Polish words and sentences and their translations into Kashubian. The dataset consists of train and test subsets. The train subset contains about 100,000 parallel translations. It was created using two types of sources. The first one is the online dictionaries:

The second type of source was an existing dataset that was incorporated into this one:

The dataset was carefully cleaned and duplicates were removed.

The test dataset is distributed together with the training dataset. It contains 70 parallel Poish-Kashubian sentences. The sentences were obtained from sources other than the train data to make them reliable.

Plik z danymi badawczymi

Polish-Kashubian parallel translation corpus.zip

814.0 kB, S3 ETag 44810ca14f445862b0bbd85c3fa03ec7-1, pobrań: 4

Hash pliku liczony jest ze wzoru
hexmd5(md5(part1)+md5(part2)+...)-{parts_count} gdzie pojedyncza część pliku jest wielkości 512 MB

Przykładowy skrypt do wyliczenia:
https://github.com/antespi/s3md5

pobierz

Informacje szczegółowe o pliku

Licencja:: otwiera się w nowej karcie

CC 0

Przekazanie do Domeny Publicznej

Informacje szczegółowe

Rok publikacji:

2024

Data zatwierdzenia:

2025-02-01

Język danych badawczych:

polski

Dyscypliny:

informatyka techniczna i telekomunikacja (Dziedzina nauk inżynieryjno-technicznych)

DOI:

10.34808/5whb-dk74

Seria:

Polish-Kashubian translation

Weryfikacja:

Politechnika Gdańska

Słowa kluczowe

Powiązane zasoby

dane badawcze Remus: Polish-Kashubian parallel translation corpus

Cytuj jako

Autorzy

Szymon Olewniczak mgr inż.
Katedra Architektury Systemów Komputerowych
numer orcid 0000-0002-9387-8546otwiera się w nowej karcie
Menedżer projektu
Mikołaj Nowak

Wydział Elektroniki, Telekomunikacji i Informatyki

Twórca
Filip Szweda

Wydział Elektroniki, Telekomunikacji i Informatyki

Twórca
Julia Żęgota

Wydział Elektroniki, Telekomunikacji i Informatyki

Twórca
Krzysztof Kulpiński

Wydział Elektroniki, Telekomunikacji i Informatyki

Twórca
Michał Wrzosek

Wydział Elektroniki, Telekomunikacji i Informatyki

Twórca
Jakub Grzybowski

Wydział Elektroniki, Telekomunikacji i Informatyki

Twórca
Kamil Czepiel

Wydział Elektroniki, Telekomunikacji i Informatyki

Twórca

Wersja ten dokument posiada różne wersje

Aktualna wersja

wersja 2.0

Identyfikator DOI10.34808/5whb-dk74

Data publikacji wersji 2025-02-01
wersja 1.0

Identyfikator DOI10.34808/t930-fs97

Data publikacji wersji 2024-09-30

DOI 10.34808/4sbd-2v21 reprezentuje ostatnią wersję danych.

wyświetlono 73 razy

Wyszukiwarka