Polish-Kashubian parallel translation corpus - Open Research Data - MOST Wiedzy

Wyszukiwarka

Polish-Kashubian parallel translation corpus

Opis

The data set contains about 120,000 Polish words and sentences and their translations into Kashubian. It was created using two types of sources. The first one is the online dictionaries:

  1. kaszebe.org
  2. sloworz.org
  3. odmiana.net

The second type of source was an existing dataset that was incorporated into this one:

  1. OPUS
  2. Tatoeba Challenge

The dataset was pre-cleaned and duplicates were removed.

Plik z danymi badawczymi

dataset.zip
933.8 kB, S3 ETag 300ef6fafbc762e50e991f8d2ae60466-1, pobrań: 2
Hash pliku liczony jest ze wzoru
hexmd5(md5(part1)+md5(part2)+...)-{parts_count} gdzie pojedyncza część pliku jest wielkości 512 MB

Przykładowy skrypt do wyliczenia:
https://github.com/antespi/s3md5
pobierz plik dataset.zip

Informacje szczegółowe o pliku

Licencja:
Creative Commons: 0 1.0 otwiera się w nowej karcie
CC 0
Przekazanie do Domeny Publicznej

Informacje szczegółowe

Rok publikacji:
2024
Data zatwierdzenia:
2024-09-30
Język danych badawczych:
polski
Dyscypliny:
  • informatyka techniczna i telekomunikacja (Dziedzina nauk inżynieryjno-technicznych)
DOI:
Identyfikator DOI 10.34808/t930-fs97 otwiera się w nowej karcie
Weryfikacja:
Politechnika Gdańska

Słowa kluczowe

Cytuj jako

wyświetlono 19 razy