Rust QA: question answering dataset for "The Rust Programming Language" in SQuAD 2.0 format - Open Research Data - MOST Wiedzy

Wyszukiwarka

Rust QA: question answering dataset for "The Rust Programming Language" in SQuAD 2.0 format

Opis

Rust QA is a dataset for training and evaluating QA systems. The dataset consists of 1068 questions to "The Rust Programming Language" book (https://doc.rust-lang.org/stable/book/) with the answers provided as text spans from the book. The dataset is released in SQuAD 2.0 format.

The dataset is splited to 854 train, 107 validation and 107 test samples. Each split is saved in separate JSON file. Each data sample consists of following notable fields:

  1. "context" - larger fragment of text. In our dataset it corresponds to a particular chapter from the language book.
  2. "qas" - table of questions with answers for the specified context. Each question is an object with "question", "id", "answers" and "is_impossible" fields. All of the questions in the dataset have one answer and are possible to answer.
  3. "question" - question in textual format.
  4. "text" - answer in textual format.
  5. "answer_start" - position of the first symbol of the answer in the context text.

The dataset was created using Haystack annotation tool (https://docs.haystack.deepset.ai/docs/annotation). All 105 chapters of the language book have been evenly split between five annotators, who then devised questions based on each chapter’s content.

Together with the dataset we realase the Rust book that was used for creating the annotations.

Plik z danymi badawczymi

Rust QA.zip
9.5 MB, S3 ETag 9aabe795aa37db0ffd0dd3f75b1cf245-1, pobrań: 4
Hash pliku liczony jest ze wzoru
hexmd5(md5(part1)+md5(part2)+...)-{parts_count} gdzie pojedyncza część pliku jest wielkości 512 MB

Przykładowy skrypt do wyliczenia:
https://github.com/antespi/s3md5
pobierz plik Rust QA.zip

Informacje szczegółowe o pliku

Licencja:
Creative Commons: by 4.0 otwiera się w nowej karcie
CC BY
Uznanie autorstwa

Informacje szczegółowe

Rok publikacji:
2024
Data zatwierdzenia:
2024-02-28
Język danych badawczych:
angielski
Dyscypliny:
  • informatyka techniczna i telekomunikacja (Dziedzina nauk inżynieryjno-technicznych)
DOI:
Identyfikator DOI 10.34808/c05c-9542 otwiera się w nowej karcie
Weryfikacja:
Politechnika Gdańska

Słowa kluczowe

Cytuj jako

wyświetlono 64 razy