WikiPrefs: human preferences dataset build from text edits - Open Research Data - MOST Wiedzy

Wyszukiwarka

WikiPrefs: human preferences dataset build from text edits

Opis

WikiPrefs

The WikiPrefs dataset is a human preferences dataset for Large Language Models alignment. It was built using the EditPrefs method from historical edits of Wikipedia featured articles

The code used for creating the dataset is available on GitHub: https://github.com/jmajkutewicz/EditPrefs

Dataset Description

  • Language: English
  • License: CC BY-SA 4.0
  • Note that:
    • the text comes from Wikipedia and is subjected to CC BY-SA 4.0 license
    • the prompts were created using the GPT-3.5-turbo and are subjected to OpenAI license restrictions

Dataset Structure

The dataset is split into 63345 train and 2000 test samples. Each sample consists of:

  • page_id - Wikipedia article id
  • page_title - Wikipedia article title
  • section - section of the Wikipedia article
  • rev_id - the revision of the Wikipedia article
  • prev_rev_id - parent revision
  • timestamp - date of the edit
  • contributor - author of the edit
  • comment - comment associated with the edit
  • prompt - synthetic instruction that matches the responses
  • chosen - chosen response, created from the edited revision of the Wikipedia article; formatted as a list of messages
  • rejected - rejected response, created from the original revision of the Wikipedia article; formatted as a list of messages

Source Data

The dataset was created from the English Wikipedia dump from 01.04.2024

Applications

The dataset can be used for aligning Large Language Models with standard techniques such as RLHF or DPO

Plik z danymi badawczymi

wiki_prefs.zip
20.4 MB, S3 ETag 87408b4237e1bec4ff3ffc740ba810b8-1, pobrań: 33
Hash pliku liczony jest ze wzoru
hexmd5(md5(part1)+md5(part2)+...)-{parts_count} gdzie pojedyncza część pliku jest wielkości 512 MB

Przykładowy skrypt do wyliczenia:
https://github.com/antespi/s3md5
pobierz plik wiki_prefs.zip

Informacje szczegółowe o pliku

Licencja:
Creative Commons: by-sa 4.0 otwiera się w nowej karcie
CC BY-SA
Na tych samych warunkach

Informacje szczegółowe

Rok publikacji:
2024
Data zatwierdzenia:
2024-10-21
Język danych badawczych:
angielski
Dyscypliny:
  • informatyka techniczna i telekomunikacja (Dziedzina nauk inżynieryjno-technicznych)
DOI:
Identyfikator DOI 10.34808/vnjf-8275 otwiera się w nowej karcie
Weryfikacja:
Politechnika Gdańska

Słowa kluczowe

Cytuj jako

wyświetlono 72 razy