Wyniki wyszukiwania dla: RLHF
Wyświetlane wyniki pochodzą z wyszukiwania alternatywnego.
Filtry
wszystkich: 1
Wyniki wyszukiwania dla: RLHF
-
WikiPrefs: human preferences dataset build from text edits
Dane BadawczeThe WikiPrefs dataset is a human preferences dataset for Large Language Models alignment. It was built using the EditPrefs method from historical edits of Wikipedia featured articles