Opis
Dataset contains a database of anonymized texts in Polish for the purposes of building a medical speech corpus, for clinical situations in the following areas: medical interview, interview and description of the result of an oncological examination, description of a radiological examination, description of a pathomorphological examination, description of a cardiological examination, description of the surgical procedure, description of the reanimation procedure, medical recommendations, prescription (including lists of drug names).
Example content of the text file
The texts in the database are divided into 10 clinical situations:
- Medical interview.
- Radiological examination.
- Oncology examination.
- Pathomorphological examination.
- Cardiology examination.
- Course of surgical procedure.
- Course of reanimation procedure.
- Recommendations.
- Referral to treatment.
- Prescriptions with pharmaceutical names.
The texts are saved in CSV format in the file phrases.csv
The first row of the file serves as the header row and contains information about the contents of each column:
- id - unique number of the phrase;
- phrase – phrase (a sentence or several related sentences);
- CategoryID - number of the clinical situation;
- SubCategoryID - subcategory number (only appears for some CategoryIDs).
The classification of the clinical situations (categories) is provided in the file situations.csv
Plik z danymi badawczymi
hexmd5(md5(part1)+md5(part2)+...)-{parts_count}
gdzie pojedyncza część pliku jest wielkości 512 MBPrzykładowy skrypt do wyliczenia:
https://github.com/antespi/s3md5
Informacje szczegółowe o pliku
- Licencja:
-
otwiera się w nowej karcieCC BY-NC-SAUżycie niekomercyjne - Na tych samych warunkach
Informacje szczegółowe
- Rok publikacji:
- 2024
- Data zatwierdzenia:
- 2024-07-19
- Język danych badawczych:
- polski
- Dyscypliny:
-
- nauki medyczne (Dziedzina nauk medycznych i nauk o zdrowiu)
- nauki farmaceutyczne (Dziedzina nauk medycznych i nauk o zdrowiu)
- informatyka techniczna i telekomunikacja (Dziedzina nauk inżynieryjno-technicznych)
- DOI:
- Identyfikator DOI 10.34808/0pg7-2b80 otwiera się w nowej karcie
- Finansowanie:
- Seria:
- Weryfikacja:
- Politechnika Gdańska
Słowa kluczowe
Cytuj jako
Autorzy
wyświetlono 149 razy