Clinical situations text database for Polish language - Open Research Data - MOST Wiedzy

Wyszukiwarka

Clinical situations text database for Polish language

Opis

Dataset contains a database of anonymized texts in Polish for the purposes of building a medical speech corpus,  for clinical situations in the following areas: medical interview, interview and description of the result of an oncological examination, description of a radiological examination, description of a pathomorphological examination, description of a cardiological examination, description of the surgical procedure, description of the reanimation procedure, medical recommendations, prescription (including lists of drug names).

Ilustracja publikacji

Example content of the text file

The texts in the database are divided into 10 clinical situations: 

  1. Medical interview.
  2. Radiological examination.
  3. Oncology examination.
  4. Pathomorphological examination.
  5. Cardiology examination.
  6. Course of surgical procedure.
  7. Course of reanimation procedure.
  8. Recommendations.
  9. Referral to treatment.
  10. Prescriptions with pharmaceutical names.

The texts are saved in CSV format in the file phrases.csv

The first row of the file serves as the header row and contains information about the contents of each column:

  • id - unique number of the phrase;
  • phrase – phrase (a sentence or several related sentences);
  • CategoryID - number of the clinical situation;
  • SubCategoryID - subcategory number (only appears for some CategoryIDs).

The classification of the clinical situations (categories) is provided in the file situations.csv

Plik z danymi badawczymi

Clinical situations text database for Polish language.zip
159.5 kB, S3 ETag 12aa6e3d256b1319ea0172462142a23e-1, pobrań: 63
Hash pliku liczony jest ze wzoru
hexmd5(md5(part1)+md5(part2)+...)-{parts_count} gdzie pojedyncza część pliku jest wielkości 512 MB

Przykładowy skrypt do wyliczenia:
https://github.com/antespi/s3md5
pobierz plik Clinical situations text database for Polish language.zip

Informacje szczegółowe o pliku

Licencja:
Creative Commons: by-nc-sa 4.0 otwiera się w nowej karcie
CC BY-NC-SA
Użycie niekomercyjne - Na tych samych warunkach

Informacje szczegółowe

Rok publikacji:
2024
Data zatwierdzenia:
2024-07-19
Język danych badawczych:
polski
Dyscypliny:
  • nauki medyczne (Dziedzina nauk medycznych i nauk o zdrowiu)
  • nauki farmaceutyczne (Dziedzina nauk medycznych i nauk o zdrowiu)
  • informatyka techniczna i telekomunikacja (Dziedzina nauk inżynieryjno-technicznych)
DOI:
Identyfikator DOI 10.34808/0pg7-2b80 otwiera się w nowej karcie
Finansowanie:
Seria:
Weryfikacja:
Politechnika Gdańska

Słowa kluczowe

Cytuj jako

wyświetlono 149 razy