Optymalizacja wydajności obliczeniowej metody elementów skończonych w architekturze CUDA

Adam Dziekoński

Optymalizacja wydajności obliczeniowej metody elementów skończonych w architekturze CUDA

Abstract

Celem niniejszej rozprawy oraz stypendium odbytego w ramach projektu było opracowanie numerycznie efektywnego rozwiązania algorytmicznego i sprzętowego, które umożliwia przyspieszenie analizy problemów elektromagnetycznych metodą elementów skończonych (MES) z funkcjami bazowymi wysokiego rzędu. Metoda elementów skończonych w dziedzinie częstotliwości stanowi wydajne i uniwersalne narzędzie analizy układów mikrofalowych (rys. 1). MES należy do grupy metod siatkowych, w których rozważa się różniczkową postać problemu brzegowego, zdefiniowanego w pewnym skończonym obszarze nazywanym dziedzina obliczeniową, który dzieli się na małe fragmenty (elementy skończone). W celu przyspieszenia analizy problemów elektromagnetycznych metodą elementów skończonych do obliczeń zastosowano akceleratory graficzne (ang. Graphics Processing Unit,GPU) kompatybilne z architekturą CUDA (ang. Compute Unified Device Architecture). W trakcie prac nad rozprawa i w trakcie stażu skoncentrowałem się na opracowaniu i optymalizacji masywnie zrównoleglonych algorytmów najbardziej kosztownych numerycznie etapów analizy MES:  generacji dużych macierzy sztywności i bezwładności  rozwiązania układów równań liniowych (w trakcie stażu opracowano implementację która pozwala na rozwiązanie układu równań na kilku akceleratorach co umożliwia szybsza i dokładniejszą analizę MES) W trakcie pobytu na stypendium opracowane algorytmy i ich implementacje zostały uruchomione i przetestowane na dwóch akceleratorach graficznym Tesla K20c (2496 rdzeni, 5 GB) oraz porównane z referencyjnymi zoptymalizowanymi implementacjami na CPU (Intel Xeon E5-2620, 6 wątków). W rozprawie przeprowadzono testy numeryczne dla filtru grzebieniowego zaprojektowanego na pasmo GSM (920-980 MHz), których rezultaty potwierdziły postawione w rozprawie tezy. Zastosowanie GPU do wykonania obliczeń najbardziej kosztownych obliczeniowo etapów MES pozwoliło na ok. 4,7 krotne skrócenie czasu analizy MES dla największego problemu (5 milionów niewiadomych). Czas analizy MES skrócono z pięciu godzin (obliczenia wykonywane wyłącznie na CPU) do ok. godziny gdy obliczenia w etapach generacji macierzy i rozwiązania układu równań wykonywane są z wykorzystaniem GPU. Opracowane algorytmu i implementacje dedykowane obliczeniom na akceleratorach graficznych pozwolą na redukcje czasu analizy układów mikrofalowych (tj. anteny i filtry), które używane są systemach komunikacji bezprzewodowej.

Author (1)

Adam Dziekoński dr inż.

Cite as

Full text

full text is not available in portal

Keywords

Details

Category:: Thesis, nostrification
Type:: praca doktorska pracowników zatrudnionych w PG oraz studentów studium doktoranckiego
Language:: Polish
Publication year:: 2015
Verified by:: Gdańsk University of Technology