Checkpointing of Parallel MPI Applications using MPI One-sided API with Support for Byte-addressable Non-volatile RAM
Abstrakt
The increasing size of computational clusters results in an increasing probability of failures, which in turn requires application checkpointing in order to survive those failures. Traditional checkpointing requires data to be copied from application memory into persistent storage medium, which increases application execution time as it is usually done in a separate step. In this paper we propose to use emerging byte-addressable non-volatile RAM (NVRAM) as a persistent storage medium and we analyze various methods of making consistent checkpoints with support of MPI one-sided API in order to minimize checkpointing overhead. We test our solution on two applications: HPCCG benchmark and PageRank algorithm. Our experiments showed that NVRAM based checkpointing performs much better than traditional disk based approach. We also simulated different possible latencies and bandwidth of future NVRAM and our experiments showed that only bandwidth had visible impact onto application execution time.
Cytowania
-
9
CrossRef
-
0
Web of Science
-
1 1
Scopus
Autorzy (7)
Cytuj jako
Pełna treść
pełna treść publikacji nie jest dostępna w portalu
Słowa kluczowe
Informacje szczegółowe
- Kategoria:
- Aktywność konferencyjna
- Typ:
- publikacja w wydawnictwie zbiorowym recenzowanym (także w materiałach konferencyjnych)
- Tytuł wydania:
- International Conference on Computational Science 2016 strony 30 - 40
- Język:
- angielski
- Rok wydania:
- 2016
- Opis bibliograficzny:
- Dorożyński P., Czarnul P., Malinowski A., Czuryło, K., Dorau, Ł., Maciejewski, M., Skowron, P.: Checkpointing of Parallel MPI Applications using MPI One-sided API with Support for Byte-addressable Non-volatile RAM// International Conference on Computational Science 2016/ : Elsevier, 2016, s.30-40
- DOI:
- Cyfrowy identyfikator dokumentu elektronicznego (otwiera się w nowej karcie) 10.1016/j.procs.2016.05.295
- Weryfikacja:
- Politechnika Gdańska
wyświetlono 135 razy
Publikacje, które mogą cię zainteresować
A Fail-Safe NVRAM Based Mechanism for Efficient Creation and Recovery of Data Copies in Parallel MPI Applications
- A. Malinowski,
- P. Czarnul,
- M. Maciejewski
- + 1 autorów