Abstrakt
This paper introduces a continual learning approach named MagMax, which utilizes model merging to enable large pre-trained models to continuously learn from new data without forgetting previously acquired knowledge. Distinct from traditional continual learning methods that aim to reduce forgetting during task training, MagMax combines sequential fine-tuning with a maximum magnitude weight selection for effective knowledge integration across tasks. Our initial contribution is an extensive examination of model merging techniques, revealing that simple approaches like weight averaging and random weight selection surprisingly hold up well in various continual learning contexts. More importantly, we present MagMax, a novel model-merging strategy that enables continual learning of large pre-trained models for successive tasks. Our thorough evaluation demonstrates the superiority of MagMax in various scenarios, including class- and domain-incremental learning settings. The code is available on github.
Cytowania
-
0
CrossRef
-
0
Web of Science
-
0
Scopus
Autorzy (4)
Cytuj jako
Pełna treść
pełna treść publikacji nie jest dostępna w portalu
Słowa kluczowe
Informacje szczegółowe
- Kategoria:
- Aktywność konferencyjna
- Typ:
- publikacja w wydawnictwie zbiorowym recenzowanym (także w materiałach konferencyjnych)
- Język:
- angielski
- Rok wydania:
- 2024
- Opis bibliograficzny:
- Marczak D., Twardowski B., Trzciński T., Cygert S.: MagMax: Leveraging Model Merging for Seamless Continual Learning// / : , 2024,
- DOI:
- Cyfrowy identyfikator dokumentu elektronicznego (otwiera się w nowej karcie) 10.1007/978-3-031-73013-9_22
- Źródła finansowania:
-
- Poza PG
- Weryfikacja:
- Politechnika Gdańska
wyświetlono 23 razy
Publikacje, które mogą cię zainteresować
Looking through the past: better knowledge retention for generative replay in continual learning
- V. Khan,
- S. Cygert,
- K. Deja
- + 2 autorów
Revisiting Supervision for Continual Representation Learning
- D. Marczak,
- S. Cygert,
- T. Trzciński
- + 1 autorów
Adapt Your Teacher: Improving Knowledge Distillation for Exemplar-free Continual Learning
- F. Szatkowski,
- M. Pyła,
- M. Przewięźlikowski
- + 3 autorów
Category Adaptation Meets Projected Distillation in Generalized Continual Category Discovery
- G. Rypeść,
- D. Marczak,
- S. Cygert
- + 2 autorów