Back to Search View Original Cite This Article

Abstract

<jats:p>У даній роботі досліджується проблема оптимізації гіперпараметрів сучасних мовних моделей на основі трансформерної архітектури, зокрема DistilBERT, BERT, RoBERTa та їхніх похідних, у задачах обробки природної мови. Обґрунтовано доцільність виконання попереднього систематичного пошуку оптимальних значень гіперпараметрів перед початком навчання моделей, оскільки саме ці параметри визначають динаміку процесу оптимізації, стабільність збіжності та узагальнюючу здатність моделі. Показано, що використання стандартних або довільно обраних значень гіперпараметрів часто призводить до погіршення якості результатів, нестабільного процесу навчання та зниження відтворюваності експериментів. У межах роботи проаналізовано вплив ключових гіперпараметрів, зокрема швидкості навчання, коефіцієнта регуляризації, коефіцієнта розігріву, типу планувальника швидкості навчання та кількості епох тренування, на показники якості моделей. Особливу увагу приділено дослідженню поведінки моделей у разі зміни значень зазначених гіперпараметрів, а також виявленню оптимальних діапазонів їхніх значень. Експериментальні результати підтверджують, що некоректний вибір гіперпараметрів може призводити до недонавчання або перенавчання моделі, втрати збіжності алгоритму та суттєвого зниження таких метрик як точність і F1-міра. Водночас ретельний аналіз і обґрунтований добір гіперпараметрів дозволяють досягти стабільного процесу навчання, підвищити якість класифікації та ефективніше використовувати обчислювальні ресурси. Окремо наголошено на актуальності оптимізації гіперпараметрів для моделей, що працюють з україномовними текстами, оскільки обмежений обсяг якісних анотованих датасетів підсилює негативний вплив некоректних налаштувань. Отримані результати демонструють, що навіть без зміни архітектури моделі можна суттєво покращити її продуктивність шляхом належного тюнінгу гіперпараметрів. Практична цінність роботи полягає у формуванні рекомендацій щодо вибору гіперпараметрів для трансформерних моделей, що може бути використано в подальших дослідженнях і прикладних задачах аналізу тональності та класифікації текстів.</jats:p>

Show More

Keywords

гіперпараметрів та моделей навчання що

Related Articles