Abstract
<jats:p>Ефективність навчання моделей машинного навчання значною мірою визначається властивостями навчальних даних: їхньою репрезентативністю, рівнем шуму, дублюванням та дисбалансом. У багатьох прикладних сценаріях зростання обсягів датасетів веде не лише до збільшення часу тренування, а й до суттєвих витрат ресурсу кластерів затрачених на тренування моделей. Задача пошуку базової множини ставить за мету вирішити дану проблему: для заданого набору даних необхідно сформувати компактну підвибірку, яка зберігає інформаційну різноманітність даних та забезпечує високу якість навчання моделі за обмежених ресурсів. У роботі запропоновано алгоритм побудови базової множини, з використанням моделі варіаційного автокодувальника (VAE). Ключова ідея полягає в тому, щоб виконувати пошук базової множини не у вихідному просторі даних, а у просторі ознак автокодувальника. Такий підхід дозволяє: (1) компактно кодувати структуру даних та їхні головні фактори варіації, для подальшої обробки (2) оцінювати та порівнювати дані на рівні їх ознак, зменшуючи вплив шуму та надлишковості, (3) формувати репрезентативні прототипи, без впливу конкретної архітектури на фінальний результат. Додатковою перевагою є здатність VAE комбінувати різні дані на рівні їх ознак. Це відкриває можливість підсилення базової множини синтетичними зразками для покращення покриття рідкісних режимів даних. Проведені експерименти на відкритих наборах даних підтверджують перспективність методу: відбір у просторі ознак дозволяє знизити ресурсні витрати та вирішити типову проблему попередніх алгоритмів — високу потребу в пам’яті під час дистиляції або збереження проміжних станів. Тренування та оцінювання виконувалися на загальнодоступних обчислювальних ресурсах, що підвищує практичну цінність підходу для невеликих наукових команд та освітніх лабораторій.</jats:p>