Abstract
<jats:p>Попередні роки передові великі мовні моделі(LLM) були доступні для розробників та користувачів переважно через спеціалізовані прикладні програмні інтерфейси(API), надані такими компаніями, як OpenAI, Anthropic, Google, Meta та інші. Водночас швидкий розвиток відкритого програмного забезпечення призвів до появи у відкритому доступі моделей із відкритими вагами, що дає змогу досліджувати їх структуру, донавчати або перенавчати їх з різними інструкціями. Такі моделі забезпечують гнучкість у питаннях, пов'язаних із контролем даних і розгортанням. Крім того, їх можна ефективно розміщувати на апаратному забезпеченні, зокрема на процесорах сімейства Apple Silicon, споживчих графічних процесорах(GPU) чи інфраструктурі хмарних сервісів. Це дає змогу користувачам експериментувати з моделями, адаптувати їх під власні потреби й розгортати без необхідності використання закритих пропрієтарних рішень. На противагу гнучкому керуванню даними та розгортанню на апаратному забезпеченні, використання відкритих LLM також створює широкий спектр технічних проблем, таких як вибір моделі, підготовка та перевірка навчальних даних, конструювання підказок та інференція. На відміну від пропрієтарних рішень, які опрацьовують усіх технічні аспекти, використання відкритих великих мовних моделей перекладає цю відповідальність на користувача, вимагаючи розуміння природи функціонування моделей для забезпечення їх ефективної роботи в контексті передбачуваного використання. Конструювання підказок залишається основним способом взаємодії із мовними моделями, але в багатьох випадках використання цього підходу є недостатнім для досягнення бажаного рівня ефективності мовної моделі для створення користувацьких застосунків. В таких випадках, такі підходи як тонке налаштування, генерація з доповненням через пошук, як правило, забезпечують вищу ефективність, оскільки дають змогу моделям отримувати доступ до зовнішніх знань та/або адаптувати внутрішні ваги відповідно до користувацької тематики або стилістичних вимог. У цій роботі подано огляд ефективних стратегій підготовки відкритих великих мовних моделей з відкритим кодом для користувацьких додатків. Проводиться огляд загальнодоступних LLM за ключовими категоріями, такими як попередньо навчені, налаштовані за інструкціями та квантизовані, пояснюються основні відмінності між моделями та складність адаптації. Ці відмінності слугують основою для стратегій адаптації, таких як конструювання підказок, генерація з доповненням через пошук (RAG) та тонке налаштування, кожна з яких описана з огляду на практичні переваги застосування. На основі цих результатів у статті розглядаються методи налаштування з ефективним використанням параметрів, включаючи LoRA та QLoRA, а також практичний підбір даних для навчання та типові ризики.</jats:p>