Abstract
<jats:p>У статті розглядаються методи оцінки енергоефективності авторегресивних великих мовних моделей, побудованих на архітектурі трансформерів, зокрема представників сімейств Cogito, Phi-4, Mistral та RNJ-1. З огляду на стрімке зростання обчислювальної складності механізмів уваги та відповідних енергетичних витрат під час використання моделей, дослідження зосереджується на експериментальному вимірюванні споживаної потужності моделей на споживчому графічному процесорі NVIDIA RTX 3070 Ti із використанням прискорення CUDA. Запропонований підхід дозволяє кількісно оцінити середні, мінімальні та максимальні показники енергоспоживання, а також визначити відносну енергоефективність різних моделей у типових сценаріях генерації тексту. Отримані результати доцільно використовувати для подальших досліджень енергоощадного розгортання систем штучного інтелекту та підкреслюють промислову й екологічну важливість оптимізації енергоспоживання сучасних LLM. Крім того, у статті наведено ряд інших підходів щодо покращення енергоефективності LLM таких як маршрутизація запитів а також динамічна зміна потужності при розшифруванні запиту. Комплексне використання різних методологій оптимізації є важливим фактором в розробці та впровадженні нейромереж LLM.</jats:p>