Back to Search View Original Cite This Article

Abstract

<jats:p>Предложена воспроизводимая методика полевых испытаний для сравнительного анализа систем мониторинга вычислительных ресурсов с учётом расширенных критериев современной практики: возможностей AIOps, уровня наблюдаемости, поддержки контейнерных сред и интеграции с DevOps/ITSM. Разработаны унифицированный тестовый стенд и набор экспериментальных сценариев: тесты масштабируемости и нагрузки, реагирования на инциденты, длительной стабильности, а также оценка операционной эффективности и пользовательского опыта. Эксперименты проводились на виртуальных машинах с контролируемым числом узлов (10–50 ВМ) с использованием синтетической нагрузки и целенаправленной имитации отказов. В качестве объективных метрик применялись: время обнаружения и оповещения, потребление CPU и памяти, пропускная способность сбора метрик, доля ложных срабатываний, деградация производительности при продолжительной нагрузке, время развертывания и настройки, качество интерфейса и интеграций. На основе эмпирических данных выполнен сравнительный анализ популярных локальных и облачных решений; выявлены архитектурные причины различий в латентности и масштабируемости и показаны компромиссы между автономностью локальных систем и удобством облачных платформ с AIOps. Приведены практические рекомендации.</jats:p> <jats:p>The article proposes a reproducible field-testing methodology for the comparative analysis of monitoring systems for computing resources, taking into account advanced practical criteria: AIOps capabilities, level of observability, container support, and integration with DevOps/ITSM. We developed a unified testbed and a set of experimental scenarios: scalability and load tests, incident-response tests, long-term stability assessment, and evaluation of operational efficiency and user experience. We performed experiments on virtual machines with controlled node counts (10-50 VMs) using synthetic load and targeted failure simulations. Objective metrics included detection and notification latency, CPU and memory consumption, metric-collection throughput, false-alarm rate, performance degradation under prolonged load, deployment and configuration time, and quality of interfaces and integrations. Based on empirical data, we carried out a comparative analysis of popular on-premises and cloud solutions; we identified architectural causes of differences in latency and scalability, and we demonstrated trade-offs between the autonomy of on-premises systems and the convenience of cloud platforms with AIOps. We provide practical recommendations.</jats:p>

Show More

Keywords

aiops load систем devopsitsm масштабируемости

Related Articles

PORE

About

Connect