Abstract
<jats:p>Представлена система определения дефектов дорожного полотна и препятствий на дороге, требующих внимания водителя, с использованием предобученных нейронных сетей, основанных на модифицированном алгоритме Detection Transformer (DETR) с измененным механизмом внимания на основе алгоритма адаптивного смешивания. Классический алгоритм отличается высокой точностью детектирования и классификации объектов на изображении. Предлагаемая модификация основывается на необходимости увеличения точности работы алгоритма DETR при уменьшении требуемых для работы вычислительных ресурсов. Описан подход распознавания объектов с использованием глубокого машинного обучения, в котором применяется дообучение нейронной сети. Также разработан алгоритм идентификации дефектов дорожного покрытия. Приводятся результаты тестирования на различных наборах данных, представляющих изображения дороги с различными дефектами или препятствиями. Набор был получен при помощи камеры, установленной на автомобиль, делающий снимки в разрешении 1920×1080, после чего изображения приводились к разрешению в 1333 пикселей по большей стороне. В заключении производится сравнение результатов работы классического и модифицированного алгоритмов DETR по следующим характеристикам: точность, время обучения и время обработки одного изображения.</jats:p> <jats:p>This article presents a system for detecting road defects and obstacles requiring driver attention using pretrained neural networks based on a modified DETR algorithm with a modified attention mechanism based on an adaptive blending algorithm. The classic algorithm is characterized by high accuracy in detecting and classifying objects in images. The modification proposed in this article is based on the need to increase the accuracy of the DETR algorithm while reducing the computational resources required. An approach to object recognition using deep machine learning is described, which utilizes neural network retraining and develops an algorithm for identifying road defects. Test results are presented on various datasets representing road images with various defects or obstacles. The dataset was obtained using a camera mounted on a car, taking photos at a resolution of 1920x1080, after which the images were downsampled to a resolution of 1333 pixels on the longest side. Finally, the results of the classic and modified DETR algorithms are compared based on the following characteristics: accuracy, training time, and processing time per image.</jats:p>